Jos ei ole metadataa, ei kannata digitoida (ALA, 4.posti)

Digitaalisten aineistojen hallinta – säilyttämisen näkökulma. Aiheesta olivat puhumassa Janet Gertz Columbian yliopistosta; Robin Wendler Harvardin yliopistosta; sekä Joseph JaJa Marylandin yliopistosta. Metadata, metadata, metadata, siinäpä tiivistetysti näiden asiantuntijoiden sanoma – josta sanomasta kyllä hieman kiisteltiinkin.

Janet Gertzin esityksestä jäi ennen kaikkea mieleen valinnan merkitys: digitoinnin mielekkyys ja onnistuminen on digitoitavan aineiston onnistuneen valinnan varassa. Se on elintärkeää toiminnan tehokkuden kannalta; ei vain niin, että muuten digitointi on hidasta ja kallista vaan jopa niin, että tuotettu aineisto on käytännöllisesti katsoen hyödytöntä.

Valinnan ensi askel on taas kohdeyleisön määrittely, koska se ohjaa monia digitoinnin kuluessa tehtäviä päätöksiä. Hänellä oli esimerkkinä vanha geologisten valokuvien kokoelma. Niitä voidaan käsitellä aineistona, jolla on merkitystä geologeille; mutta toisaalta kuvissa näkyy paljon sellaista, jolla on historiallista ja kulttuurista merkitystä geologian ulkopuolella. Pidetäänkö kohdeyleisönä esim. suurta yleisöä, jolle kuvilla on paikallishistoriallista arvoa?

Edelleen valinnassa on otettava huomioon aineiston laatu ja kunto. Tyypillinen esimerkki ongelmallisesta aineistosta siinä suhteessa ovat suttuiset sinikopiot ja sen sellaiset. Jos sisällöstä ei saa selvää, miksi digitoida?

Monia muitakin aspekteja on, esim. kriittinen massa vs ainutkertaisuus. Kannatttaako digitoida halpaa paperista pyhimyksenkuvaa? Ei, mutta laaja kokoelma halpoja paperisia pyhimyksenkuvia onkin tutkimuksen kannalta merkittävä ja siksi digitointi kannattaa. Toisaalta jokin uniikki kirja tms. kannattaa digitoida yksittäisenäkin.

Ja sitten se metadata. Metadataa ei koskaan voi olla liikaa! Gertz tähdensi. Jos aineisto ei ole hyvässä järjestyksessä ja kunnollisesti kuvailtu, älä edes uneksu digitoivasi sitä!

Tästä sitten vähän keskusteltiinkin. Gertzillä oli varoittavana esimerkkinä kokoelma luonnospiirustuksia, joista ei ollut kunnon metadataa. Yleisöstä kysyttiin, mitä mielekästä metadataa niistä voisi olla, keskenään samannäköisistä saman aiheen luonnoksista. Mikään sanallinen kuvailu ei olisi hyödyllinen, vaan käyttö perustuisi kuitenkin kuvien katseluun. Ongelma ei siis kenties ollut metadatan puute vaan esikatselukuvien puute. No, Gertzhän oli tähdentänyt myös aineiston järjestystä, mikä taas tässä tapauksessa oli elintärkeää. Jos aineistoja kuvaillaan vain kokoelmatasolla, kokoelmien pitää olla järkeviä (tai noudattaa fyysisen aineiston säilytystapaa). Ja edelleen: sitä merkittävämpää on kokoelmatason kunnollinen luettelointi

Digitaalisella objektilla tulee siis olla konteksti, ja metadata tarjoaa sen kontekstin. Saapuipa käyttäjä tarkastelemaan objektia mitä kautta tahansa, sen pitäisi esiintyä kontekstissaan; tämä asettaa sitten tiettyjä vaarimuksia esim. käyttöliittymälle.

Robin Wendlerin esitys heijasteli samaa ajattelutapaa. Hän korosti metadatan oikea-aikaista keruuta: osa metadatasta on sellaista, että se on välttämätöntä kirjata tietyssä prosessin vaiheessa, tai se menetetään kokonaan. Tällaista on esim. digitoinnissa käytettyjä asetuksia koskeva tieto. Toinen seikka, jota Wendler korosti – ja jossa kuulema usein laistetaan – on digitoinnin laadunvarmistus. Huonona esimerkkinä oli Google, joka ei kai yritäkään valvoa laatua, ja esimerkkejä sotkuista onkin sen digitoimissa kirjoissa helppo löytää.Niiden korjaaminen olisikin sitten aikamoinen haaste.

Joseph JaJa esitteli ADAPT-hanketta (An Approach to Digital Arciving and Preservation Technology) ja ACEa (Auditing Control Environment).

ADAPT on monikerroksinen digitaalisten aineistojen hallinnan arkkitehtuurikonsepti, jonka ympärille on keitetty myös avoimen lähdekoodin työkaluja. Siitä on pyritty rakentamaan sellainen, että se sopeutuu hyvin erilaisiin toimintaympäristön muutoksiin. Hanke on vielä kokeiluvaiheessa, ja kehitetyt työkalut ovat vielä hieman tiskin alla. (Tätä kirjottaessani hankkeen demotkaan eivät oikein tunnu toimivan.)

ACEn tarkoitus on automatisoida säilytettävien tiedostojen integriteetin valvonta. Sekin on vielä kehittelyvaiheessa.