Metadataa itsestään ja ilmaiseksi (ALA, 3. posti)

Lauantaiaamun MARC-pläjäyksen jälkeen siirryin enemmän oman alan esitykseen, jonka piti Patrick Yott, Brown Universityn digitaalisten palveluiden päällikkö. Aiheena oli metadatan luominen automaattisesti avoimen lähdekoodin ohjelmistoja käyttäen.

No, itse asiassa voimme ylpeinä todeta, että johan tuota meillläkin tehdään suorastaan rutiininomaisesti, ja esityksessä esitellyt ohjelmistotkin olivat aikas tuttuja. Tässä ja muissakin myöhemmin blogattavissa esityksissä omatuntoa soimasi lähinnä se, kuinka paljon muualla on pantu aikaa suunnitteluun, dokumentointiin, toimintatapojen yhdenmukaistamiseen ja muuhun sellaiseen, joka ohjaa digitaalisten aineistojen hallintaa pois projektimaisuudesta ja kohti pysyvää toimintaa. Miksi meillä ollaan enemmän lastuna lainehina ja tehdään asioita sitä myöten kuin eteen osuu – ei välttämättä huonosti mutta vähän veitsi kurkulla -meiningillä -, siihen on monia syitä, joihin toivottavasti ennätän jossakin vaiheessa palata.

Ikävä kyllä ohjelmistot – ainakaan avoimen lähdekoodin ohjelmistot – eivät vielä ihan osaa sisällönkuvailua ja asasanoitusta. Esitys koskikin ennen kaikkea nk. teknisen metadatan keräämistä. Tekninen metadata on tarpeen ennen kaikkea digitaalisissa kokoelmissa, joissa aineiston käyttö ja säilyminen on suurelti kiinni siitä, että tiedämme, miten aineistoa tulee käyttää.

Luetteloijat ovat niukkuusvaranto, ja digitaalisten aineistojen tekninen luettelointi on joka tapauksessa tehtävä, joka ei ole käsin tehtävissä, sen verran isoista datamääristä on kysymys. Yott otti esimerkiksi 24-sivuiden lehden, josta jokainen sivu tallennetaan tiff-tiedostona sekä kolmena erikokoisena jpeg-tiedostona. Tuloksena on 96 tiedostoa, joista kaikista tarvitaan teknistä metadataa. Lisäksi tarvitaan rakenteellista metadataa eli tietoja siitä, miten eri tiedostot suhtautuvat toisiinsa: mitkä ovat saman sivun kuvia, ja missä järjestyksessä sivujen kuuluu olla.Tähän pitää vielä lisätä käyttöoikeuksia koskeva tieto, sekin perimmiltään tiedostokohtaista sekä kuvien esittämistä käyttöliittymässä koskeva tieto.

Eikä tässä vielä kaikki! Vielä on tarvis säilyttämisen mahdollistava metadata. Tieodostot on pystyttävä luotettavasti identifioimaan ja niissä tapahtuvat muutokset kirjaamaan.

Brown Universityssä on periaatteena, että kaikista digitaalisista objekteista on olemassa kuvailu METS-formaatissa. Lisäksi yhtenäisyyden vuoksi eri lähteistä tulevat sisällönkuvailut muunnetaan MODSiksi, vaikka METS periaatteessa sallii erilaisten sisällönkuvailujen upottamisen.

Kaikki METS-tietueen sisältämä tekninen metadata kerätään sitten automaattisesti. Yotts esitteli lähemmin kolmea avoimen lähdekoodin ohjelmistoa, joita Brownissa on käytetty.

  • mp3::info – lukee mp3-tiedostojen headereita
  • ExifTool – kerää teknistä metadataa lukuisista tiedostomuodoista
  • JHOVE – paitsi kerää metadataa, voi validoida tiedostoja erilaisiin profiileihin verraten

Muutenkin Yotts suositteli lämpimästi CPANia, josta on saatavilla suuri joukko Perl-skriptejä eri tarkoituksiin; kaksi ensin mainittua apuvälinettä on toteutettu Perlillä, JHOVE Javalla.

Isot Amerikan kirjastot ovat ennenkin tehneet aika paljon työvälineitä itse. Kun avoimen lähdekoodin projekteja poikii lisää, ne ovat siinä onnellisessa asemassa, että niillä on paljon osaavaa väkeä töissä, joka pystyy hyödyntämään lisääntyvää tarjontaa. Kansalliskirjasto lähestyy esimerkiksi pitkäaikaissäilytystä ihan toisenlaisesta tilanteesta ja toisenlaisin resurssein, mutta kyllä esim. DSpace-projekti on jo osoittanut kollektiivisen kehittämisen vahvuuksia – jos toki senkin, ettei ilmainen koodi kuitenkaan ilmaista ole. Avoin lähdekoodi ja sen mahdollisuudet pitää kyllä tarkasti ottaa huomioon, kun tehdään isoja tulevaisuuden ratkaisuja. Paras tietenkin olisi jos softatoimittajat osaisivat rakentaa houkuttelevia tarjouksia avoimen lähdekoodin varaan. Kaikkea ei tarvitsisi tehdä itse, mutta vapaus omiinkin kehitysprojekteihin olisi olemassa.