Unesco ja avoimen lähdekoodin ohjelmistot

UNESCO on julkaissut mielenkiintoisen, vaikkakin suppeahkon selvityksen “Towards an Open Source Repository and Preservation System” avoimen lähdekoodin ohjelmistoista ja työkaluista, joita voidaan käyttää pitkäaikaissäilytykseen keskittyvän arkiston rakentamisessa. Taka-ajatuksena UNESCO:lla on luoda ohjeistus ja suositukset, jotta yksittäisten pienempien kulttuuri- ja muiden instituutioiden olisi helppoa ja kustannustehokasta säilyttää omia digitaalisia aineistojaan luotettavasti pitkällä aikavälillä. Lähtökohtana voi olla vaikka muutama tavallinen PC-mikro. Selvitys esittelee nipun avoimen lähdekoodin ohjelmistoja ja ratkaisuja ja punnitsee niiden toimivuutta. Continue reading

Jos ei ole metadataa, ei kannata digitoida (ALA, 4.posti)

Digitaalisten aineistojen hallinta – säilyttämisen näkökulma. Aiheesta olivat puhumassa Janet Gertz Columbian yliopistosta; Robin Wendler Harvardin yliopistosta; sekä Joseph JaJa Marylandin yliopistosta. Metadata, metadata, metadata, siinäpä tiivistetysti näiden asiantuntijoiden sanoma – josta sanomasta kyllä hieman kiisteltiinkin.

Janet Gertzin esityksestä jäi ennen kaikkea mieleen valinnan merkitys: digitoinnin mielekkyys ja onnistuminen on digitoitavan aineiston onnistuneen valinnan varassa. Se on elintärkeää toiminnan tehokkuden kannalta; ei vain niin, että muuten digitointi on hidasta ja kallista vaan jopa niin, että tuotettu aineisto on käytännöllisesti katsoen hyödytöntä.

Valinnan ensi askel on taas kohdeyleisön määrittely, koska se ohjaa monia digitoinnin kuluessa tehtäviä päätöksiä. Hänellä oli esimerkkinä vanha geologisten valokuvien kokoelma. Niitä voidaan käsitellä aineistona, jolla on merkitystä geologeille; mutta toisaalta kuvissa näkyy paljon sellaista, jolla on historiallista ja kulttuurista merkitystä geologian ulkopuolella. Pidetäänkö kohdeyleisönä esim. suurta yleisöä, jolle kuvilla on paikallishistoriallista arvoa?

Edelleen valinnassa on otettava huomioon aineiston laatu ja kunto. Tyypillinen esimerkki ongelmallisesta aineistosta siinä suhteessa ovat suttuiset sinikopiot ja sen sellaiset. Jos sisällöstä ei saa selvää, miksi digitoida?

Monia muitakin aspekteja on, esim. kriittinen massa vs ainutkertaisuus. Kannatttaako digitoida halpaa paperista pyhimyksenkuvaa? Ei, mutta laaja kokoelma halpoja paperisia pyhimyksenkuvia onkin tutkimuksen kannalta merkittävä ja siksi digitointi kannattaa. Toisaalta jokin uniikki kirja tms. kannattaa digitoida yksittäisenäkin.

Ja sitten se metadata. Metadataa ei koskaan voi olla liikaa! Gertz tähdensi. Jos aineisto ei ole hyvässä järjestyksessä ja kunnollisesti kuvailtu, älä edes uneksu digitoivasi sitä!

Tästä sitten vähän keskusteltiinkin. Gertzillä oli varoittavana esimerkkinä kokoelma luonnospiirustuksia, joista ei ollut kunnon metadataa. Yleisöstä kysyttiin, mitä mielekästä metadataa niistä voisi olla, keskenään samannäköisistä saman aiheen luonnoksista. Mikään sanallinen kuvailu ei olisi hyödyllinen, vaan käyttö perustuisi kuitenkin kuvien katseluun. Ongelma ei siis kenties ollut metadatan puute vaan esikatselukuvien puute. No, Gertzhän oli tähdentänyt myös aineiston järjestystä, mikä taas tässä tapauksessa oli elintärkeää. Jos aineistoja kuvaillaan vain kokoelmatasolla, kokoelmien pitää olla järkeviä (tai noudattaa fyysisen aineiston säilytystapaa). Ja edelleen: sitä merkittävämpää on kokoelmatason kunnollinen luettelointi

Digitaalisella objektilla tulee siis olla konteksti, ja metadata tarjoaa sen kontekstin. Saapuipa käyttäjä tarkastelemaan objektia mitä kautta tahansa, sen pitäisi esiintyä kontekstissaan; tämä asettaa sitten tiettyjä vaarimuksia esim. käyttöliittymälle.

Robin Wendlerin esitys heijasteli samaa ajattelutapaa. Hän korosti metadatan oikea-aikaista keruuta: osa metadatasta on sellaista, että se on välttämätöntä kirjata tietyssä prosessin vaiheessa, tai se menetetään kokonaan. Tällaista on esim. digitoinnissa käytettyjä asetuksia koskeva tieto. Toinen seikka, jota Wendler korosti – ja jossa kuulema usein laistetaan – on digitoinnin laadunvarmistus. Huonona esimerkkinä oli Google, joka ei kai yritäkään valvoa laatua, ja esimerkkejä sotkuista onkin sen digitoimissa kirjoissa helppo löytää.Niiden korjaaminen olisikin sitten aikamoinen haaste.

Joseph JaJa esitteli ADAPT-hanketta (An Approach to Digital Arciving and Preservation Technology) ja ACEa (Auditing Control Environment).

ADAPT on monikerroksinen digitaalisten aineistojen hallinnan arkkitehtuurikonsepti, jonka ympärille on keitetty myös avoimen lähdekoodin työkaluja. Siitä on pyritty rakentamaan sellainen, että se sopeutuu hyvin erilaisiin toimintaympäristön muutoksiin. Hanke on vielä kokeiluvaiheessa, ja kehitetyt työkalut ovat vielä hieman tiskin alla. (Tätä kirjottaessani hankkeen demotkaan eivät oikein tunnu toimivan.)

ACEn tarkoitus on automatisoida säilytettävien tiedostojen integriteetin valvonta. Sekin on vielä kehittelyvaiheessa.

Metadataa itsestään ja ilmaiseksi (ALA, 3. posti)

Lauantaiaamun MARC-pläjäyksen jälkeen siirryin enemmän oman alan esitykseen, jonka piti Patrick Yott, Brown Universityn digitaalisten palveluiden päällikkö. Aiheena oli metadatan luominen automaattisesti avoimen lähdekoodin ohjelmistoja käyttäen.

No, itse asiassa voimme ylpeinä todeta, että johan tuota meillläkin tehdään suorastaan rutiininomaisesti, ja esityksessä esitellyt ohjelmistotkin olivat aikas tuttuja. Tässä ja muissakin myöhemmin blogattavissa esityksissä omatuntoa soimasi lähinnä se, kuinka paljon muualla on pantu aikaa suunnitteluun, dokumentointiin, toimintatapojen yhdenmukaistamiseen ja muuhun sellaiseen, joka ohjaa digitaalisten aineistojen hallintaa pois projektimaisuudesta ja kohti pysyvää toimintaa. Miksi meillä ollaan enemmän lastuna lainehina ja tehdään asioita sitä myöten kuin eteen osuu – ei välttämättä huonosti mutta vähän veitsi kurkulla -meiningillä -, siihen on monia syitä, joihin toivottavasti ennätän jossakin vaiheessa palata.

Ikävä kyllä ohjelmistot – ainakaan avoimen lähdekoodin ohjelmistot – eivät vielä ihan osaa sisällönkuvailua ja asasanoitusta. Esitys koskikin ennen kaikkea nk. teknisen metadatan keräämistä. Tekninen metadata on tarpeen ennen kaikkea digitaalisissa kokoelmissa, joissa aineiston käyttö ja säilyminen on suurelti kiinni siitä, että tiedämme, miten aineistoa tulee käyttää.

Luetteloijat ovat niukkuusvaranto, ja digitaalisten aineistojen tekninen luettelointi on joka tapauksessa tehtävä, joka ei ole käsin tehtävissä, sen verran isoista datamääristä on kysymys. Yott otti esimerkiksi 24-sivuiden lehden, josta jokainen sivu tallennetaan tiff-tiedostona sekä kolmena erikokoisena jpeg-tiedostona. Tuloksena on 96 tiedostoa, joista kaikista tarvitaan teknistä metadataa. Lisäksi tarvitaan rakenteellista metadataa eli tietoja siitä, miten eri tiedostot suhtautuvat toisiinsa: mitkä ovat saman sivun kuvia, ja missä järjestyksessä sivujen kuuluu olla.Tähän pitää vielä lisätä käyttöoikeuksia koskeva tieto, sekin perimmiltään tiedostokohtaista sekä kuvien esittämistä käyttöliittymässä koskeva tieto.

Eikä tässä vielä kaikki! Vielä on tarvis säilyttämisen mahdollistava metadata. Tieodostot on pystyttävä luotettavasti identifioimaan ja niissä tapahtuvat muutokset kirjaamaan.

Brown Universityssä on periaatteena, että kaikista digitaalisista objekteista on olemassa kuvailu METS-formaatissa. Lisäksi yhtenäisyyden vuoksi eri lähteistä tulevat sisällönkuvailut muunnetaan MODSiksi, vaikka METS periaatteessa sallii erilaisten sisällönkuvailujen upottamisen.

Kaikki METS-tietueen sisältämä tekninen metadata kerätään sitten automaattisesti. Yotts esitteli lähemmin kolmea avoimen lähdekoodin ohjelmistoa, joita Brownissa on käytetty.

  • mp3::info – lukee mp3-tiedostojen headereita
  • ExifTool – kerää teknistä metadataa lukuisista tiedostomuodoista
  • JHOVE – paitsi kerää metadataa, voi validoida tiedostoja erilaisiin profiileihin verraten

Muutenkin Yotts suositteli lämpimästi CPANia, josta on saatavilla suuri joukko Perl-skriptejä eri tarkoituksiin; kaksi ensin mainittua apuvälinettä on toteutettu Perlillä, JHOVE Javalla.

Isot Amerikan kirjastot ovat ennenkin tehneet aika paljon työvälineitä itse. Kun avoimen lähdekoodin projekteja poikii lisää, ne ovat siinä onnellisessa asemassa, että niillä on paljon osaavaa väkeä töissä, joka pystyy hyödyntämään lisääntyvää tarjontaa. Kansalliskirjasto lähestyy esimerkiksi pitkäaikaissäilytystä ihan toisenlaisesta tilanteesta ja toisenlaisin resurssein, mutta kyllä esim. DSpace-projekti on jo osoittanut kollektiivisen kehittämisen vahvuuksia – jos toki senkin, ettei ilmainen koodi kuitenkaan ilmaista ole. Avoin lähdekoodi ja sen mahdollisuudet pitää kyllä tarkasti ottaa huomioon, kun tehdään isoja tulevaisuuden ratkaisuja. Paras tietenkin olisi jos softatoimittajat osaisivat rakentaa houkuttelevia tarjouksia avoimen lähdekoodin varaan. Kaikkea ei tarvitsisi tehdä itse, mutta vapaus omiinkin kehitysprojekteihin olisi olemassa.