Planets ja käytännön harjoitteita pitkäaikaissäilytyksessä

planets_logo

EU:n rahoittaman suurhankkeen PLANETS:n tuloksia on odotettu hartaasti sen käynnistymisvuodesta 2006 alkaen. Hankkeen ensimmäisessä koulutustilaisuudessa Kööpenhaminassa oli mahdollista saada ensikäden tietoa siitä, mitä hankkeeseen laitetulla 14 miljoonalla eurolla on saatu aikaan. Olin paikalla koko tilaisuuden ajan eli yhteensä kolme päivää.

PLANETS-hanke (eli Preservation and Long-term Access Through NETworked Services) on kooltaan massiivinen, siihen kuuluu 16 organisaatiota, joista useat – mm. British Library, Hollannin kansalliskirjasto ja Glasgow’n yliopiston HATII – ovat hyvin kokeneita digitaalisen aineiston säilyttäjiä. PLANETS julkaisee vuoden kuluttua hankkeen päättyessä tuloksensa, joista tärkeimmät ovat

  • PLATO – työkalu säilytyksen suunnitteluun
  • XCDL – Digitaalisten objektien kuvauskieli
  • Palvelut digitaalisten objektin migraatioon ja emulaatioon

Kaikki PLANETS:n tuotokset tulevat olemaan vapaasti käytettäviä avoimen lähdekoodin ohjelmistoja. Tarkastelen tässä merkinnässä yhtä näistä tuotoksista, nimittäin Platoa, joka on tuloksista ehkä kiinnostavin.

Plato

Plato on kiinnostava sen takia, että se pureutuu sellaiseen kohtaan pitkäaikaissäilytyksessä, jossa tietotekniikalla tai automaatiolla on vähän sijaa: säilytyksen suunnitteluun.

Säilytyksen suunnittelu on kiistatta tärkein tehtävä pitkäaikaissäilytyksessä. Kun aineisto on saatu talteen, pitäisi miettiä mitä sille tehdään. Hieno pitkäaikaissäilytysjärjestelmä ei yksin riitä. Suunnitelman laatimisesta on hyvä lähteä liikkeelle. Suunnitelman on luonnollisesti oltava tarpeeksi yksityiskohtainen, jotta sen perusteella voidaan tehdä jotain – tai yhtä hyvin päättää olla tekemättä mitään.

Plato on luotu tähän tarpeeseen. Se tarjoaa kehikon suunnitelmalle ja ohjeistaa sen laatimisessa. Suunnitelma luodaan kokoelmakohtaisesti. Plato kysyy tietoja esimerkiksi kokoelman luonteesta, koosta, kartunnasta ja mikä tärkeintä, kokoelman olennaisista piirteistä. Kun tiedetään mitkä piirteet aineistossa ovat olennaisia ja mikä niiden tärkeysjärjestys tai keskinäinen suhde on, voidaan paremmin arvioida erilaisten menetelmien soveltuvuutta aineiston säilyttämiseksi.

Esimerkiksi migraatiossa eli muunnettaessa aineistoa muodosta toiseen, jotkin aineiston piirteet voivat muuttua – jos ei mikään muu, niin ainakin tallennusmuoto. Digitaalisen kokoelman hallinnoija voi määritellä formaalisti aineiston olennaiset piirteet ja sen pohjalta vertailla eri säilytysmenetelmien ja työkalujen tuloksia keskenään Platossa ja arvioida, millä tavalla aineisto saadaan säilytettyä mahdollisimman muuttumattomina, ainakin tärkeimpien elementtiensä osalta. Kokoelman on oltava jossain määrin homogeeninen, jotta kaikkia kokoelman aineistojen piirteitä voidaan luokitella yhdenmukaisesti.

Nyt siirrytään astetta konkreettisemmalle tasolle ja tarkastellaan Platon käyttöä esimerkkitilanteessa. Otetaan esimerkiksi julkisessa käytössä oleva, suosittu Teollisuuden hinnastoja vuosilta 1810-1944 –kokoelma. Alla muutama kuva aineistosta:

johtotukieristäjämalleja

Itselläni on pääsy vain asiakaskäyttöön tarkoitettuihin JPG-kuviin, joita käytän tässä kokoelman näytekappaleina. Uskoisin että Mikkelin digitointikeskuksella on tallessa alkuperäiset digitoidut kuvat esim. JPEG2000- tai jossakin muussa säilytyksellisesti järkevässä tallennusmuodossa. (Sanottakoon se nyt, että digitaalisen aineiston pitkäaikaissäilytys ei ole Kansalliskirjastolla vielä täysin koordinoitua ja organisoitua.)

Loin Platolla säilytyssuunnitelman kokoelmalle ja latasin yllä olevat kuvat näytteiksi kokoelman sisällöstä. Plato tunnisti näytteet käyttämällä DROID:ia JPEG 1.02:ksi. Seuraavaksi työnkulussa oli määriteltävä aineistolle olennaiset piirteet. Päädyin seuraavanlaiseen hahmotelmaan:

1. Tekniset piirteet

  • resoluutio
  • pakkaus
  • väriavaruus

2. Rakenne

  • sivunumerointi
  • kuviot
  • otsikot

3. Ulkoasu

  • värit
  • fontit
  • layout
  • kuvantarkkuus

4. Sisältö

  • yleinen sisältö

Hahmotelma ei ole täysin itse keksimäni. Otin pohjaksi InsPECT-projektin laatiman kehyksen, jossa olennaisille piirteille on määritelty viisi abstraktia luokitusta. (InsPECT:n kehykseen kannattaa tutustua, se toimii myös hyvänä johdatuksena olennaisten piirteiden määrittelyyn.) Rakenne-luokka ei ole kovin tarpeellinen, kuvien ollessa kyseessä rakenne kun tuppaa pysymään väistämättä samanlaisena, vaikka aineistoa muunnettaisiin. Tekstidokumenttien laita on tietenkin toinen. Yleinen sisältö oli mukana sen takia, jos olisin sattunut unohtamaan jonkin tärkeän piirteen. Piirteet oli tarkoitus tehdä mitattavaksi vertailua varten. Valitsin niitä varten järjestysasteikon (yes, acceptable ja no).

Kun luokittelu on tehty, voidaan siirtyä tarkastelemaan eri säilytysmenetelmiä. Ideana on, että Platon avulla Planetsin Testbedissä eri säilytysmenetelmiä voidaan kokeilla testiaineistoilla niin kuin laboratoriossa. Nyt testivaiheessa Platossa on tarjolla valmiiksi ainoastaan migraatiopalvelu, mutta projektin päättyessä niitä on tulossa lisää. Valitsin vertailun vuoksi migraatiopoluiksi sekä JPG-JPEG2000- että JPG-PNG-muunnoksen.

Platon työnkulussa tultiin vielä i vaiheeseen, jossa voi päättää, mitä vaihtoehtoa haluaa kokeilla tai haluaako kokeilla mitään ja perustella päätöksensä. Kaikki tämä on tietenkin hyödyllistä dokumentaation kannalta. Kaikki aineistoihin kohdistuvat säilytystoimet on järkevää dokumentoida ja miettiä, jotta voidaan osoittaa tehtyjen toimenpiteiden tarpeellisuus ja hyödyllisyys.

Kuvat (JPG, PNG ja JPEG2000 -formaateissa)

Kuvista huomaa, että JPEG2000-muunnos ollut täysin jäännöksetön (ks. kuitenkin PS alla). Plato pyysi arvioimaan aiemmin valitun asteikon mukaisesti kahden eri migraation tuloksia. Asetin muille paitsi kuvantarkkuudelle arvon ”yes”. Kun tulokset oli arvioitu, asetettiin eri luokille painoarvot niiden tärkeyden mukaan ja ns. tavoitearvot. Sisältö sai korkeimman painoarvon, yli puolet. Rakenteelle ja ulkoasulle jäi loput ja teknisille piirteille ainoastaan hyvin pieni merkitysarvo.

Lopuksi pääsi vihdoin ja viimein tarkastelemaan tuloksia. Tässä olennainen osuus niistä:

results

Rootin kohdalla näkyy kokonaisarvosana: PNG:lle se on täydet viisi (tavoitearvomaksimi) ja JPEG2000:lle hieman vajaa viisi. Tulokseen ei voi olla täysin tyytyväinen, onhan JPEG2000-kuva selvästi alkuperäistä heikkolaatuisempi. PNG-muunnoksen pitäisi erottua selvästi JPEG2000-muunnoksesta. Valitettavan pieni ero selittyy sillä, että ulkoasu-kokonaisuudella oli pieni painotus pisteytyksessä, ja kuvanterävyys oli vain yksi pieni osa ulkoasua (ks. kuva alla).

results2

Mitä tästä voi päätellä? Minulle ainoastaan mieleen se vaihtoehto, etten osannut painottaa eri elementtejä suhteessa oikein. Toisaalta en määritellyt ollenkaan hylkäyskriteerejä. Olisin voinut määritellä huonon kuvantarkkuuden menetelmän hylkäyskriteeriksi, mutta en tehnyt niin. Toisaalta taas en tiennyt, kuinka paljon kuvantarkkuus voisi huonontua muunnoksessa.

Joka tapauksessa olennaisten piirteiden määrittely saati mitattavaksi tekeminen on haastavaa. Eikä sitä voi laskea Platon syyksi. Käytännössä migraatiopolun päättäminen saattaa perustua omaan harkintaan ja testaamiseen. Plato-työkalulla yritetään näistä päätöksistä tehdä kuitenkin läpinäkyviä ja hyvin dokumentoituja, missä se onnistuukin hyvin.

Jätetään pohdinta ja jatketaan vielä hetki Platon työnkulussa. Kun suunnitelman laatimisessa oli edetty Platossa tähän vaiheeseen, tehtiin seuraavaksi päätös kokoelmalle suositeltavasta säilytysmenetelmästä ja perusteltiin se. Säilytyssuunnitelma on valmis, kun sitä oli täydennetty yleisillä tiedoilla suunnitelman täytäntöönpanosta ja suunnitelman päivitystä vaativista tekijöistä. Olipa loppuun lisätty kohtia, joissa pyydetään arvioimaan kokoelman säilytyksen kustannuksia. Jotkin kentät tai kysymykset olivat kieltämättä hieman yksinkertaistettuja ja naiivejakin, mutta en antanut sen häiritä testivaiheessa olevan työkalun tarkastelua. (Ks. “valmis” suunnitelma.)

Kaiken kaikkiaan Plato on onnistunut mielestäni hyvin tehtävässään. Sen avulla piilevät perustelut ja päätökset saadaan hyvin esille. Plato on ensimmäinen konkreettinen työkalu, jolla säilytyksen suunnittelua voidaan kuvitella tehtävän edes hieman helpommaksi.

PS. Suureksi huvikseni huomasin, että JPEG2000-muunnos oli sittenkin häviötön. Tarkastelin kuvia QuickTimen PictureViewerilla, joka sattumoisin näyttää JPEG2000-kuvat erilaisena. Esim. ImageMacigk näytti JPEG2000-kuvat aivan kelvollisina. Onneksi satuin epäilemään tuloksia, tosin vasta siinä vaiheessa kun olin jo kirjoittanut kaiken tämän. Kirjoituksen informatiivisuutta virhe tuskin vähentää, ja itse asiassa se sisältää pienen opetuksen. Ei kannata luottaa yhteen ohjelmistoon muunnosten tuloksia tarkastellessa.

PPS. Tässä kuvankaappaus ruudultani, jonka tallensin JPG:ksi (!) Ja uusi huomio: Quicktimen PictureViewer näyttää myös alkuperäisen JPG:n virheellisenä. Pikkukuva on rakeinen.