UDFR – tuo uusi tiedostomuotorekisteri

Monelleko on tuttu käsite “tiedostomuotorekisteri”? Luultavasti harvalle, mutta digitaalisessa pitkäaikaissäilytyksessä niillä on oma, merkittävä roolinsa – ainakin periaatteessa, kuten myöhemmin selviää.

Tavallisen tietokoneen käyttäjän huolena on lähinnä se, onko hänellä tarvittavaa ohjelmaa lukea ja käsitellä esimerkiksi sukujuhlista otettuja digivalokuvia tai miten hän voi avata ystävän lähettämän uuden XML-pohjaisen Microsoft Office -tiedoston joitakin vuosia vanhalla Microsoft Officellaan.

Tiedostoja vuosikymmeniä tai vuosisatoja säilyttävän tahon huolenaiheena on puolestaan se, miten säilytettäviä tiedostoja voidaan käyttää teknologian muuttuessa. Ohjelmistot ja käyttöjärjestelmät, laitteistoja unohtamatta, korvautuvat väistämättä. Säilyttäjän on oltava perillä tiedostojen teknisistä ominaisuuksista, millä ohjelmistolla ne on luotu, miten niitä voidaan käsitellä ja niin edelleen. Tiedostomuotorekistereihin kerätään tällaista tietoa säilyttäviä tahoja varten. Tämän johdatuksen jälkeen voidaankin siirtyä varsinaisen asian pariin.

Maailmalla on näihin päiviin asti ollut kaksi kilpailevaa rekisteriä, brittien PRONOM ja Harvardin yliopiston Global Digital Formats Registry, tai tuttavallisemmin GDFR. Rekisterit näkivät päivänvalon 2000-luvun alussa, jolloin niitä kehitettiin myös muutamia vuosia, kunnes molemmat päättyivät viettämään hiljaiseloa. Näistä kahdesta PRONOM sai enemmän kannatusta asiasta vihkiytyneiden parissa. PRONOM:iin myös kehitettiin kätevä työkalu nimeltä DROID, jolla voidaan automatisoida isojen tiedostomäärien tiedostomuotojen tunnistaminen. Noin neljään vuoteen ei tapahtunut juuri mitään, kunnes huhtikuun alussa ilmoitettiin, että tämä kaksi rekisteriä yhdistyvät. (Joku voisi kysyä, mitä hyötyä kahden rinnakkaisen rekisterin ylläpitämisessä oli ylipäätään.)

Uuden tiedostomuotorekisterin, Unified Digital Formats Registryn (UDFR), on tarkoitus olla mahtavampi kuin PRONOM:n ja GDFR:n yhteensä. PRONOM on ollut riippuvainen yhdestä instituutiosta ja GDFR taas teknisesti jälkeenjäänyt. UDFR tulee perustumaan PRONOM:iin, mutta mikä tärkeintä, UDFR:aa varten perustetaan oma yhteisönsä, joka tulee kehittämään ja ylläpitämään sitä. Väliaikaista yhteisön hallintoelintä ollaan kokoamassa jo nyt.

Uutista on syytä taustoittaa enemmän. PRONOM, joka on kuitenkin ollut GDFR:ää edistyksellisempi, ei ole sekään ollut pitkäaikaissäilytyksen riemuvoitto. Käytännössä PRONOM:ia (tai GDFR:ää) on käytetty vähän, vaikka periaatteessa tiedostomuotorekisterin käyttäminen on ollut hyvin kannatettavaa. PRONOM:in sisältö on nimittäin puutteellista ja päivityksiä on tehty harvakseltaan. Muutaman tekemäni haun perusteella esimerkiksi WordPerfect-tiedostomuodon versioista ei löydy kunnollista kuvausta eikä myöskään uusista Microsoft Officen XML-pohjaisista tiedostomuodoista.  Olin silti yllättynyt, kun huomasin PRONOM:ssa olevan myös mahdollista tarkastella muunnoksia tiedostomuodosta toiseen (migration pathway). Kyseinen toiminto on kuitenkin jäänyt ilmeisesti pelkän prototyypin asteelle: haku edes niinkin yksinkertaiselle tapaukselle kuin Microsoft Office -dokumentin muuntaminen PDF:ksi ei tuottanut mainittavia tuloksia.

Olen mielessäni kuvitellut sellaista mahdollisuutta, että tulevaisuuden pitkäaikaissäilytysjärjestelmät osaisivat suoriutua muuntamisesta mahdollisimman automaattisesti. Se vaatisi, että tiedostomuotorekistereihin kerättäisiin tarkkoja muunnoksiin liittyviä tietoja ja kokemuksia. Pitkäaikaissäilytysohjelmisto voisi esimerkiksi suorittaa täysin riskittömiä muunnoksia itsekseen, automaattisesti ja pyytää henkilökuntaa ainoastaan tarkistamaan muunnoksien tuloksia pistokokein. Toisaalta ohjelmisto voisi tarjota henkilökunnalle mahdollisia ”muunnospolkuja” tiedostomuodosta toiseen vaikeammille tiedostomuodoille. Tällaisen utopian toteutuminen vaatisi kuitenkin huomattavia lisäyksiä esimerkiksi PRONOM:n kaltaiseen toteutukseen.

PRONOM on harmillisesti jäänyt tiedostomuotorekisteri-idean esimerkinomaiseksi toteutukseksi, vaikka se usein yhä nostetaan esille ja mainitaan periaatteellisella tasolla liikkuvissa keskusteluissa. Siksi uutinen yhdistymisestä on ilahduttava. Toivotaan että UDFR ei jää pelkäksi kahden rekisterin fuusioksi, vaan sen myötä myös tiedostomuotorekisterin kehitys saa kunnolla tuulta purjeisiinsa.