Humanisti datamaailmassa: Digitaalista pimeää aikaa estämässä

Mitä digitaalisesta ajasta jää jäljelle tuleville sukupolville? Mitä tiedämme nykyajasta sadan tai parin sadan vuoden päästä? Aleksi Peura nostaa kirjoitussarjansa kuudennessa osassa esiin pitkäaikaissäilytyksen (PAS) visaisia kysymyksiä, joista vähäisimpiä ei ole tulevaisuuden ennustaminen. Vaikka PAS-kysymykset, kuten mitä nykyajasta kannattaa säilyttää tai miten se tehdään, ovat valtavia, niihin on mahdollista valmistautua – erityisesti datanhallintaa suunnittelemalla. Tavoite on kuitenkin kirkas, kuten Aleksi Peura toteaa: ”PAS:n tehtävänä on toimia muistinamme.”

Teksti: Aleksi Peura

Aleksi Peura työskentelee Helsingin yliopiston kirjaston datatiimissä tietoasiantuntijana. Kuva: Jussi Männistö

Historioitsijan näkökulmasta tiedon säilyttäminen sukupolvien ja vuosisatojen yli on jo täydellistetty: kirjoitetaan se ylös, säilötään julkiseen arkistoon ja varmistetaan, että valitulle tallennusmateriaalille ei tapahdu mitään. Mitä huolellisemmin tätä suunnitelmaa seuraa, sitä varmemmin tieto säilyy vuosisatojen yli. Periaatteessa, jos luonnostelemani suunnitelman toteuttaisi todella hyvin, kirjastoista ja arkistoista voisi tehdä ydinsodan ja -talven kestäviä.

Täydellistetystä suunnitelmasta huolimatta käytännössä mikään kirjasto tai arkisto ei ole säilynyt koskemattomana vuosisatojen halki: ajanlaskun alun ajoilta meille on säästynyt vain yksi kirjasto – ja sekin vain, koska Vesuvius-tulivuori purkautui vuonna 79 jaa. ja hautasi sen tuhkaan vajaaksi pariksi tuhanneksi vuodeksi. Kyseisen kirjaston eli Papyrusten huvilan (ital. Villa dei Papiri) hiiltyneet mutta nykytekniikalla luettavat noin 1800 papyrusrullaa ovat kattavin nykypäivään säilynyt yhtenäinen antiikinaikainen kirjasto. Kaikki muut on tuhottu, poltettu, ryöstetty tai muilla tavoilla hävitetty – kuten valtaosa myöhemmistäkin kirjastoista. Aleksandrian kirjasto, joka kattoi laajimmillaan jopa neljäsataatuhatta papyrusrullaa*, vandalisoitiin lopullisesti vuonna 391 jaa. Ruotsin kuninkaallisen kirjaston, Kungliga bibliotekin, kruununjalokivi on vuonna 1649 Prahasta ryöstetty Codex Gigas, jonka nimi juontuu sen liki metrisestä sivukorkeudesta. Toisessa maailmansodassa (1939–1945) Euroopan kirjastot ja arkistot joutuivat ainakin Saksan ja Neuvostoliiton armeijoiden systemaattisen ryöstämisen, levittelemisen ja tuhoamisen kohteiksi, ja pysyvästi kadonneiden niteiden määriä voi vain arvuutella.

* Vertailukohdaksi: Rooman valtakunnan kolmanneksi suurimmaksi arvioidun kirjaston, nykyisessä Turkissa sijaitsevan Celsuksen kirjaston kokoelman on spekuloitu kattaneen noin kaksitoistatuhatta rullaa eli pyöristäen 3 % Aleksandrian kokoelman laajuudesta.

Voimme edelleen lukea vaikka maailman vanhimpia talteen kirjoitettuja teoksia eli nuolenpääkirjoituksella reilut viisituhatta vuotta sitten raapusteltuja vero- ja omaisuusluetteloja, mutta niistä vain murto-osa on säilynyt nykypäivään saakka. Tämä onkin historiantutkimuksen perustavanlaatuinen dilemma: kaikesta koskaan kirjoitetusta vain osa on säilynyt meille saakka, vaikka jokainen savitaulu, papyrusrulla, pergamenttiarkki tai paperisivu olisi teoriassa mahdollista säilyttää ikuisesti. Tai ainakin maailmankaikkeuden lämpökuolemaan, loppurysäykseen tai loppurepeämään saakka – entropia saattaa olla turhan suuri haaste jopa humanisteille.

Silti, kaikkea tietoa ei välttämättä kannata säilyttää kirjamuodossa, niin täydellinen muoto kuin se muutoin saattaakin olla. Kuten olen aiemmassa blogitekstissäni kirjoittanut, tietomäärä kasvaa eikä loppua näy, ja nykyään mittava muttei tavaton tutkimusprojekti saattaa kerätä useita petatavuja (eli tuhansia teratavuja eli miljoonia gigatavuja) dataa. Jos petatavuja kattavia aineistoja käännettäisiin koodiksi ja painettaisiin kirjamuotoon, niistä olisi tuskin paljoakaan käytännön hyötyä ja lopputuloksen hintana olisi mm. vielä entistä suuremmat avohakkuut ja luontokato. On siis oltava muitakin keinoja tallentaa tietoa sukupolvien ja vuosisatojen yli – mutta miten?

Kaikkea tietoa ei välttämättä kannata säilyttää kirjamuodossa, niin täydellinen muoto kuin se muutoin saattaakin olla.

Age of Empires tulevilla sukupolville

Age of Empires -pelin (1997) kansi (ks. kuvan käyttöoikeudet).

En tiedä teistä, mutta minulle kaikkein lämpimimmät muistot videopeleistä kytkeytyvät 1990- ja 2000-lukujen taitteeseen. Yritinpä jokin aika sitten saada yhtä silloista suosikkipeliäni (jonka levyn olin onnistunut säästämään kaikki nämä vuodet puhtaasti nostalgian voimalla) toimimaan tietokoneellani. Lopputulos oli ennalta-arvattava kaikille, jotka ovat yrittäneet samankaltaista: eihän siitä mitään tullut. Sen sain selville, että ongelman juurisyy on, että silloiset tietokonepelit oli suunniteltu silloisille käyttöjärjestelmille, joiden yhteensopivuus nykyisten kanssa on… vaihtelevaista. Luovuin yrityksistäni saada peli toimimaan siinä vaiheessa, kun minun olisi pitänyt emuloida Windows 95 -järjestelmä tietokoneeni Windows 10 -käyttöjärjestelmän sisällä, ja käsitin, että alkuperäisen Age of Empiresin pelaaminen tuskin olisi vaivan arvoista. (Pääsin helpommalla ostamalla pelin nykykoneille päivitetyn version Steamista.)

Nostan tämän tietoteknisen sekoiluni esiin, koska mielestäni se kuvastaa datan pitkäaikaistallennuksen ongelmia. Alkuperäinen Age of Empires on ilmestynyt vuonna 1997, neljännesvuosisata sitten, ja vaikka se on mahdollista saada toimimaan, se on (kaltaiselleni tumpelolle ainakin, liian) vaikea prosessi – mutta kuinka vaikeaa se tulee olemaan parinkymmenen vuoden kuluttua? Entä sadan? Mitä jos suosikkipelini olisikin ollut 1980-luvun alkupuolella tehty, antiikkiselle Atari 2600 -pelikoneelle ilmestynyt E.T.? Kuinka olisin saanut sen toimimaan ilman nyt jo melkein puolenvuosisadan ikäistä konsolivanhusta ja miten todennäköistä on, että E.T.-kasettini toimisi edelleen? Samoin Age of Empires -CD:n toimivuus ei myöskään ole itsestään selvää, kiitos levyjen mätänemiseksi kutsutun ilmiön.

Pitkäaikaissäilytyksen (PAS) perusongelmana on tulevaisuuden ennakoiminen: Kuinka nykyisten ohjelmistojen kanssa yhteensopivat datat saadaan tallennettua siten, että ne A) ovat käytettävissä vuosikymmenten ja -satojen päästä ja että ne B) eivät korruptoidu tai niiden tallentamiseen käytetyt kovalevyt eivät hajoa? Käytännössä PAS:n tiimoilta olisi kyettävä ennustamaan tulevaisuutta, mikä – sanovat pörssihait mitä tahansa – on mahdotonta ilman aikakonetta.

Pitkäaikaissäilytyksen (PAS) perusongelmana on tulevaisuuden ennakoiminen: Kuinka nykyisten ohjelmistojen kanssa yhteensopivat datat saadaan tallennettua siten, että ne A) ovat käytettävissä vuosikymmenten ja -satojen päästä ja että ne B) eivät korruptoidu tai niiden tallentamiseen käytetyt kovalevyt eivät hajoa?

Silti, pitkäaikaissäilytyksessä on joitakin toimia, joilla datan käytettävyyttä on mahdollista edesauttaa. Yksi näistä on tallentaminen avoimen lähdekoodin tiedostomuotoihin, jos se on mahdollista. Koska kirjoitan tätä tekstiä Microsoftin Wordilla, käytän esimerkkinä .docx-tiedostomuotoa: .docx on ohjelmistoriippuivainen tekstintiedostomuoto eli se toimii optimaalisesti vain Wordissa. Se saattaa olla mahdollista avata myös avoimen lähdekoodin ohjelmistoissa (esim. LibreOfficella), mutta tällöin päästään painimaan yhteensopivuusongelmien kanssa: Wordilla tehdyt muotoilut eivät käänny LibreOfficelle täydellisesti ja tämä saattaa sotkea koko tiedoston. (Tässä puhuu kokemuksen syvä rintaääni, terkuin yksi muodottomaksi tärveltynyt kandityöversio.) PAS-yhteensopivuuden kannalta olisikin parempi tallentaa tämä tiedosto .docx-muodon sijasta kenties vaikkapa .pdf-, .odt-, .rtf- tai .txt-muotoon, vaikka mikään niistä ei ole vailla omia mahdollisia ongelmiaan.

Ote Isaac Newtonin Principian muistiinpanoista. Kuva: Cambridge University Library (CC BY-NC)

Kylmä fakta kuitenkin on, että myös avoimeen lähdekoodiin pohjautuvien tekstitiedostojen toimivuus on avoin kysymys, kun puhutaan vuosisatojen aikajänteestä. Emme voi tietää millaisia ovat tietokoneiden käyttöjärjestelmät sadan vuoden päästä ja emme voi tietää kuinka hyvin tallennetut tiedostot aukeavat uusilla ohjelmistoilla. Voimme lukea nykyäänkin esimerkiksi Isaac Newtonin (1642–1727) muistiinpanoja, mutta kolmensadan vuoden päästä nykypäivän Newtonien muistiinpanojen lukeminen voikin olla haasteellisempaa, jos ne on tallennettu vain elektronisina ja vain toimimattomiksi muuttuneilla tiedostomuodoilla.

Lisäksi tavalliselle pulliaiselle tiedon tallentaminen vaikkapa ulkoiselle kovalevylle saattaa kuulostaa hyvältä ja ajan hampaan nakerrusta hyvin kestävältä varasuunnitelmalta, mutta tämä on kaikkea muuta kuin todenmukaista. Ulkoiset kovalevyt saattavat hajota käyttäjän toilailujen ansiosta tai ihan vain iän myötä – komponentit vain lakkaavat toimimasta. Hajoamisen myötä data saattaa korruptoitua eli muuttua hyödyttömäksi – vaikka rikkinäisen kovalevyn saisikin korjattua, data on silloin jo mennyttä. Ulkoiset kovalevyt ovat myös paikkasidonnaisia eli jos sellaista säilyttää vaikkapa työpöydän vetolaatikossa, mutta työhuoneessa syttyy tulipalo, sinne meni se data. Keskustelin ulkoisten kovalevyjen ongelmista yhden Datatuen IT-konsultin kanssa ja hän sanoi, että ”jos dataa haluaa pitää turvassa, sitä ei kannata tallentaa kovalevylle”. Mitä pidempään data on kovalevyllä tallessa, sitä suuremmiksi riskit kovalevyn hajoamisen tai datan korruptoitumiselle kasvavat.

Keskustelin ulkoisten kovalevyjen ongelmista yhden Datatuen IT-konsultin kanssa ja hän sanoi, että ”jos dataa haluaa pitää turvassa, sitä ei kannata tallentaa kovalevylle”. Mitä pidempään data on kovalevyllä tallessa, sitä suuremmiksi riskit kovalevyn hajoamisen tai datan korruptoitumiselle kasvavat.

PAS on jotakin muuta kuin datakompostori

Käytin aiemmassa juttusarjani tekstissä  hypoteettista esimerkkiä Pentti-tutkijasta, joka tutkii suomalaisten äärimetallidiggarien uskonnollisuutta. Tutkimusdatanhallinnan (eli RDM:n, research data management) kielellä Pentti kerää ja käsittelee sensitiivistä henkilötietoa. Sanotaan kuitenkin, että Helsingin yliopistossa tutkimusta tekevä Pentti haluaa äärimetallidiggariaineistonsa pitkäaikaissäilytykseen – mitä hänen olisi tehtävä asialle?

Ensinnäkin hänen pitäisi tietää tämä tai vähintäänkin valmistautua tähän ennen datan keräämistä, sillä datan saaminen PAS-palveluun ei ole yksinkertaista ja tulee taatusti viemään aikaa. Tutkijan ja tutkimusryhmän kannattaakin varata reilusti aikaa ja tutkimusrahoitusta datan valmisteluun, koska tarvittava työpanos on paljon suurempi kuin nolla minuuttia, tuntia tai edes kuukautta.

Kirjoitushetkellä (syksyllä 2022) Helsingin yliopistossa PAS-palvelu ei toimi kuin Dropbox tai OneDrive, jonne voi vain dumpata vanhaksi käyneet datat, vaan prosessi on merkittävästi monimutkaisempi – ihan syystäkin, jos minulta kysytään. Tällainen OneDrive-PAS olisi kyllä melkoinen tieteellisen datan kompostori, jonne aineisto jätetään muhimaan ilman mitään todellista käytännöllisyyttä: kukapa nyt kompostorista vanhoja omenan karoja etsisi? Jos tutkija-Pentti haluaa datansa PAS:in huomaan, hänen tulee todella haluta sitä ja oltava valmis sen vaatimuksiin – oikotietä onneen ei ole.

Jos tutkija-Pentti haluaa datansa PAS:in huomaan, hänen tulee todella haluta sitä ja oltava valmis sen vaatimuksiin – oikotietä onneen ei ole.

Pelkästään tutkija-Pentin oma halu saattaa aineistonsa Helsingin yliopiston PAS-talteen ei riitä, vaan tallennettavan aineiston on läpäistävä tieteellisen toimikunnan arviointi. Koska datan tallentaminen PAS-palveluun on sen verran työlästä ja varoja pitkälläkin tähtäimellä kuluttavaa, sinne tallennettavalla datalla on oltava riittävää kansallista tai kansainvälistä arvoa. Onko äärimetallidiggarien uskonnollisuutta käsittelevä aineisto riittävän merkittävää, että se kannattaisi säilöä tuleville sukupolville? En tiedä – eikä välttämättä tiedä tutkija-Penttikään – mutta juuri sen takia tieteellinen toimikunta arvioi aineiston. PAS:in ei tulisi olla, kuten aiemmin sanoin, tunkio vanhalle tutkimusdatalle, vaan tulevaisuuden tutkijoiden aarreaitta, 2000-luvun alkupuolen versio Tutankhamonin haudasta.

Mitä jää jäljelle digitaalisesta ajasta? Kuva: Jeff Myers (CC BY-NC 2.0)

”Pimeät ajat”

Ehkä kaikki PAS-prosessit ja -probleemat kuulostavat turhauttavilta ja tarpeettomilta nysväyksiltä, mutta vaikka näin olisikin, mielestäni mahdollinen palkkio on silti suurempi kuin siihen uppoavat kulut ja vaivannäkö. PAS mahdollistaa sen, että tulevaisuudessa meistä ja meidän ajastamme jää jäljelle jotakin. Historiassa puhutaan ”pimeästä ajasta”, jolla viitataan Länsi-Rooman valtakunnan keskushallinnollisen lopullisen katoamisen (476 jaa.) ja Kaarle Suuren valtakunnan (n. 800 jaa.) väliseen aikaan, koska tuolta aikakaudelta on jäänyt jäljelle vain vähän kirjallisia lähteitä, koska kirjoitustaito näivettyi yhteiskunnan paikallistumisen myötä. Kaikki tarpeellinen tiedonkulku voitiin hoitaa suullisesti, miksipä kirjoittaa asioita ylös? Pimeän ajan ainoa kattavampi organisaatio oli kirkko, jonka huomasta tai liepeiltä kaikkein arvokkaimmat aikakauden kirjalliset jäänteet löytyvätkin. 2000-luvun ajan onkin alettu pelätä, että elämme parhaillaan uutta, ”digitaalista pimeää aikaa”, sillä vaikka nyt keräämmekin yhteiskuntana aiempaan verrattuna valtavia määriä tietoja, kaikki nuo tiedot ovat luonteeltaan häilyväisiä, ne voivat hävitä tai muuttua käyttökelvottomiksi teknologian kehittyessä. Ne eivät ole samalla tavalla säilymisen kannalta täydellistettyjä kuin savitaulut, pergamentit tai paperit.

Vaikka nyt keräämmekin yhteiskuntana aiempaan verrattuna valtavia määriä tietoja, kaikki nuo tiedot ovat luonteeltaan häilyväisiä, ne voivat hävitä tai muuttua käyttökelvottomiksi teknologian kehittyessä. Ne eivät ole samalla tavalla säilymisen kannalta täydellistettyjä kuin savitaulut, pergamentit tai paperit.

Pitkäaikaissäilytyksen tehtävänä on toimia muistinamme. Sen avulla tulevaisuuden tutkijat ja tavalliset ihmiset voivat tietää millaista elämämme 2000-luvun ensimmäisillä vuosikymmenillä oli – hyvässä ja pahassa – sekä millaisia tieteellisiä havaintoja teimme. Jos meillä olisi nykyaikaisen kaltaista dataa esimerkiksi Carl von Linnén ajoista 1700-luvulta alkaen, voisimme osoittaa rapistuvan biodiversiteettimme ahdingon laajuuden vielä kattavammin kuin mihin nykyään kyetään. Millaisia arvokkaita näkökulmia nykyiset havaintomme voivat tarjota tulevaisuuden tieteilijöille? En tiedä, enkä usko kenenkään muunkaan tietävän – ja juuri siinä on PAS:n tärkein tarjonta, potentiaali tulevaisuudelle.


Humanisti datamaailmassa -kirjoitussarja: