Verkkoarkistot hyötykäyttöön

Kansalliskirjasto on jo usean vuoden ajan kerännyt talteen suomalaisia verkkoaineistoja. Monet muut kansalliskirjastot – mutta eivät suinkaan kaikki – toimivat samoin. Siellä, missä tekijänoikeuslainsäädäntö, erityisesti fair use -ajattelu sen sallii, myös muut organisaatiot arkistoivat verkkosisältöjä eri tarkoituksiin. Kansainvälisen yhteistyön foorumi on International Internet Preservation Consortium IIPC, jonka yleiskokous on parhaillaan menossa Kongressin kirjastossa Washingtonissa. Ensimmäisenä päivänä pidettiin seminaari, jossa esiteltiin verkkoarkistojen erilaisia käyttötapoja.

Päivän sana on ”big data” eli erittäin suurten datamäärien analysointi. Verkkoarkistojen kohdalla tämä tarkoittaa sitä, että tutkimus ei oikeastaan kohdistu aineistojen sisältöön. Sen sijaan tutkitaan esim. sanojen esiintymistiheyksiä ja niiden ajallisia ja paikallisia eroja; sivujen linkittämistä, tekstinpätkien kopioimista ja muuntumista jne. Viime aikoina tällaiset analyysit ovat päässeet uutisiinkin, esim. Osama bin Ladenin olinpaikan arviointi ja talousnäkymien arviointi Twitter-viestien optimistisuuden asteen perusteella. Verkkoarkistoinnin kannata on huomattavaa, että nämä analyysit tarvitsevat paljon myös teknistä metadataa, tietoa dokumenttien suhteista jne.

Ken hallitsee menneisyyttä, hallitsee tulevaisuutta

Informaatiosisällöt ovat silti tärkeitä. Texasin yliopistossa tutkitaan paljon Latinalaista Amerikkaa. Yliopiaton Latin American Government Documents Archive (LAGDA) arkistoi myös verkkoaineistoja. Arkiston esittelijä näytti mm. esimerkkejä siitä, miten Hondurasin vallankaappaus v. 2009 kuvastuu arkiston sisällössä: Hondurasin presidentin www-sivut katoavat pariksi päiväksi ja ilmestyvät takaisin ilman mitän viittausta viimeaikaisiin tapahtumiin.

Ikävä kyllä tällainen ei ole poikkeuksellista. Jopa Valkoinen Talo sormeilee esim. vanhoja lehdistötiedotteitaan verkossa – esimerkiksi listaa ”halukkaiden koalitiosta” on käyty jälkeenpäin muuttelemassa paremmin vastaamaan uusia olosuhteita. Totta kyllä, luotettavat tiedot ovat saatavissa arkistoista, mutta kuinka moni kansalainen tai toimittaja tulee nähneeksi tarkistamisen vaivan, kun (väärä) tieto onkätevästi saatavissa netistä?

Pahiksia ja hyviksiä

Netti ei ole ainoastaan hallitusten vaan myös niiden vastustajien temmellyskenttä. Verkkoarkistoja on käytetty terrorismin tutkimiseen. (Päivän esitys koski tieteellistä tutkimusta; se, miten turvallisuuselimet verkkoaineistoja analysoivat, jäi vielä salaisuudeksi.)

Terroristiryhmät käyttävät verkkoa vilkkaasti, joskaan niiden sivustot eivät yleensä löydy Googlella. Netti on muuttanut terrorismia – globaaleista kysyyksistä on tullut paikallisia ja paikallisista globaaleja. Tutkija kertoi esimerkkinä, että indeonesialaiset terroristit kokivat taistelevansa ennen kaikkea Palestiinan puolesta. Tämän hetken trendi on, että arabian kieli on ohittamassa englannin viestinnässä: al-Quaida ym. ovat kääntymässä sisäänpäin.

Myös toisenlaisessa rikolllisuudessa ja sen torjunnassa verkkoarkistot ovat tärkeitä. Verkkoarkistoinnista on itse asiassa muodostunut tärkeä osa oikeudenkäyntejä sekä kanteiden valmistelua ja kanteihin varautumista – nimittäin ainakin Yhdysvalloissa. Oikeusistuimet eivät enää aina tyydy siihen, että todisteeksi toimitetaan printti verkkosivusta, etenkin kun muunneltuja printtejä on viime aikoina pyritty käyttämään todisteina.

Verkkoarkistoilla voi torjua etenkin aivan turhanpäiväisiä oikeudenkäyntejä, joissa yritetään kalastella isoja vahingonkorvauksia. Toinen suuri asiakas ovat luksusmerkit, jotka taistelevat piraatteja vastaan. Kolmas tärkeä käyttötarkoitus on osoittaa, että yritys on huolehtinut lakisääteisistä tiedotusvelvoitteistaan.

* * *

IIPC:n yleiskokous jatkuu teknisemmissä merkeissä. Kuten täällä sanotaan: stay tuned!