Verkkoarkistot tutkijan lähdeaineistona

International Internet preservation Consortiumin General Assembly jatkuu Ljubljanassa seminaaripäivällä, jossa kuullaan erityisesti verkkoarkistojen tutkimuskäyttöä valaisevia esityksiä. Tässä nopeita vaikutelmia esityksistä. 

Århusin yliopiston Niels Brügger esiteli tanskalaisten ajatuksia verkkoarkistojen tutkimusinfrastruktuurista. (Kirjoittajana myös Neils Ole Finnemann.) Tanskassa verkkoarkistojen käyttö on rajattu tiukasti edistyneille tutkijoille, mutta he saavat sitten aineiston kunnolla käsiteltäväkseen. (Suomessahan aineistoa saa tarkastella kuka tahansa, mutta sitä ei saa analysoitavaksi.)

Brügger esitti kolme tärkeää seikkaa: korpusten muodostaminen; täydellisyyden varmistaminen; ja versioiden hallinta. Tutkija haluaa harvoin tutkia verkkoarkistoa yleensä, vaan hänelle on voitava tarjota joko sopivasti rajattu näkymä tai arkistosta tehty osakopio. Rajoittavia seikkoja voivat olla esim. aika, paikka, sisältö, tiedostomuoto ja keskinäinen linkitys. – Korpus voi tietenkin olla puutteellinen, ja tutkijalla on oltava keinot ymmärtää aukkoja. Korpus voi olla myös liian täydellinen tutkijan tarpeisiin. Arkiston pitäisi pystyä hallitsemaan hyvin saman sivun versioita ja karsimaan tarjottavaa korpusta tarvittaessa. Tämä, kuten puhuja totesi, ei taida toimia oikein missään verkkoarkistossa.

Sophie Gebeil Aix-Marseille-Universitésta esitti historioitsijan näkökulmia verkkoarkistoon, Hän kirjoittaa väitöskirjaa, jossa tutkitaan maahanmuuttoon ja maahanmuuttajien diskriminaatioon liittyvien muistojen esittämistä ja tulkistemista verkossa. Tutkijan erityisenä kohteena on “muistojen kilpajuoksu” vuonna 1983 järjestetystä suuresta tasa-arvomielenosoituksesta (Facebook-sivu). Oliko marssi menestys vai epäonnistuminen? Kuka marssin oikeastaan järjesti? Itse marssi tapahtui kauan ennen www:iä, mutta sitä koskevat muistot ja tulkinnat ovat muodostuneet vilkkaaksi ja kiistellyksi aiheeksi. 

Gebeilin mukaan verkkoarkistot ovat hyvä ja rikas tutkimuksen lähde, mutta tutkijoiden täytyy ymmärtää niiden sisältö – joka kerääjän täytyy tehdä ymmärrettäväksi – ja osata käyttää sitä. Verkkoarkisto ei ole Google. – Esityksessä tuli esiin taas eräs mielenkiintoinen netin piirre: erilaiset hyvinkin ekstremistiset liikkeet ovat kyllä esillä netissä, mutta niitä ei löydä hakukoneilla eikä Facebookista – täytyy tietää, minne mennä. Kuka kertoisi Kansalliskirjastolle, että tiedämme kerätä talteen?

Viestinnän tutkija Meghan Dougherty Loyola Universitystä on tutkinut haastatteluitse kirjaston- ja arkistonhoitajien sekä tutkijoiden näkemyksiä verkkoarkistojen keräämisestä ja käytöstä. – Yllättävä näkökohta oli se, että netin tutkijat eivät aina ole tietoisia verkkoarkistojen olemassaolesta – tai eivät ymmärrä niiden merkitystä. Dougherty vakuutti, että on tavannut nettitutkijoita, joille ei ole ollut selvää, että vaikkapa Valkoisen talon www-sivut näyttävät nyt kovin erilaisilta kun vuonna 1996! 

Dougherty on selvittänyt kirjastonhoitajien, arkistonhoitajien ja tutkijoiden käsityksiä tavallisimmista verkkoarkistoihin liityvistä hankaluuksista. Yleiset ongelmat kuulostavat tutuilta: ennen lainsääädäänön asettamat rajoitukset ja eri lähtökohdista tuelvien ihmisten vaikeus kommunkoida. Tutkijoille verkkoarkistojen käyttö on vielä outoa ja vaatii metodologioiden pohtimista ja työkalujen opettelemista. Verkkoarkistojen pitäisi tukea tutkijoita enemmän – ei voi vain lätkäistä arkistoa tutkijan eteen ja jättää häntä seikkailemaan. Tutkijoiden näkemykset tulisi ottaa paremminhuomioon myös toimintatapoja suunniteltaessa.

Dougherty mainitsi, että häntä eivät kiinnosta verkkolehtien uutiset vaan tavat, jolla uutiset esitetään ja mtien lukijat voivat kommentoida ja jakaa niitä. Olisi tärkeää siis säilyttää tällaiset toiminnallsuudet myös arkistossa. 

Helen Hockx-Yu British Librarysta puhui verkkoarkiston kerääjän näkökulmasta

Verkkoarkistojen tutkimuskäyttö on kaiken kaikkiaan ollut lukumääräisesti vähäistä. Lainsäädäntö estää järkevää käyttöä niin Suomessakin monissa muissakin maissa. Ja ne tutkijan työkalut – Kansalliskirjasto on vähemmistössä, kun se pystyy tarjoamaan sanahaun verkkoarkistoon.

British Library on haastatellut noin sata tutkijaa. Kaikki ymmärtävät verkkoarkistoinnin merkityksen, myös ei-käyttäjät. Datanlouhintaan ja visualisointiin toivottiin lisää työkaluja, samoin parempia mahdollisuuksia kommunikoida krijaston ja teknisten kehittäjien kanssa.

Sisältö on eri tutkijoille eri mitassa relevanttia. Britanniassa arkisyointi on tähän asti ollut hyvin valikoivaa ja on siksi tietyillä aloilla kattava, toisilla olematon. Tästä syystä brttien akristossa av-aienistot ovat erityisen huonosti edustettuja. (Juuri nyt on meneillään ensimmäinen brittiläinen yleiskeräys.)

Hocks-Yu luetteli muutamia verkkoarkistojen menestystekijöitä, jotka haastatteluissa nousivat esiin:

  • Löytyvyys ja saatavuus on varmistettu.
  • Pitää olla paitsi teksti myös “parateksti”: verkkoarkiston sisällön on ilmennyttävä kontekstissaan. Lisäksi arkiston, sen keruupolitiikka, käytetyt teknologiat yms. on dokumentoitava. 
  • Täytyy olla keino viitata aineistoihin täsmällisesti.
  • Tutkijan on saatava järkeviä kokonaisuuksia. Esim. maarajat eivät välttämättä ole relevantteja. Tutkijaa ei lähtökohtaisesti kiinnosta, kuka arkiston on kerännyt.
  • Verkkoarkisto on uskottava alkuperäisen sisällön ja ilmeen säilyttäjä.
  • Tutkijan erilaiset tarpeet otetaan huomioon. Erityisesti digitaaliset tutkimusmenetelmät ovat tärkeitä. 

Seuranneessa paneelikeskustelussa nousi uudestaan esiin tarve tehdä tutkijoille selväksi, miksi verkkoarkisto ei ole netin täydellinen kopio – puutteita tulee lähes aina olemaan, dynamiikka katoaa jne. Tällä hetkellä tällaisia ongelmia ei kerta kaikkiaan voi täydellisesti ratkaista.

Paneelikeskustelussa tuli myös esiin ajatus siitä, että verkkoarkistojen sisällöstä pitäisi ehdä samanlaisia “datasettejä” kuin jostakin muustakin tutkimusdatasta.  Ja kokotekstihaku valittiin yleisellä akklamaatiolla tärkeimmäksi kehittämiskohteeksi. Meillähän se on, mutta aina sitä voi kehittää.

Kotona tulee varmasti jossakin vaiheessa mietittäväksi, miten lainsäädännön puitteissa voitaisiin kuitenkin mahdollistaa paremmin erilaiset tutkimustavat – esim. aineistojen tilastollinen tai lingvistinen analyysi.