E-vapaakappaleet: kulttuuriperintö hae ja tallenna!

Mitä ovat e-vapaakappaleet eli elektroniset vapaakappaleet? Mitä Kansalliskirjaston haaviin tarttuu ja mitä ei? Tällä kertaa kirjoitan verkkojulkaisujen keräämisestä, jatkoa seuraa mm. niiden käyttömahdollisuuksista.

Kansalliskirjaston tehtävänä on ollut kerätä “elektronisia vapaakappaleita” vuodesta 2008 alkaen. Toimintaa säätelee laki kulttuuriaineistojen tallettamisesta ja säilyttämisestä (1422/2007).Lain tarkoituksena on “Suomessa yleisön saataville saatettujen kansallisen kulttuurin aineistojen säilyttäminen tuleville sukupolville ja saattaminen tutkijoiden ja muiden tarvitsijoiden käyttöön.” Laki säätelee paitsi Kansalliskirjaston vapaakappaleiden keruuta myös Kansallisen audiovisuaalisen arkiston toimintaa elokuvien sekä radio- ja tv-aineiston säilyttämisessä.

Termi “vapaakappale” on oikeastaan vanhentunut, koska kulttuuriaineistolaki ei sitä tunne; termiä “tallekappale” on ehdotettu sijalle, mutta se ei vielä oikein tule sormista luontevasti. Yksityiskohtana mainittakoon, että suomenruotsiksi sanotaan “friexemplar”, riikinruotsiksi “pliktexemplar”.

Mitä laki sanoo

Menemättä kaikkiin poikkeuksiin ja yksityiskohtiin, laki määrää seuraavaa:

Kansalliskirjaston tehtävänä on kerätä talteen verkkoaineistoa, joka on yleisön saatavilla. “Verkkoaineistoa” on suurin piirtein kaikki, mitä verkossa on saatavilla. “Yleisön saatavilla” on aineisto, joka on tarkoitettu suurin piirtein kenen tahansa saataville. Sellaista on myös maksullinen tai rekisteröitymistä vaativa aineisto, jos muita ehtoja ei aseteta. Sen sijaan aineiston, johon pääsy edellyttää esim. työsuhdetta, jäsenyyttä, “kaveruutta” tai asiakkuutta, ei yleensä katsota olevan “yleisön saatavilla”.

Tarkoitus ei kuitenkaan ole kerätä mitä tahansa www-sivuja, vaan jossakin mielessä suomalaisia. Laki on rajattu koskemaan Suomessa sijaitsevilla palvelimilla olevia sekä erityisesti suomalaiselle yleisölle kohdistettuja aineistoja. Viimeksi mainittu ehto voi joskus olla tulkinnanvarainen, mutta esimerkiksi suomenkielinen aineisto useimmiten täyttänee ehdon.

Kootun verkkoaineiston tulee sisältää edustavasti ja monipuolisesti eri aikoina saatavilla ollutta aineistoa. Toisin sanoen verkkoaineiston ei ole tarkoitus sisältää kaikkea verkossa julkaistua aineistoa – mikä tietenkin olisikin ylivoimaista.

Lähtökohtaisesti verkkoaineiston kerääminen tapahtuu ohjelmallisesti eli pitkälti automatisoidusti. Jos se ei ole mahdollista, Kansalliskirjastolla on oikeus edellyttää verkkojulkaisijalta toimenpiteitä: joko niin, että automatisoitu keruu mahdollistuu tai niin, että aineisto luovutetaan Kansalliskirjastolle muulla tavoin. “Verkkojulkaisijalla” tarkoitetaan sitä, jonka “aloitteesta ja vastuulla” verkkoaineisto on asetettu yleisön saataville.

Verkkoharavointi: arjen historiaa talteen

Kansalliskirjaston ohjelmallinen verkkoaineiston kerääminen tarkoittaa ennen kaikkea vapaasti saatavilla olevien www-sivujen tallettamista. Tätä varten on erityinen ohjelmisto, ns. verkkoharava, joka kiertelee pitkin suomalaista nettiä ja tallentaa löytämiään sivuja. Kirjasto käy läpi vähintään kerran vuodessa tiedossa olevat suoamalaiset nettisivut. Tämä tarkoittaa

  • .fi-päätteisiä seivuja sekä pientä .ax-domainia (Ahvenanmaa)
  • Suomessa sijaitsevia palvelimia; niistä ei ole olemassa mitään valmista listaa, joten asiaa joudutaan selvittämään kirjastossa. Emme varmastikaan löydä kaikkia, mutta suuren joukon kuitenkin.
  • Muilla tavoin tiedossamme olevia osoitteita, joita on kerätty esim. etsimällä tiettyyn aihealueeseen liittyvää aineistoa.

Lisäksi mm. lehtien www-sivuja – ilman rekisteröitymistä saatavilla olevia – kerätään talteen useammin.

Nämä haravoinnti tuottivat v. 2010 noin 200 miljoonaa teidostoa. Lukua on vaikea kääntää havainnollisemmaksi; noin puolet määtästä on HTML-tiedostoja, ja PDF-tiedostoja siitä on noin puolitoista prosenttia.

Esimerkiksi Ruotsissa verkkoharavointi kohdistuu tällä hetkellä vain lehtiin; ja joissakin muissa maissa on pikemminkin kerätty huolella talteen muutamia sivustoja kuin – Suomen tyyliin – valikoimattomasti ja tyytyen siihen, että tuloksessa on epätäydellisyyksiä. Eri lähestymistavoilla on etunsa. Suomessa on korostettu Zeitgeist-näkökulmaa ja varottu tekemästä kovasti arvoarvostelmia siitä, mitä kerätään talteen. Lehtien uutissisältö uutissisältönä

Valtavasti aineistoa on tietenkin automaattisen haravoinnin ulkopuolella. On aineistoja, joita emme löydä – esim. selkeästi suomalaiselle yleisölle tarkoitettu aineisto, joka on ulkomaisella palvelimella, .com-osoitteessa ja joka ei mitään kautta sattunut osumaan . On teknisesti hankalia sivustoja, joista verkkoharava ei selviä. Esimerkiksi sivusto, josta ei saa sisältöä ulos muuten kuin tekemällä hakuja, jää kyllä keräämättä, koska kone ei osaa käyttää hakulaatikkoa. Smaoin chatit yms. jäävät keräämättä – ja niin jää muuten Facebook’kin, koska ensinnäkään se ei salli haravointia ja toiseksi aineistoa ei parhaasta päästään ole tarkoitettu kenen tahansa luettavaksi.

Ja sitten ovat tietenkin aineistot, joiden käyttöä on rajattu. Erilaisia ratkaisuja haravoinnin “mahdollistamiseksi” on testattu, mutta siihen liittyy aina teknisiä haasteita. Sitäkin suurempi kynnys on se seikka, että työaika yhtä talteen saatua tiedostoa kohti kasvaa astronomisesti, kun joudutaan siirtymään automaattisesta keruusta siihen, että asiaa selvitellään ihmisten kesken. Kansalliskirjasto ei voi juurikaan käskyttää verkkojulkaisijoita toimittamaan juuri sillä tavalla ja siinä muodossa kuin se haluaa, joten käytäntöjä täytyy soveltaa tapauskohtaisesti.

Luovuttamisesta ei luovuta

Näistä vaikeuksista huolimatta on ilmeistä, ettei verkkoarkisto voi koostua vain täysin vapaista ja verkkoharavan pirtaan sopivista aineistoista. Kansalliskirjaston suunnitelmissa on ollut ja on edelleen kehittää käytäntöjä sellaisten aineistojen talteen saamiseen, joita harava ei voi käsitellä. Parastaikaa ollaan käynnistämässä e-kirjojen keräämistä talteen; musiikki on toinen aineistotyyppi, joka on korkealla agendalla. Näistä kehityskuluista voimme toivottavasti vielä kevään kuluessa kertoa lisää.

Suoranaisetn verkkojulkaisujen ohella alkamassa on Comellus-hanke, jossa tutkitaan korvaavan digitaalisen kopion keräämistä painetuista sanomalehdistä. Kyse olisi siis kustantajalta tai kirjapainolta saadusta, painettua lehteä tarkoin vastaavasta tiedostosta – puhumme “digitaalisesta painolaatasta”.  Hanke tutkii myös digitaalisen aineiston mikrokuvausta.

Oma apu paras apu

Kansalliskirjasto ei kuitenkaan voi ehtiä jokaiseen verkon nurkkaan säilömään koko suomalaista nettiä kaikkine joka sekunti tapahtuvine muutoksineen ja tutkimattomine syvän webin uumenineen. On myös hyvä muistaa, että Kansalliskirjasto ei voi jaella keräämäänsä aineistoa kenellekään, ei edes alkuperäiselle julkaisijalle. Verkkoarkisto on näkymä kansalliseen kulttuuriperintöön, ei varmuuskopio. Siksi kunkin verkkojulkaisijan olisi hyvä miettiä itse omien aineistojensa säilyttämistarpeita. Yksi lähestymsitapa on Memento, josta kerromme myöhemmin lisää tässäkin blogissa.