Uusia tuulia haravoitavien sivustojen valinnassa

Ayla's Rake by Don LaVange / CC BY

Ayla’s Rake by Don LaVange / CC BY-SA

Vuoden 2014 Suomi-keräyksessä eli suomalaisten verkkosivujen haravoinnissa verkkoarkistoon tuuletettiin tuttuja arkistointikäytäntöjä. Aiemmilta vuosilta tutun Viestintäviraston tarjoaman fi-domainien listan lisäksi haravoinnissa hyödynnettiin Makupaloja, Alexan tuottamaa Suomesta vierailtujen suosituimpien www-sivujen listaa sekä Vapaakappaletoimiston laatimaa valtionhallinnon tahojen verkkosivujen listausta. Fi-domain-osoitteet jaettiin näiden uusien apulistojen perusteella kattavammin talteen poimittavien ja kevyemmin haravoitavien listoiksi.

Valinnan taustoja

Tarve kattavuuden säätelyyn perustui siihen, että aivan kaiken kerääminen talteen on mahdotonta ja vaatisi kohtuuttomasti levytilaa ja samalla myös resursseja. Lähtökohtaisesti tarkoituksena ei siis ole ollut kaventaa verkkoarkiston sisältöä, vaan saada sovitettua kerättävä sisältö kohtaamaan tallennuskapasiteetti. Kattavuuden säätelyllä pyrittiin ottamaan huomioon internetin pitkä häntä; pieni osa sivuista on äärimmäisen vierailtuja ja suuri osa sivuista jää täysin vaille huomiota. Tässä tapauksessa pieni suosittu osa rakennettiin vierailumäärien ja kirjastoammattilaisten valintojen perusteella. Lisäksi uusien keinojen myötä kattavammin haravoitavien listaan saatiin muitakin kuin fi-domainin alla olevia suomalaisia sivustoja.

 

Tunnusluvut

Kattavasti haravoitavien sivujen lähdelistalla oli reippaat 6300 sivustoa, joiden perusteella kertyi noin 1,6 TB pakattua verkkosisältöä. Kevyemmin pöyhittävien lista taas koostui yli 340 000 lähdesivustosta, joista talteen saatiin 4,2 TB pakattua dataa. Lähdesivustojen määrän ja kerätyn materiaalin suhteesta ei tässä tapauksessa kuitenkaan kannata päätellä, että kevyemmin haravoitavien listan sivustot tulivat talteen onnettoman pienellä kattavuudella. Valtavassa lähdesivustolistassa kun oli tolkuton määrä osoitteita, jotka eivät toimineet ollenkaan tai koostuivat vain muutamasta tiedostosta.

 

Tulevia keräyksiä

Vuosittaisen Suomi-keräyksen jälkeen verkkoarkisto ei vaivu horrokseen, vaan uusia keräyksiä on luvassa vielä tämän vuoden puolella. Parhaillaan ollaan saamassa päätökseen musiikkiaiheista erikoiskeräystä. Lisäksi ensi vuoden isona teemana on eduskuntavaalit, joiden myötä tänä vuonna aloitettua sosiaalisen median ja videomateriaalin haravointia kehitetään entisestään.