Verkkoarkistot: datasetteja, prosesseja, työkaluja

International Internet Preservation Consortiumin seminaari jatkuu.

Iso-Britannia on aloittanut uk-domainin laajan haravoinnin ensi kertaa. British Libraryn Andrew Jackson arvioi, että dataa kerätään noin 13 teratavua vuodessa. Lisäksi Internet Archivessa on yli 35 teratavua uk-aineitsoja vuosilta 1996-2010.

Verkkoarkistosta on tuotettu datasettejä, esimerkiksi

  • Verkkoaineistosta on etsitty postinumeroita, ja sivut voi löytää kartan kautta.
  • Ylätason domainien (org.uk, edu.uk, co.uk jne.) linkittyminen toisiinsa.

Lisätietoja on osoitteissa http://data.webarchive.org.uk/opendata/ ja http://www.webarchive.org.uk/aadda-discovery/browse

***

Julien Masanès, Internet Memory Foundation, kertoi organisaationsa palveluista tutkijoille.

Mignify on IM-Foundationin uusi web-työkalu, jonka avulla tutkjat voivat käsitellä säätiön keräämiä verkkoaineistoja. 

Masanés kuvaili myös menetelmiä samanlaisten ja lähes samanlaisten www-sivujen tunnistamiseksi. Näkökulma ei ole niinkään tuplakontrolli vaan se, että esim. samaa videoleikettä on kommentoitu eri foorumeilla, ja tutkijaa kiinostvat kaikki kommentit. Hän esitteli myös tapoja seurata termien  ja niiden yhdistelmien yleisyyden nousuja ja laskuja sekä niiden yhdistelmiä – esimerkiksi: kuinka usein eri aikoina samalla sivulla on mainittu sanat “Benedictus” ja “Ratzinger”

NaviCrawler on työkalu, jonka avulla voi manuaalisesti käydä läpi verkkosivuja, kerätä niitä talteen skeä analysoida niiden linkkejä ja kerätä viitatutkin sivut. Sen avulla voi myös tarkastella, onko sivujen välillä yhteyksiä.

Tutkijoille on olemassa myös Archivethe.net (AtN), “a friendly Web archiving platform“. Sivustolta ei oikein käy ilmi, mitä palvelut maksavat ja miten esim. tekijänoikeusasioita on lähestytty.

Internet Memory Foundation – entinen European Archive – on hieman mystinen laitos, jonka suhteet IIPC:hen syystä tai toisesta ovat lähinnä viileän korrektit. Niinpä sen tutkimusprojektit kaipaisivat parempaa tutustumista.