Musiikin verkkosivujen teemakeräys 2017

Osallistu keräykseen suoraan tällä lomakkeella: https://link.webropolsurveys.com/S/ABFE243EA6008E34

Verkkoarkisto on Kansalliskirjaston keräämä arkisto kotimaisista verkkosivuista ja muusta internetistä kerätystä aineistosta, ihan kuten jo palvelun nimikin vihjaa. Sisältöä arkistoon kerätään talteen usealla eri tavalla, tavoitteena on samalla lailla kuin painettujen aineistojen kanssa saada suomalaista elämää ja hälinää tietoverkoissa talteen myös myöhemmin tutkittavaksi.

Teemakeräys sisältää kaikenlaisia verkkosivuja

Verkkoarkistoa voisi ainakin osittain verrata yhdysvaltalaiseen The Internet Archiveen joka arkistoi verkkosivuja automatisoidusti vuoden ympäri ja ympäri maailmaa, mutta oman verkkoarkistomme toimintaa ja rajauksia määrittää suomalainen lainsäädäntö.

Vasta tuorein kulttuuriaineistolaki vuodelta 2008 (1433/2007) määritteli erikseen myös verkkosivustot talletettaviksi. Biteistä ja datasta taltioidaan vain edustava otos, toisin siis kuin fyysisten aineistojen kanssa joista pyritään saamaan talteen kaikki mahdollinen Suomessa julkaistu. Peruspykälien lisäksi arkistointia ohjaa erillinen ministeriön vahvistama keräyssuunnitelma, joka osoittain myös ohjaa teemakeräyksen aiheita.

Keräystyyppejä on monenlaisia: suuri automaattinen vuosittainen massakeräys sekä erilaisia teemojen, sivustotyyppien (esim. uutissivustot), ja muiden rajausten mukaan tehtäviä täsmäkeräyksiä. Vuosittain toistuva verkkokeräys on rutiininomainen tapa kerätä massana .fi ja .ax –päätteiset sivustot sekä kielentunnistuksen avulla myös muualla sijaitsevia suomenkielisiä sivustoja. Täsmäkeräyksillä taas kohdistetaan verkkosivujen keräystä tarkemmin tiettyihin valittuihin teemoihin tai muihin aiheisiin.

Verkkoarkiston etusivu, http://verkkoarkisto.kansalliskirjasto.fi/

Teemakeräykset mahdollistavat myös keräämisen sivustoilta joihin vuosikeräys ei yllä, moni ajankohtaisaihe tuottaa materiaalia esimerkiksi sosiaalisen median kanavissa joista suurin osa ei ulkomailla sijaintinsa (sisältö on muualla kuin .fi tai .ax -sivustoilla) takia tallennu vuosikeräyksessä ollenkaan. Tarkemmat tiedot keräämisen teknisestä puolesta löydät Kansalliskirjaston verkkosivuilta: https://www.kansalliskirjasto.fi/fi/vapaakappaletoimisto#verkkoaineistot

Teemakeräysten aiheena ovat olleet esimerkiksi merkittäviin tapahtumiin (Euroviisut, poliittiset tapahtumat tai muut tapahtumat jotka ovat herättäneet paljon keskustelua) tai ilmiöihin liittyvät täsmäkeräykset. Keräysten teemoja määrittää myös vahvistettu keräyssuunnitelma. Näissä talletetaan aineistoa laajasti valitun teeman ympäriltä, esimerkiksi sosiaalisen median kanavissa pyörineitä keskusteluita (etenkin jollain tietyllä hashtagilla, eli #-merkin avulla asiasanoitettuja postauksia, kuvia ja keskusteluketjuja), yksittäisiä henkilöiden kotisivuja, verkkosivuja jostain tietystä aiheesta, keskustelufoorumien ketjuja tai kokonaisia foorumeita, uutisia, sekä yhdistysten verkkosivuja.

Musiikkiaiheisia teemakeräyksiä on tehty jo vuodesta 2009 lähtien, sen jälkeen noin joka toinen vuosi. Kerättäviksi etsitään kotisivuja yhtyeiltä, artisteilta, musiikkialan ammattitoimijoilta, faneilta, yhdistyksiltä, erilaisia tapahtumia, keskustelufoorumeita, sosiaalisen median kanavia musiikkiin liittyen sekä myös yksittäisiä verkkokeskusteluita. Viimeisimpänä kerättävänä aineistona ovat tulleet videot: sisältäen videona julkaistuja musiikkiesityksiä sekä teemaan muuten liittyvää aineistoa (esimerkiksi musiikkiaiheisten tubettajien kanavia).

Tähän mennessä tehtyjen teemakeräysten aiheita voi nähdä verkkoarkiston sivuilta myös kotikoneelta, mutta vain vapaakappaletyöasemilla voi tutkia myös kerättyjen sivujen sisältöä: http://verkkoarkisto.kansalliskirjasto.fi/va/crawls

Vapaakappaletyöasemia sijaitsee vapaakappalekirjastoissa (Kansalliskirjastossa yhteensä kuusi kappaletta), Eduskunnan kirjastossa sekä Kansallisessa audiovisuaalisessa instituutissa (KAVI). Tarkemmat Kansalliskirjaston työasemien sijainnit ja käyttöohjeet löydät täältä: https://www.kansalliskirjasto.fi/fi/asiointi/tyoskentely-kirjastossa#vapaakappaletyoasemat

Verkkoarkiston aiemmat musiikkikeräykset näkyvät näin vapaakappaleasemien ulkopuolelta käsin

Teemakeräyksen keräystapa on varsin simppeli. Ensimmäisenä keräykseen osallistuva henkilökunta käy läpi edellisen musiikkikeräyksen tallennuslistan ja poimii sieltä vielä toimivat linkit, seuraavaksi etsitään uusia teemaan sopivia aineistoja haravoiden omia tietolähteitä ja sivustoja (esimerkiksi musiikkiaiheisista bloggaajista, musiikkiopistoista, festivaaleista, sekä bändien nettisivuista tehtyjä listauksia).

Keräykseen otettavan sisällön haravoi ja jaottelee teemakeräysten yhteydessä Kansalliskirjaston henkilökunta, mutta esimerkiksi yhden aiemman vaalikeräyksen yhteydessä on yleisöltä pyydetty tallennusvinkkejä. Myös tämänhetkisen musiikkikeräyksen avuksi on avattu verkkolomake, jota kautta voi ehdottaa tallennettavia verkkosivuja. Lomakkeen kautta voi lähettää ehdotuksia vaikka monta kertaa, vuoden 2017 loppuun saakka: https://link.webropolsurveys.com/S/ABFE243EA6008E34

Kun keräyslista on valmis, kerättävät sivustot jaotellaan vielä tallennusuran helpottamiseksi sivustojen koon mukaan, karkeasti isot sivustot ja yksittäiset sivut erikseen. Melkein viimeisenä vaiheena koostettu lista ajetaan omalla verkkosivujen tallennusrobotilla (Heritrix, lue lisää Kansalliskirjaston käytöstä täältä) lopullisesti Kansalliskirjaston tallennusasemille.

Aikaa tallennusprosessiin kuluu tietenkin tallennettavien sivustojen määrän ja koon mukaan, kooltaan pienien sivujen kanssa kestää vähemmän aikaa kuin isojen ja syvien sivustojen tallentamisessa. Sivustoista tallennetaan koko sisältö, joilloin myös sivuston ulkonäkö tallentuu samanlaisena kuin se on ollut tallennushetkellä.

Viimeinen työvaihe on valmistella verkkoarkiston teemakeräyksen sivu myös asiakkaiden tarkasteltavaksi. Tämän vuoden musiikkikeräyksen urakka on valmistunut ja tutkittavissa arviolta vuoden 2018 ensimmäisten kuukausien aikana, riippuen siitä miten kauan aikaa tallennus kestää. Myös muut teemakeräykset käyttävät samaa toimintatapaa, vain keräysaihe vaihtelee.

Postausta on editoitu julkaisemisen jälkeen 23.11. ja 28.11. vapaakappaletyöasemien ja verkkokeräysten toimintatapojen kohdalta.