Podcastit talteen!

Kansalliskirjaston kotimaisen julkaisutoiminnan arkistoinnissa eli vapaakappaletoiminnassa uusi aluevaltaus vuonna 2018 oli podcastien kerääminen ja tallentaminen. Podcastien, eli internetissä levitettävien puheohjelmien suosio on noussut viime vuosina valtaisasti, lopulta jopa Suomessa niistä puhutaan televisiossa ja podcastit saivat viime vuonna oman festivaalinsa.

Määritelmältään podcast on internetissä levitetty ja yleensä myös ladattavissa oleva puheohjelma riippumatta sisällöstä, tai alkuperäisestä julkaisupaikasta. Yleensä podcasteista puhuttaessa tarkoitetaan juuri internetiä varten tuotettua lähetystä jota ei ole lähetetty esimerkiksi radioaalloilla. Määritelmä voi olla käytännössä kuitenkin lipsuva: moni tunnettu podcast on lähetetty ensin radiolähetyksenä ja tiivistetty sen jälkeen podcastiksi.

Kuva: Pixabay, Kaboompics (Pixabay Licence)

Podcastit aineistotyyppinä ovat verkkosivujen ja radiolähetysten välimaastosta, mutta joiden tallennusvelvollisuus julkaisualustan vuoksi on kulttuuriaineistolain (1433/2007) mukaan Kansalliskirjastolla. Perinteisten broadcast-radiolähetysten tallennus on laissa määritelty Kansallisen audiovisuaalisen instituutin (KAVI) Radio- ja televisioarkiston (RTVA) tehtäväksi.

Lähdimme siis ihan uusille vesille podcastien kanssa. Työurakkana oli löytää erilaisia kotimaisia podcasteja ja saada ne talletettua jonnekin Kansalliskirjastossa. Podcastien löytämisessä isona apuna oli jakso.fi -sivuston lista kotimaisista podcasteista, jota rikastimme itse etsityillä podcasteilla sekä syksyllä 2018 toteutetulla keräyskampanjalla sosiaalisessa mediassa.

Keräyskampanjassa pyysimme yksinkertaisella verkkolomakkeella linkkejä kotimaisiin podcasteihin. Keräykseen otettuja podcasteja ei valittu laatukriteerein, tallennettavaksi kelpasi melkein mikä tahansa podcastin määritteen täyttävä kotimainen ohjelma. Suurin osa keräysvastausten (94 kappaletta) podcasteista olikin suomenkielisiä, itse kerätyistä podcasteista pieni osa oli myös ruotsiksi ja muutama myös muilla kielillä. Podcastin kotimaisuutta määriteltiin tarkoituksella mahdollisimman löyhin termein.

Kuva: Helsingin kaupunginmuseo (finna.fi), (CC BY 4.0)

Kerättäviä nimikkeitä keräyskampanjasta ja itse tehdystä etsinnästä saatiin lopulta yhteensä 660 kappaletta. Verkkokeräyksen sulkeuduttua podcastit ladattiin verkkosivuiltaan ja ne tullaan tallettamaan Varia-nimiseen julkaisuarkistoon, joka on käytettävissä vapaakappaletyöasemilla paitsi Kansalliskirjastossa, myös muissa vapaakappalekirjastoissa ympäri Suomea.

Verkkoarkiston sijasta podcastit päätettiin sijoittaa Variaan, koska podcastien julkaisualustat olivat hyvin vaihtelevin tekniikoin toteutettuja. Keräyksen tulokset ovat käytettävissä, kunhan tallennus- ja luettelointiurakka saadaan tehtyä vielä vuoden 2019 aikana.

Lisätietoa keräyksestä ja sen toteutuksesta antaa vapaakappaletoimisto: vapaakappale@helsinki.fi

Musiikin verkkosivujen teemakeräys 2017

Osallistu keräykseen suoraan tällä lomakkeella: https://link.webropolsurveys.com/S/ABFE243EA6008E34

Verkkoarkisto on Kansalliskirjaston keräämä arkisto kotimaisista verkkosivuista ja muusta internetistä kerätystä aineistosta, ihan kuten jo palvelun nimikin vihjaa. Sisältöä arkistoon kerätään talteen usealla eri tavalla, tavoitteena on samalla lailla kuin painettujen aineistojen kanssa saada suomalaista elämää ja hälinää tietoverkoissa talteen myös myöhemmin tutkittavaksi.

Teemakeräys sisältää kaikenlaisia verkkosivuja

Verkkoarkistoa voisi ainakin osittain verrata yhdysvaltalaiseen The Internet Archiveen joka arkistoi verkkosivuja automatisoidusti vuoden ympäri ja ympäri maailmaa, mutta oman verkkoarkistomme toimintaa ja rajauksia määrittää suomalainen lainsäädäntö.

Vasta tuorein kulttuuriaineistolaki vuodelta 2008 (1433/2007) määritteli erikseen myös verkkosivustot talletettaviksi. Biteistä ja datasta taltioidaan vain edustava otos, toisin siis kuin fyysisten aineistojen kanssa joista pyritään saamaan talteen kaikki mahdollinen Suomessa julkaistu. Peruspykälien lisäksi arkistointia ohjaa erillinen ministeriön vahvistama keräyssuunnitelma, joka osoittain myös ohjaa teemakeräyksen aiheita.

Keräystyyppejä on monenlaisia: suuri automaattinen vuosittainen massakeräys sekä erilaisia teemojen, sivustotyyppien (esim. uutissivustot), ja muiden rajausten mukaan tehtäviä täsmäkeräyksiä. Vuosittain toistuva verkkokeräys on rutiininomainen tapa kerätä massana .fi ja .ax –päätteiset sivustot sekä kielentunnistuksen avulla myös muualla sijaitsevia suomenkielisiä sivustoja. Täsmäkeräyksillä taas kohdistetaan verkkosivujen keräystä tarkemmin tiettyihin valittuihin teemoihin tai muihin aiheisiin.

Verkkoarkiston etusivu, http://verkkoarkisto.kansalliskirjasto.fi/

Teemakeräykset mahdollistavat myös keräämisen sivustoilta joihin vuosikeräys ei yllä, moni ajankohtaisaihe tuottaa materiaalia esimerkiksi sosiaalisen median kanavissa joista suurin osa ei ulkomailla sijaintinsa (sisältö on muualla kuin .fi tai .ax -sivustoilla) takia tallennu vuosikeräyksessä ollenkaan. Tarkemmat tiedot keräämisen teknisestä puolesta löydät Kansalliskirjaston verkkosivuilta: https://www.kansalliskirjasto.fi/fi/vapaakappaletoimisto#verkkoaineistot

Teemakeräysten aiheena ovat olleet esimerkiksi merkittäviin tapahtumiin (Euroviisut, poliittiset tapahtumat tai muut tapahtumat jotka ovat herättäneet paljon keskustelua) tai ilmiöihin liittyvät täsmäkeräykset. Keräysten teemoja määrittää myös vahvistettu keräyssuunnitelma. Näissä talletetaan aineistoa laajasti valitun teeman ympäriltä, esimerkiksi sosiaalisen median kanavissa pyörineitä keskusteluita (etenkin jollain tietyllä hashtagilla, eli #-merkin avulla asiasanoitettuja postauksia, kuvia ja keskusteluketjuja), yksittäisiä henkilöiden kotisivuja, verkkosivuja jostain tietystä aiheesta, keskustelufoorumien ketjuja tai kokonaisia foorumeita, uutisia, sekä yhdistysten verkkosivuja.

Musiikkiaiheisia teemakeräyksiä on tehty jo vuodesta 2009 lähtien, sen jälkeen noin joka toinen vuosi. Kerättäviksi etsitään kotisivuja yhtyeiltä, artisteilta, musiikkialan ammattitoimijoilta, faneilta, yhdistyksiltä, erilaisia tapahtumia, keskustelufoorumeita, sosiaalisen median kanavia musiikkiin liittyen sekä myös yksittäisiä verkkokeskusteluita. Viimeisimpänä kerättävänä aineistona ovat tulleet videot: sisältäen videona julkaistuja musiikkiesityksiä sekä teemaan muuten liittyvää aineistoa (esimerkiksi musiikkiaiheisten tubettajien kanavia).

Tähän mennessä tehtyjen teemakeräysten aiheita voi nähdä verkkoarkiston sivuilta myös kotikoneelta, mutta vain vapaakappaletyöasemilla voi tutkia myös kerättyjen sivujen sisältöä: http://verkkoarkisto.kansalliskirjasto.fi/va/crawls

Vapaakappaletyöasemia sijaitsee vapaakappalekirjastoissa (Kansalliskirjastossa yhteensä kuusi kappaletta), Eduskunnan kirjastossa sekä Kansallisessa audiovisuaalisessa instituutissa (KAVI). Tarkemmat Kansalliskirjaston työasemien sijainnit ja käyttöohjeet löydät täältä: https://www.kansalliskirjasto.fi/fi/asiointi/tyoskentely-kirjastossa#vapaakappaletyoasemat

Verkkoarkiston aiemmat musiikkikeräykset näkyvät näin vapaakappaleasemien ulkopuolelta käsin

Teemakeräyksen keräystapa on varsin simppeli. Ensimmäisenä keräykseen osallistuva henkilökunta käy läpi edellisen musiikkikeräyksen tallennuslistan ja poimii sieltä vielä toimivat linkit, seuraavaksi etsitään uusia teemaan sopivia aineistoja haravoiden omia tietolähteitä ja sivustoja (esimerkiksi musiikkiaiheisista bloggaajista, musiikkiopistoista, festivaaleista, sekä bändien nettisivuista tehtyjä listauksia).

Keräykseen otettavan sisällön haravoi ja jaottelee teemakeräysten yhteydessä Kansalliskirjaston henkilökunta, mutta esimerkiksi yhden aiemman vaalikeräyksen yhteydessä on yleisöltä pyydetty tallennusvinkkejä. Myös tämänhetkisen musiikkikeräyksen avuksi on avattu verkkolomake, jota kautta voi ehdottaa tallennettavia verkkosivuja. Lomakkeen kautta voi lähettää ehdotuksia vaikka monta kertaa, vuoden 2017 loppuun saakka: https://link.webropolsurveys.com/S/ABFE243EA6008E34

Kun keräyslista on valmis, kerättävät sivustot jaotellaan vielä tallennusuran helpottamiseksi sivustojen koon mukaan, karkeasti isot sivustot ja yksittäiset sivut erikseen. Melkein viimeisenä vaiheena koostettu lista ajetaan omalla verkkosivujen tallennusrobotilla (Heritrix, lue lisää Kansalliskirjaston käytöstä täältä) lopullisesti Kansalliskirjaston tallennusasemille.

Aikaa tallennusprosessiin kuluu tietenkin tallennettavien sivustojen määrän ja koon mukaan, kooltaan pienien sivujen kanssa kestää vähemmän aikaa kuin isojen ja syvien sivustojen tallentamisessa. Sivustoista tallennetaan koko sisältö, joilloin myös sivuston ulkonäkö tallentuu samanlaisena kuin se on ollut tallennushetkellä.

Viimeinen työvaihe on valmistella verkkoarkiston teemakeräyksen sivu myös asiakkaiden tarkasteltavaksi. Tämän vuoden musiikkikeräyksen urakka on valmistunut ja tutkittavissa arviolta vuoden 2018 ensimmäisten kuukausien aikana, riippuen siitä miten kauan aikaa tallennus kestää. Myös muut teemakeräykset käyttävät samaa toimintatapaa, vain keräysaihe vaihtelee.

Postausta on editoitu julkaisemisen jälkeen 23.11. ja 28.11. vapaakappaletyöasemien ja verkkokeräysten toimintatapojen kohdalta.