Podcastit talteen!

Kansalliskirjaston kotimaisen julkaisutoiminnan arkistoinnissa eli vapaakappaletoiminnassa uusi aluevaltaus vuonna 2018 oli podcastien kerääminen ja tallentaminen. Podcastien, eli internetissä levitettävien puheohjelmien suosio on noussut viime vuosina valtaisasti, lopulta jopa Suomessa niistä puhutaan televisiossa ja podcastit saivat viime vuonna oman festivaalinsa.

Määritelmältään podcast on internetissä levitetty ja yleensä myös ladattavissa oleva puheohjelma riippumatta sisällöstä, tai alkuperäisestä julkaisupaikasta. Yleensä podcasteista puhuttaessa tarkoitetaan juuri internetiä varten tuotettua lähetystä jota ei ole lähetetty esimerkiksi radioaalloilla. Määritelmä voi olla käytännössä kuitenkin lipsuva: moni tunnettu podcast on lähetetty ensin radiolähetyksenä ja tiivistetty sen jälkeen podcastiksi.

Kuva: Pixabay, Kaboompics (Pixabay Licence)

Podcastit aineistotyyppinä ovat verkkosivujen ja radiolähetysten välimaastosta, mutta joiden tallennusvelvollisuus julkaisualustan vuoksi on kulttuuriaineistolain (1433/2007) mukaan Kansalliskirjastolla. Perinteisten broadcast-radiolähetysten tallennus on laissa määritelty Kansallisen audiovisuaalisen instituutin (KAVI) Radio- ja televisioarkiston (RTVA) tehtäväksi.

Lähdimme siis ihan uusille vesille podcastien kanssa. Työurakkana oli löytää erilaisia kotimaisia podcasteja ja saada ne talletettua jonnekin Kansalliskirjastossa. Podcastien löytämisessä isona apuna oli jakso.fi -sivuston lista kotimaisista podcasteista, jota rikastimme itse etsityillä podcasteilla sekä syksyllä 2018 toteutetulla keräyskampanjalla sosiaalisessa mediassa.

Keräyskampanjassa pyysimme yksinkertaisella verkkolomakkeella linkkejä kotimaisiin podcasteihin. Keräykseen otettuja podcasteja ei valittu laatukriteerein, tallennettavaksi kelpasi melkein mikä tahansa podcastin määritteen täyttävä kotimainen ohjelma. Suurin osa keräysvastausten (94 kappaletta) podcasteista olikin suomenkielisiä, itse kerätyistä podcasteista pieni osa oli myös ruotsiksi ja muutama myös muilla kielillä. Podcastin kotimaisuutta määriteltiin tarkoituksella mahdollisimman löyhin termein.

Kuva: Helsingin kaupunginmuseo (finna.fi), (CC BY 4.0)

Kerättäviä nimikkeitä keräyskampanjasta ja itse tehdystä etsinnästä saatiin lopulta yhteensä 660 kappaletta. Verkkokeräyksen sulkeuduttua podcastit ladattiin verkkosivuiltaan ja ne tullaan tallettamaan Varia-nimiseen julkaisuarkistoon, joka on käytettävissä vapaakappaletyöasemilla paitsi Kansalliskirjastossa, myös muissa vapaakappalekirjastoissa ympäri Suomea.

Verkkoarkiston sijasta podcastit päätettiin sijoittaa Variaan, koska podcastien julkaisualustat olivat hyvin vaihtelevin tekniikoin toteutettuja. Keräyksen tulokset ovat käytettävissä, kunhan tallennus- ja luettelointiurakka saadaan tehtyä vielä vuoden 2019 aikana.

Lisätietoa keräyksestä ja sen toteutuksesta antaa vapaakappaletoimisto: vapaakappale@helsinki.fi

Valemedia osaksi kulttuuriperintöä

Kansalliskirjasto on tehnyt verkkoarkistoon teemakeräyksiä eri aiheisiin perustuen kymmenen vuoden ajan. Aiheet ovat vaihdelleet vaaleista festivaaleihin; musiikista tulivuorenpurkauksiin.

Valitsimme yhdeksi keräyskohteeksi valemedian. Valemedia on käsitteenä herkkä ja vaikeasti määriteltävä. Kotimaisten kielten keskuksen määritelmän mukaan se on mielipiteisiin perustuvaa, vastoin hyvää journalistista tapaa toimiva viestintäkanava, jota voidaan käyttää informaatiosodan välineenä. Tällaisten kanavien ylläpitäjät ja tukijat käyttävät niistä nimityksiä vastamedia ja vaihtoehtomedia. Valemedian alakäsite on valeuutinen, joka saman lähteen mukaan on valemedian tuottama ja välittämä uutiselta vaikuttava teksti tm. kuvaus.

Syy, miksi halusimme tehdä keräyksen juuri tästä aiheesta, on se että valemediat muuttuvat koko ajan. Alalle tulee uusia yrittäjiä ja vanhat lopettavat. Myös tekstien sisällöt ovat tilanteiden mukaan muuttuvaisia; ystävät muuttuvat vihollisiksi ja päinvastoin. Keräämällä alan medioita yhteen, voimme tarjota tulevaisuuden tutkijoille edustavan otoksen ilmiöstä Suomessa vuonna 2018.

Aiheen vaikeuden takia halusimme ilmiötä määritelläksemme haastatella alan asiantuntijaa. Johanna Vehkoo on toimittaja ja tietokirjailija, joka on erikoistunut faktantarkistukseen ja verkossa leviävään misinformaatioon. Hän kirjoittaa Yleisradiolle näitä aihepiirejä käsittelevää juttusarjaa nimeltä Valheenpaljastaja. Juttusarjan koko arkisto on luettavissa täällä: https://yle.fi/aihe/kategoria/oppiminen/valheenpaljastaja

Miltä keräämämme lista vaikuttaa?

Lista vaikuttaa varsin pätevältä ja loogisesti kootulta. Itse käyttäisin näistä kattotermejä misinformaatio (tahattomasti levitetty väärä tieto) ja disinformaatio (tahallisesti levitetty väärä tieto).

Mikä tekee valeuutisen ja mikä valemedian?

Valeuutisen määritelmä on hyvin yksinkertainen: se on harhautustarkoituksessa tehty teksti (tai vaikkapa video), joka matkii ulkoisesti journalismia, mutta ei ole sitä. Tarkemmin olen määritellyt ilmiötä oheisessa jutussa https://yle.fi/aihe/artikkeli/2017/01/26/valheenpaljastaja-mita-valeuutiset-ovat-ja-mita-ne-eivat-ole

Valeuutinen on olennaisilta osiltaan sepitettä, kun taas journalismi on faktapohjaista. Joskus valeuutisissa on mukana tosipohjaisia asioita, joihin sekoitetaan keksittyjä juttuja. Oleellista on, että valemedia ei pohjimmiltaan välitä tosiasioista eikä noudata Journalistin ohjeita http://www.jsn.fi/journalistin_ohjeet/. Valeuutisen tekijän motiivina voi olla raha, huijaamisesta saatava tyydytys tai poliittiset pyrkimykset. Sivuilla ei yleensä ole päätoimittajaa tai muita selkeitä vastuuhenkilöitä tai edes sähköpostiosoitetta kummempia yhteystietoja. Juttujen kirjoittajia ei tyypillisesti nimetä.

Onko näistä julkaisuista lupa käyttää myös termejä vastamedia vai vaihtoehtomedia?

En itse käytä noita termejä. Vastamedia on monen vale- ja vihasivuston itse suosima nimitys, koska se luo keinotekoisen vastakkainasettelun perinteisen eli niin kutsutun valtamedian ja niin sanotun vastamedian välille. Tosiasiassa ei kuitenkaan ole kyse siitä, että vastamedia kertoisi jonkun vaihtoehtoisen totuuden, vaan se tyypillisesti vääristelee, liioittelee tai valehtelee. Vaihtoehtomedia puolestaan on vanha, vakiintunut termi, jolla tarkoitetaan muun muassa kulttuuri- ja mielipidelehtiä sekä pieniä alakulttuurijulkaisuja. On parempi kutsua kutakin sivustoa sitä itseään parhaiten kuvaavalla termillä. Kattokäsitteenä voi käyttää valemediaa silloin kun disinformaatiolla on olennainen rooli sisällössä. Joskus valemediaa käytetään liian kärkkäästi, esimerkiksi sellaisten poliittisten mielipidesivustojen kohdalla, jotka eivät pyri esiintymään uutisvälineinä.

Miten tärkeänä näet valemedioiden tallentumisen verkkoarkistoon ja siten tutkijoiden käyttöön tänä päivänä ja tulevaisuudessa?

On aivan olennaista kerätä ja tallentaa näitä sivustoja, erityisesti siksi, että ne saattavat muutella ja poistaa sisältöjään julkaisun jälkeen kertomatta siitä lukijoilleen. Jotkut ovat muun muassa muuttaneet kirjoittajien nimiä jälkikäteen. Lisäksi sivustot voivat sulkeutua ilman ennakkovaroitusta. Kyseessä on tärkeä tutkimuskohde, koska sivustot vaikuttavat mielipideilmastoon.

Uskotko että keräys voi auttaa ymmärtämään ilmiötä?

Ilman muuta. Valeuutisilmiö ja rasistiset vihasivustot vaikuttavat julkiseen keskusteluun ja yhteiskunnalliseen ilmapiiriin muun muassa levittämällä vihapuhetta. Ne ovat tärkeitä tutkimuskohteita, ja juuri niiden arvaamattoman luonteen takia niitä on syytä tallentaa systemaattisesti.

Millaisena näen valemedian tulevaisuuden? Voiko valemedia siirtyä ajan kanssa muille alustoille?

Nehän toki toimivat jo esimerkiksi sosiaalisen median alustoilla. Tulevaisuudessa valemediassa nähdään enemmän äänen ja liikkuvan kuvan manipulointia. Valemediat menevät sinne, minne yleisö menee.

Olemme keränneet keräyslistaan valemedioita, joiden agendoja ovat etupäässä nationalismi, rasismi, maahanmuuttovastaisuus ja Venäjämyönteisyys. Lisäksi on joitain joiden agendana on ilmastonmuutoksen epäily, miesasia (tarkoittaen miesten ylivaltaa) ja rokotekielteisyys. Pitäisikö meidän mielestäsi kerätä muunkinlaisia julkaisuja saman teeman alla?

Salaliittoteoriasivustot ja -blogit tulevat myös mieleen. Listassa näytti sitäkin aineistoa kyllä olevan. Tällaiset sivustot muodostavat omituisia ideologisia hybridejä, joissa vasemmistolaisina ja oikeistolaisina pidetyt tahot löytävät yhteisiä vihollisia tai ihailun kohteita.

Mikä on sosiaalisen median rooli tänä päivänä? Facebook ainakin on ilmoittanut, ettei jaa valeuutisia enää entiseen malliin. Minkälaisia aiheeseen liittyviä sosiaalisen median sisältöjä toivot kerättävän?

Vale- ja vihasivustojen sisällöistä käydään usein vilkkaimmat keskustelut juuri sosiaalisen median palstoilla. Näitä olisi hyvä myös tallentaa, mikäli ne ovat julkisia.

Erityisesti Facebookin roolista valeuutisten levittäjänä on käyty paljon keskustelua, ja yhtiö on kokeillut jo lukuisia keinoja ongelman ratkaisemiseksi. Jos sanon asiasta jotakin tänään, huomenna Facebook tiedottaa jo kokeilevansa jotakin uutta. Yhtiön on syytä ottaa viimein vastuu ongelmasta. Youtube on lähes yhtä merkittävä misinformaation levittäjä kuin Facebook.

Valemediakeräys ja muut verkkoarkistoon tallennetut aineistot ovat asiakaskäytössä tekijänoikeuslain edellyttämällä tavalla vapaakappaletyöasemilla, joita on Kansalliskirjaston lisäksi muissa vapaakappalekirjastoissa, Eduskunnan kirjastossa sekä Kansallisessa audiovisuaalisessa arkistossa.

 Verkkoaineistokeräykset kuvaillaan kansallisbibliografiaan kokoelmatasolla. Linkki keräykseen.

Burning Logitech 12” by Diether. Licensed under CC BY-SA 3.0

Musiikin verkkosivujen teemakeräys 2017

Osallistu keräykseen suoraan tällä lomakkeella: https://link.webropolsurveys.com/S/ABFE243EA6008E34

Verkkoarkisto on Kansalliskirjaston keräämä arkisto kotimaisista verkkosivuista ja muusta internetistä kerätystä aineistosta, ihan kuten jo palvelun nimikin vihjaa. Sisältöä arkistoon kerätään talteen usealla eri tavalla, tavoitteena on samalla lailla kuin painettujen aineistojen kanssa saada suomalaista elämää ja hälinää tietoverkoissa talteen myös myöhemmin tutkittavaksi.

Teemakeräys sisältää kaikenlaisia verkkosivuja

Verkkoarkistoa voisi ainakin osittain verrata yhdysvaltalaiseen The Internet Archiveen joka arkistoi verkkosivuja automatisoidusti vuoden ympäri ja ympäri maailmaa, mutta oman verkkoarkistomme toimintaa ja rajauksia määrittää suomalainen lainsäädäntö.

Vasta tuorein kulttuuriaineistolaki vuodelta 2008 (1433/2007) määritteli erikseen myös verkkosivustot talletettaviksi. Biteistä ja datasta taltioidaan vain edustava otos, toisin siis kuin fyysisten aineistojen kanssa joista pyritään saamaan talteen kaikki mahdollinen Suomessa julkaistu. Peruspykälien lisäksi arkistointia ohjaa erillinen ministeriön vahvistama keräyssuunnitelma, joka osoittain myös ohjaa teemakeräyksen aiheita.

Keräystyyppejä on monenlaisia: suuri automaattinen vuosittainen massakeräys sekä erilaisia teemojen, sivustotyyppien (esim. uutissivustot), ja muiden rajausten mukaan tehtäviä täsmäkeräyksiä. Vuosittain toistuva verkkokeräys on rutiininomainen tapa kerätä massana .fi ja .ax –päätteiset sivustot sekä kielentunnistuksen avulla myös muualla sijaitsevia suomenkielisiä sivustoja. Täsmäkeräyksillä taas kohdistetaan verkkosivujen keräystä tarkemmin tiettyihin valittuihin teemoihin tai muihin aiheisiin.

Verkkoarkiston etusivu, http://verkkoarkisto.kansalliskirjasto.fi/

Teemakeräykset mahdollistavat myös keräämisen sivustoilta joihin vuosikeräys ei yllä, moni ajankohtaisaihe tuottaa materiaalia esimerkiksi sosiaalisen median kanavissa joista suurin osa ei ulkomailla sijaintinsa (sisältö on muualla kuin .fi tai .ax -sivustoilla) takia tallennu vuosikeräyksessä ollenkaan. Tarkemmat tiedot keräämisen teknisestä puolesta löydät Kansalliskirjaston verkkosivuilta: https://www.kansalliskirjasto.fi/fi/vapaakappaletoimisto#verkkoaineistot

Teemakeräysten aiheena ovat olleet esimerkiksi merkittäviin tapahtumiin (Euroviisut, poliittiset tapahtumat tai muut tapahtumat jotka ovat herättäneet paljon keskustelua) tai ilmiöihin liittyvät täsmäkeräykset. Keräysten teemoja määrittää myös vahvistettu keräyssuunnitelma. Näissä talletetaan aineistoa laajasti valitun teeman ympäriltä, esimerkiksi sosiaalisen median kanavissa pyörineitä keskusteluita (etenkin jollain tietyllä hashtagilla, eli #-merkin avulla asiasanoitettuja postauksia, kuvia ja keskusteluketjuja), yksittäisiä henkilöiden kotisivuja, verkkosivuja jostain tietystä aiheesta, keskustelufoorumien ketjuja tai kokonaisia foorumeita, uutisia, sekä yhdistysten verkkosivuja.

Musiikkiaiheisia teemakeräyksiä on tehty jo vuodesta 2009 lähtien, sen jälkeen noin joka toinen vuosi. Kerättäviksi etsitään kotisivuja yhtyeiltä, artisteilta, musiikkialan ammattitoimijoilta, faneilta, yhdistyksiltä, erilaisia tapahtumia, keskustelufoorumeita, sosiaalisen median kanavia musiikkiin liittyen sekä myös yksittäisiä verkkokeskusteluita. Viimeisimpänä kerättävänä aineistona ovat tulleet videot: sisältäen videona julkaistuja musiikkiesityksiä sekä teemaan muuten liittyvää aineistoa (esimerkiksi musiikkiaiheisten tubettajien kanavia).

Tähän mennessä tehtyjen teemakeräysten aiheita voi nähdä verkkoarkiston sivuilta myös kotikoneelta, mutta vain vapaakappaletyöasemilla voi tutkia myös kerättyjen sivujen sisältöä: http://verkkoarkisto.kansalliskirjasto.fi/va/crawls

Vapaakappaletyöasemia sijaitsee vapaakappalekirjastoissa (Kansalliskirjastossa yhteensä kuusi kappaletta), Eduskunnan kirjastossa sekä Kansallisessa audiovisuaalisessa instituutissa (KAVI). Tarkemmat Kansalliskirjaston työasemien sijainnit ja käyttöohjeet löydät täältä: https://www.kansalliskirjasto.fi/fi/asiointi/tyoskentely-kirjastossa#vapaakappaletyoasemat

Verkkoarkiston aiemmat musiikkikeräykset näkyvät näin vapaakappaleasemien ulkopuolelta käsin

Teemakeräyksen keräystapa on varsin simppeli. Ensimmäisenä keräykseen osallistuva henkilökunta käy läpi edellisen musiikkikeräyksen tallennuslistan ja poimii sieltä vielä toimivat linkit, seuraavaksi etsitään uusia teemaan sopivia aineistoja haravoiden omia tietolähteitä ja sivustoja (esimerkiksi musiikkiaiheisista bloggaajista, musiikkiopistoista, festivaaleista, sekä bändien nettisivuista tehtyjä listauksia).

Keräykseen otettavan sisällön haravoi ja jaottelee teemakeräysten yhteydessä Kansalliskirjaston henkilökunta, mutta esimerkiksi yhden aiemman vaalikeräyksen yhteydessä on yleisöltä pyydetty tallennusvinkkejä. Myös tämänhetkisen musiikkikeräyksen avuksi on avattu verkkolomake, jota kautta voi ehdottaa tallennettavia verkkosivuja. Lomakkeen kautta voi lähettää ehdotuksia vaikka monta kertaa, vuoden 2017 loppuun saakka: https://link.webropolsurveys.com/S/ABFE243EA6008E34

Kun keräyslista on valmis, kerättävät sivustot jaotellaan vielä tallennusuran helpottamiseksi sivustojen koon mukaan, karkeasti isot sivustot ja yksittäiset sivut erikseen. Melkein viimeisenä vaiheena koostettu lista ajetaan omalla verkkosivujen tallennusrobotilla (Heritrix, lue lisää Kansalliskirjaston käytöstä täältä) lopullisesti Kansalliskirjaston tallennusasemille.

Aikaa tallennusprosessiin kuluu tietenkin tallennettavien sivustojen määrän ja koon mukaan, kooltaan pienien sivujen kanssa kestää vähemmän aikaa kuin isojen ja syvien sivustojen tallentamisessa. Sivustoista tallennetaan koko sisältö, joilloin myös sivuston ulkonäkö tallentuu samanlaisena kuin se on ollut tallennushetkellä.

Viimeinen työvaihe on valmistella verkkoarkiston teemakeräyksen sivu myös asiakkaiden tarkasteltavaksi. Tämän vuoden musiikkikeräyksen urakka on valmistunut ja tutkittavissa arviolta vuoden 2018 ensimmäisten kuukausien aikana, riippuen siitä miten kauan aikaa tallennus kestää. Myös muut teemakeräykset käyttävät samaa toimintatapaa, vain keräysaihe vaihtelee.

Postausta on editoitu julkaisemisen jälkeen 23.11. ja 28.11. vapaakappaletyöasemien ja verkkokeräysten toimintatapojen kohdalta.