Verkkolehtien keräämisestä

Verkkolehdet – tässä yhteydessä ei puhuta näköislehdistä – ovat lehden verkkosivuja, joihin laitetaan valikoitu osa artikkelisisällöistä. Tarkalleen ottaen nyt puhutaan siis lehtien verkkosivujen keräämisestä: laajalevikkisiä digitaalisena syntyneitä lehtiä on Suomessa vielä melko vähän.Verkkolehtiä on kerättävä huomattavasti tiuhempaan kuin stabiilimpia verkkosivuja. Päivittäisten sanomalehtien verkkosivuja kerätäänkin kerran päivässä; viikkolehtiä ja vain muutaman kerran viikossa ilmestyviä sanomalehtiä kerran viikossa. Lisäksi monet aikakauslehdet julkaisevat juttujaan niin, että niitä kannattaa kerätä kuukausittain.verkkolehti5

Verkkolehtiä on monenlaisia. On säännöllisesti artikkeliaineistoa tuottavia sanomalehtiä, näytejuttuja eli verkkovinkkauksia tarjoavia aikakauslehtiä ja sitten kirjava joukko yhteisöjen tiedotuslehtiä sekä firmojen asiakaslehtiä, jotka ilmestyvät vain muutaman kerran vuodessa ja laitetaan näköislehtenä omille verkkosivuille. Viimeksi mainittuja ei kerätä edes kuukausittain, sillä aktiivinen keruu olisi kovalevytilan tuhlausta. Mainitut saadaan talteen myös vuosittaiskeräyksellä.

verkkolehti21Lisäksi lehtien verkkosivujen sisällön laajuus vaihtelee paljon. Mikään tilausmaksulla toimiva sanomalehti ei tänä päivänä laita kaikkea sisältöään vapaasti luettavaksi. Monien verkkosivut koostuvat erilaisista paperi- tai näköislehden markkinointia tukevista tärpeistä. Jotkut maakuntalehdet laittavat yleisön tiedottamisen kannalta kriittisiä juttuja tai sitten juttujen lyhennelmiä. Usein vapaasti luettavat jutut ovat varsinaisen jutun nopeasti kokoon kyhättyjä luonnostelmia, joista ilmestyy täydennetty versio seuraavan päivän paperilehdessä. Joidenkin tekniikka on laittaa jutusta muutama ensimmäinen rivi tai sitten sallia muutaman jutun vapaa luku viikossa. Jotkut pitäjälehdet taas eivät laita julkisesti näkyville kuin tärkeimpiä kunnallisia tiedotteita. Ilmaisjakelulehdet toki laittavat kaiken näkyviin, mutta niiden jutut ovat tunnetusti lyhyitä.

verkkolehti11Nämä aiheuttavat haasteen Kansalliskirjaston käyttämälle keräyskone Heritrixille. Joidenkin lehtien tapa sallia muutama juttu vapaasti viikossa voidaan ohittaa, mutta jos sivuilla on vain pari riviä tekstin alkua per juttu, se on hankalampi juttu. Maksumuuri on koetettava ohittaa yhteistyöllä kustantajien kanssa. Kulttuuriaineistolaki edellyttää, että verkkojulkaisijan tulee mahdollistaa verkkoaineiston haku ja tallentaminen tai luovuttaa aineisto Kansalliskirjastolle, jos aineistoa ei voi hakea ja tallentaa ohjelmallisesti. Maksumuurien myötä lehdet ovat uskaltaneet laittaneet sivuilleen entistä enemmän ja laadukkaampia artikkeleita, näin muurien ylittäminen on käynyt entistä tarpeellisemmaksi.

verkkolehti8Verkkolehtien sisällöt ovat kehittyneet vuosien varrella. Valta- ja maakunnallisilla lehdillä on viikonloppupainoksensa. Lähes joka lehdellä on nykypäivänä omat bloginsa. Lisäksi sivuilla on muutakin sisältöä kuin artikkeleita: merkittävimmät valtakunnalliset lehdet ovat synnyttäneet omat nettiteeveensä, joihin laitetaan lyhyitä haastatteluja ja viihdesisältöjä. Jotkut taas eivät perusta omaa kanavaa vaan lainaavat sisältönsä Youtubelta. Yleisesti sivuille sijoitetaan myös suoralinkkejä muiden yhtiöiden sisältöihin: TV-oppaita, verkkokauppoja, työpaikanvälitystä, deittipalveluita ja tietenkin mainoksia.

verkkolehti13Tämän kaiken takia Heritrixin keräystulokseen ei voi aina luottaa, harava ulottuu aina vain muutaman linkin taa. On keskusteltu, voitaisiinko kerätä lehtien artikkeleita pelkästään RSS-syötteiden avulla. Tällä tavalla saataisiin varmemmin itse jutut ilman joutavia tuplia (sama juttuhan on sivuilla usein useana linkkinä) ja tilaa vievää mainossälää. Näin säästettäisiin verkkotilaa. Samalla menetettäisiin kuitenkin itse sivunäkymä. Kaikki lehdet eivät myöskään tarjoa RSS-syötettä.

verkkolehti15Verkkolehdet tarjoavat sisältöjään myös mobiiliversiona, joka on käytännössä sama lehti laitenäytön kokoon sovitettuna. Näillä näkymin mobiiliversioiden kerääminen tuskin toisi suurta lisäarvoa.

verkkolehti4Lehdet kerätään erillisten linkkilistojen avulla. Päivittäin kerättävien linkit lainattiin aiemmin Kansalliskirjaston omista tietokannoista (Suomasta ja Fennicasta), sittemmin on käytetty Sanomalehtien liiton linkkilistaa. Harvemmin kerättävien listaa on täytynyt ylläpitää käsin. Tällä hetkellä päivittäin kerätään noin 40 lehden verkkosivuja, viikoittain noin 240:n ja kuukausittain 120:n.

verkkolehti16

Lähes kaikki verkkolehdet tarjoavat ostettavaksi digitaalista näköislehteä. Noiden keräämiseen verkkoharavalla ei kaikissa tapauksessa ole tarvetta, koska on olemassa tahoja joista lehtiä voidaan kerätä keskitetysti. Kustantajan avatessa meille maksumuurinsa, voimme toki kerätä näköislehdet yhtälailla.

verkkolehti18Kansalliskirjaston tehtävänä on ohjelmallisesti hakea ja tallentaa yleisön saatavilla olevaa verkkoaineistoa tietoverkoista. Verkkoaineistoa kerätään eri tavoin. Vuosittain tehdään kaikkien .fi- ja .ax-päätteisten verkko-osoitteiden haravointi, joka siis periaatteessa kerää kaiken mitä suomalaisessa netissä on (pois lukien toki kaupallisten tuottajien .com-osoitteet). Toiseksi joka vuosi tehdään teemakeräyksiä erilaisten merkittävien tapahtumien yhteydessä (mm. vaalien ja suurten urheilutapahtumien). Verkkolehtiä on kerätty päivittäin/viikoittain/ kuukausittain vuodesta 2009.verkkolehti17

Verkkolehdet kuten muutkin kerätyt ja luovutetut aineistot ovat asiakaskäytössä ainoastaan vapaakappaletyöasemilla, joita on Kansalliskirjaston lisäksi muissa vapaakappalekirjastoissa, Eduskunnan kirjastossa sekä Kansallisessa audiovisuaalisessa instituutissa.

verkkolehti19

Jari Heikkinen