Uutisia digitaalisia, vanhoja ja uusia – IFLAn sanomalehtijaoston kokous Genevessä

IFLAn sanomalehtijaoston pre-konferenssi Digital Transformation and the Changing role of News Media in the 21th Century järjestettiin 13.-14.8. Genevessä ITU:n eli Kansainvälisen televiestintäliiton tiloissa. ITU on YK:n alainen televiestintäverkkoja ja -palveluja kansainvälisesti koordinoiva järjestö ja sijaitsee samoilla nurkilla kuin monet muutkin YK:n järjestöt, kuten WTO, WHO ja ILO.

Kaksipäiväinen konferenssi keskittyi etupäässä sanomalehtien digitointiin ja tekstintunnistuksella saatavan datan käsittelyongelmiin. Toki käsiteltiin myös elektronisessa muodossa syntyneiden uutisten säilyttämistä sekä digitoinnilla louhittavan datan käyttömahdollisuuksia, mutta useat aiheet liittyivät siihen miten yleensä saada hyvälaatuista tekstiä eritasoisista alkuperäislähteistä. Myös suomen kielen erikoinen luonne tuli käsitellyksi.

Konferenssin alkupuolella puhuttiin digitaalisessa muodossa syntyneiden uutisten säilytysongelmista. Sanomalehtijaoston sihteeri Frederick Zarndt kertoi uutisorganisaatioille suunnatusta kyselystä, kuinka ne ovat suojanneet digitaaliset uutisensa, jotka julkaistaan erilaisissa tiedostoformaateissa ja ovat erilaisten teknisten infrastruktuurien tuottamia. Myös tietoisuus uutissisältöjen säilyttämisen tärkeydestä voi olla heikkoa: näin ollen merkittävä osa digitaalisena syntyneistä uutisista on vaarassa kadota kokonaan. Jotkut ikivanhat sanomalehdetkin ovat muuttuneet pelkästään digimuodossa julkaistaviksi, esim. vuodesta 1734 ilmestynyt Lloyd’s List. Sitten on myös uutissisältöjä, jotka ovat olemassa vain mobiiliversioina ja niiden pitkäaikaissäilytys onkin vaikeampi juttu. Kaikilla uutisorganisaatioilla ei ole varmuuskopiointia. Jotkut organisaatiot ovatkin menettäneet uutissisällöistään enimmillään jopa neljänneksen. Myöskään digitaalisten sisältöjen säilytysohjelmaa ei monella taholla ole, eikä sen puoleen erikoistunutta uutiskirjastonhoitajaa.

Pohjoisamerikkalaisen Center for Research Libraries –organisaation presidentti Bernard F. Reilly puolestaan kertoi CRL:n luomasta elektronisten uutisten elinkaaren syväanalyysistä. Reillyn mukaan tarvitaan kokonaan uusi lähestymistapa uutistuotannon yhteiskunnalliseen merkitykseen, laillisuustekijöihin ja rahoitusmalleihin. Keskeisen merkityksen tässä mallissa saa kirjastojen ja uutisorganisaatioiden yhteistyö, jossa yhteydessä Suomi sai erikoiskiitosta Kansalliskirjaston ja kustannustalojen yhteistyöhankkeiden myötä. Kustantajille on ehtinyt muodostua valtava määrä standardeja ja standardisoituja käytäntöjä. Monessa maassa on myös tehty työtä eVapaakappalelainsäädännön luomiseksi; mainittakoon että Yhdysvalloissa tällaista lakia ei ole. Monien tahojen tapa säilyttää eUutiset PDF:nä ei edusta hänelle tarvittavan joustavaa lähestymismallia.

Edellä mainitusta yhteistyöstä antoivat hyvän esimerkin brittiläiset Neil Smyth ja Stella Wisdom kertoessaan Corpus Protocols –projektista, joka liittyy tekstin ja datan louhintaan kaupallisista uutissisällöistä. Haasteena ovat lisensointi, säilyttäminen, datan saavutettavuus sekä tutkijoiden ja julkaisijoiden keskinäinen kommunikaatio. Tekijänoikeussäännöstön tulisi mahdollistaa digitaalisten sanomalehtisisältöjen käytön big datana myös kaupallisessa mielessä. Käytännössä eri tahoilta joudutaan erikseen kysymään, saako sivuja tallentaa. Tehostaakseen näitä prosesseja British Library on muuttanut sanomalehtikokoelmansa Yorkshireen. BL tallentaa myös nettisivuja, varsinkin uutissivustoja sekä TV-/ radio-ohjelmia.

Digitalisointiyhteistyöstä antoi hyvän esimerkin myös Yves Maurer Luxemburgin kansalliskirjastosta. Luxemburg on digitalisoinut aineistojaan vuodesta 2003 aluksi yksinkertaisesti kuvaamalla aineistot. Vuonna 2006 he aloittivat yhteistyön saksalaisen CCS:n (Content Conversion Specialists GmbH) kanssa alkaen samalla käyttää METS/ALTOa. Luxemburgin lisäksi CCS on digitoinut sanomalehtiä Europeanaan METAe-projektissa (Metadata Engine Project). Luxemburgin kansalliskirjasto ja CCS pääsivät näin käyttämään valmiita toimintamalleja, joita oli saatu aiemmasta projektista. CCS pystyi näin tuottamaan valmiiksi ohjelmistot, varsinaisen digitointiosaamisen, säilyttämisen sekä saavutettavuuden.

Yhteistyötä on tehnyt myös Sveitsin kansalliskirjasto, jonka edustaja Genevieve Clavel-Merrin kertoi Le Nouvelliste (1903-) ja lehden kaikkien numeroiden digitoinnista http://www.lenouvelliste.ch/fr/archives/sommaire/ johon on kansalliskirjaston ohella osallistuneet eri yritykset ja sponsorit. Kustantajatahojen myötämielisyys on myös mahdollistanut lehden vapaan julkaisemisen verkossa. Toisaalta Clavel-Merrin kertoi hankalammin edistyneestä Die Tat (1939-1978) lehden digitoinnista, jonka Sveitsin kansalliskirjasto suoritti yksinään.

Suomen oma digitaalisten aineistojen tutkimusprofessori Timo Honkela (johon allekirjoittanut sekoitettiin useampaan otteeseen, se tämä suomalainen habitus) kertoi tilastollisista järjestelmistä, joilla digitoinnilla saatavan tekstidatan laatua voidaan parantaa. Tekstintunnistus (Optical Character Recognition, OCR) ei tunnista kovin hyvin suomenkielisiä varsinkin fraktuuralla painettuja sanoja. Meikäläinen Kansalliskirjasto on digitalisoinut suomalaisia sanomalehtiä vuosilta 1771-1910 yhteensä 1,7 miljoonaa sivua suomen ja ruotsin kielellä. OCR tekee paljon virheitä, kun kyse on vanhoista tekstityypeistä, joissa kirjoitusvirheet ovat yleisiä; puhumattakaan sitten kirjoitetun suomen kielen loputtomista suffiksivaihtoehdoista sekä sen muutoksista ja häilyvyydestä aikojen varrella. Riittävän kompleksien morfologisten mallien luominen tulisi liian kalliiksi tähän käyttötarkoitukseen, joten on keksittävä muuta. Joukkoistaminen eli crowdsourcing olisi yksi ratkaisu laadun parantamiseksi, mutta se on usein osoittautunut huonoksi vaihtoehdoksi: ei sitä kukaan pitkän päälle jaksa ja vaikka jaksaisikin, niin lopputulos on liikaa tekijöidensä näköistä. Tämän vuoksi on alettu parantaa tekstin laatua n-grammimalleilla yksittäisten sanojen suhteen sekä morfessorimetodilla, joka järjestää sanoja automaattisesti mielekkäällä tavalla. Honkela toivoo, että tulevaisuudessa olisi mahdollista kehittää entistä edistyneempää sosio-historiallista tekstinlouhintaa, jossa digitaalisten aineistojen jalostaminen ja sisältöanalyysi sekä koneoppimisen hyödyntäminen paranevat paranemistaan. Jonkun verran ihmistyötä näidenkin apuvälineiden ohella toki tarvitaan.

Tämän jälkeen kuulimme digitointikokemuksia Latviasta ja Singaporesta. Latvian kansalliskirjaston Arturs Zogla kertoi hyviä kokemuksia OCR-tekstin soveltamisesta nimiauktoriteettitietokantaan käyttäen apuna nimentunnistinta (Named Entity Recognition, NER) sekä aikasidonnaisia sanastoja. Näin ajasta riippuvat nimet, kuten käsite Yhdysvaltojen presidentti, tai ajan myötä muuttuneet kadunnimet tulevat tunnistettavaksi. Singaporen kansalliskirjaston Siang Hock Kia esitteli Infopediaa http://eresources.nlb.gov.sg/infopedia/ joka on luotu singaporelaisista sanomalehdistä syöttämällä niistä löytyneitä avainsanoja klustereihin, joista muodostuu Infopedia-artikkeleita. Tutkimalla samankaltaisuuksia sanomalehtiartikkeleissa ja yhdistämällä sisältöjä tekstianalyysin avulla on näin luotu kokonaan uusia artikkeleita. Artikkeleita on tähän mennessä kertynyt jo 1700. Tämä vaati 130 miljoonan artikkeliassosiaation luonnin 20.000 eri artikkelissa. Koko prosessi vaati 9 päivää.

Ruotsin edustaja Pär Nilsson kertoi positiivisista muutoksista maan vapaakappalelakiin. Ruotsin kansalliskirjasto ei enää kerää kaikkia verkkosisältöjä. Vuoden 2012 laki määrää keräämään vain merkittävimmät sisällöt, kuten sanomalehtiartikkelit ja muuttumattomina pysyvät elektroniset dokumentit, jotka liittyvät olennaisesti Ruotsiin. Pelkkiä nettisivuja ei siis kerätä. Tämän avulla uskotaan saatavan parempi kokonaiskuva ruotsalaisen verkon sisällöstä ja myös indeksointi helpottuu huomattavasti.

Utahin yliopistosta saapunut Randy Silverman piti konferenssin tunnepitoisimman ja myös aidosti koskettavimman esityksen puhuessaan amerikkalaisesta vimmasta tuhota alkuperäinen sanomalehtisidoksia digitoinnin nopeuttamiseksi ja tilan säästämiseksi. Matkasaarnaajamaisesti esiintynyt Silverman vannotti, etteivät eurooppalaiset sortuisi samaan idiotismiin. Epäilemättä moni läsnäolija jakoi hänen tunteensa. Silverman muistutti myös, että mikrofilmit eivät ikinä ole dokumenttina samaa tasoa kuin alkuperäiskappaleet: niissä kun on kuvausaukkoja ja värit tuppaavat katoamaan. Hän korosti myös, että kun kauhistellaan sanomalehtien säilyttämisen kustannuksia, ei osata ollenkaan ajatella digitaalisäilytyksen tulevia kustannuksia. Esitys herätti paljon keskustelua. Huomautettiin mm. siitä, että toki sanomalehtiä säilytetään muuallakin kuin kansallis-/ yliopistokirjastoissa, varsinkin kustannustaloissa. Yksimielisiä oltaneen kuitenkin siitä, että alkuperäiskappaleet kuuluu säilyttää jossakin niin kauan kuin se vain on mahdollista.

Konferenssin toinen päivä piti sisällään paljon tapaustutkimuksia sanomalehtien digitointiprosesseista. Kokemuksia kuultiin mm. Europeanan sanomalehtiprojektista (kaksi esitystä); venäläiseltä Atapy Softwarelta, joka on digitoinut pohjoismaisia musiikkilehtiä (erityisen hankalat layoutit); saksalaiselta Herder-instituutilta, joka yhteistyössä ImageWaren kanssa digitoi Puolan, entisen Tšekkoslovakian ja Baltian maiden vanhoja sanomalehtiä; sekä CRRA:lta (Catholic Research Resources Alliance), joka digitoi katolisia sanomalehtiä.

Toinen Europeanan sanomalehtiprojektista kertonut esitys oli erityisen mielenkiintoinen. Clemens Neudecker Alankomaiden kansalliskirjastosta keskittyi nimentunnistukseen. NER tunnistaa auktorisoituja henkilönimiä, organisaatioita ja paikkoja. Löytyneet nimet linkataan ulkoisiin resursseihin, kuten DPediaan, Kongressin kirjaston auktoriteettitietokantaan ja VIAF:iin. Auktorisoinnin kielinä Europeanan projektissa toimivat hollanti, saksa ja ranska. Tässäkin on jatkuvana haasteena OCR:n laatu, kielten moninaisuus, historian varrella muuttuvat kirjoitusasut sekä skaalautuvuus. Merkittävä ongelma on myös, miten säilyttää auktorisoidun nimen tarkka sijainti läpi prosessin, jotta ne voidaan korostaa lukijaa varten.

Innsbruckin yliopiston Günter Mühlberger käsitteli dokumenttien strukturaalista metatietoa. Käsite kuvaa sitä, miten dokumentti on järjestynyt sisäisesti ja mitä suhteita sillä on ulkoisiin lähteisiin. METS-dokumentin strukturaalinen kartta kuvaa dokumentin sisäistä hierarkiaa ja auttaa näin navigoinnissa. Kyse on siis tasokkaan metatiedon saamisesta automaattisesti. Monissa kirjastoissa sanomalehtien kuvailu on perinteisesti ollut heikkoa: tietoa vaihtuvista kustantajista tai nimenmuutoksista ei ole dokumentoitu (tähän sanoisin, että Suomessa on oltu asian suhteen tarkempia). Toisaalta rakenteellista metatietoa ei vanhoissa kuvailusäännöissä ole edes edellytetty. OCR on omiaan kuvaamaan automatisoidusti mainitunlaista metatietoa fyysisessä (painoteknologia) ja loogisessa mielessä (otsikkojen, artikkelien, palstojen ja rivitysten järjestys). Sanomalehtien rakennetta analysoidessaan Mühlberger tuli kertoneeksi paljon sanomalehtien historiasta. Layoutit ovat muuttuneet 300 vuodessa paljon, vanhoissa lehdissä jutuilla ei esim. ollut otsikkoa. Myös juttutyypit ovat kehittyneet. Uutisia ja mainoksia on ollut aina; mielipideosasto ja viihteelliset sisällöt yleistyivät 1700-luvun lopulla. Ekonomisen datankeruun nimissä on muistettava, että myös vanhoissa sanomalehdissä oli usein uutisia samoista asioista. On asetettava arvojärjestykseen se, mitä väärintunnistettuja kohtia aletaan jälkikäteen korjata. Mieluiten täydellistä tekstiä halutaan linkityksen vuoksi niistä teksteistä, joissa on auktorisoituja nimiä (tässä kohtaa mainittiin jälleen uusi lyhenne NEL = Named Entity Linking) tai joissa on ainutlaatuisia juttuja.

Muista mielenkiintoisella tavalla poikennut esitys oli Beyreuthin yliopistosta saapuneen Anna Wiehlin esitys uutispeleistä (Newsgames). Näissä uutissisältöjä elävöitetään linkitetyn datan avulla luoduilla peleillä. Esimerkkeinä oli hirmumyrskyjen syntyä esittelevä Hurricane Maker, Kennedyn murhaa käsittelevä JFK: Reloaded, ja Lähi-idän tilannetta ruotiva Gaza/Sderot. Lisää uutispeleistä: http://en.wikipedia.org/wiki/Newsgame.

Konferenssin viimeisessä osiossa Vermontin yliopiston Erenst Anip käsitteli sosiaalisen median merkitystä digitaalisten uutissisältöjen levittämisessä. Levityskanavina hän suositteli eritoten Facebookia, Flickriä ja Pinterestiä. Anip muistutti, että sosiaalinen media – ilmaisuudestaan huolimatta – ei voi olla ainoa markkinoinnin muoto. Tarvitaan myös perinteisiä kohtaamisia ja keskusteluja kasvokkain.

Loppukeskustelussa nousi esiin joidenkin kokousedustajien närkästys siitä, kuuluuko kirjastonhoitajien tehtäviin todellakin uutispelien kaltaisten kehitelmien suunnittelu. Toisaalta Olive Softwaren omassa mainospuheenvuorossaan esittelemä keksintö lisätä vanhoihin digitoituihin sanomalehtiin videopätkiä suorastaan huvitti: ajateltiin opiskelijoiden oikeasti luulevan, että vuoden 1969 kuulentoa käsittelevä lehtiuutinen alun perinkin sisälsi Youtube-videon laskeutumisesta. Huvittuneisuuden takana oli aito huoli historiallisen autenttisuuden kadottamisesta. Keskustelu kirjastonhoitajien roolista myötäili perin sovinnaista linjaa, jossa osa väestä kokee mentävän liian pitkälle sumuisten visioiden nimissä ja osa taas kokee yleisellä tasolla maailman muutoksissa mukana olon tärkeäksi.

Sanomalehtijaoston nimestä yleensä ottaen se, että sana sanomalehti aletaan kokea jo anakronismiksi. Uusi nimi on jo haussa: siinä on varmaankin mukana uutismedia.

Kuva paneelikeskustelusta. CRL:n presidentti Bernard F. Reilly vasemmalla, Timo Honkela toinen vasemmalta. Sanomalehtijaoksen sihteeri Frederick Zarndt oikealla

Digitaalinen kirjasto

Kansalliskirjastolaisten kirjoituksia digimaailman ja kirjastojen ajankohtaisista ilmiöistä

Uutisia digitaalisia, vanhoja ja uusia – IFLAn sanomalehtijaoston kokous Genevessä