Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa

Vuoden 2014 alusta saakka Mikkelissä Kansalliskirjaston digitointi- ja konservointikeskuksessa käynnissä ollut Euroopan aluekehitysrahaston (EAKR) rahoittama DIGRA-projekti (Digitaalisesta raakadatasta aineistoksi) on tutkinut Kansalliskirjaston historiallista sanomalehtiaineistoa Helsingin yliopiston humanistisen tiedekunnan digitaalisten aineistojen professorin johdolla. Aineisto sisältää Suomessa ilmestyneet sanomalehdet vuosilta 1771–1910. Aineistoa on vapaassa käytössä noin 1,95 miljoonaa sivua. Vuodesta 1911 eteenpäin oleva aineisto on rajatussa käytössä, ja sitä on noin 1,3 miljoonaa sivua.

Projektissa on saatettu alkuun aineiston käyttö tekstinlouhinnassa. Tekstinlouhinnassa pyritään saamaan laajoista tekstiaineistoista esiin niiden sisältämää informaatiota. Apuna käytetään yleensä tilastollisia ohjelmia, jotka etsivät tekstimassoista toistuvia hahmoja tai malleja. Esimerkkejä tekstinlouhinnasta ovat tekstin eristäminen ja luokittelu, tekstien klusterointi, käsitteiden tai nimien eristäminen tekstistä, dokumenttien tiivistelmien tuottaminen jne. Viime kädessä tekstinlouhinnassa on kyse aineiston jalostamisesta ja helpommasta pääsystä käsiksi aineistoon.

Sanomalehtiaineisto on nykymuodossaan digitoituna sivuittain. Se merkitsee sitä, että kaikki aineistoon tehtävä haut tuottavat tulokseksi sivun tai sivut, joissa hakusana esiintyy. Käyttäjän kannalta tämä ei ole ehkä helpoin tapa lähestyä aineistoa – hakusanan korostetut osumat joutuu etsimään lehden sivulta, kun sen avaa hakutuloksista. Käyttäjä ei myöskään kykene kohdistamaan hakuja lehden erilaisiin osiin, esimerkiksi uutisartikkeleihin tai ilmoituksiin.

Digra-projektissa on pilotoitu artikkelien automaattista eristämistä sanomalehtiaineistosta. Työtä on tehnyt tietojärjestelmäasiantuntija Srikrishna Raamadhurai. Tehtävä on vaativa: jokaisen sanomalehden layout vaihtelee, joten eri lehtiä ja samankin lehden eri vuosikertoja varten artikkelien eristämisohjelmaa joutuu opettamaan käsin merkityllä malliaineistolla. Vasta opettamisen jälkeen ohjelma voi erotella lehden sivuilta artikkeleita. Pilotissa saavutetut tulokset ovat rohkaisevia: niissä on kyetty eristämään ja luokittelemaan oleellinen osa sivujen sisällöistä noin 80 prosentin tarkkuudella.

Muita hyviä tekstinlouhinnan kohteita historiallisessa lehtiaineistossa tarjoaa esimerkiksi erilaisten nimien tunnistaminen ja luokittelu. Tehtävä tunnetaan yleisesti englanninkielisellä lyhenteellä NER, named entity recognition. Nimien eristämistä aineistoista ei ole toistaiseksi kokeiltu, mutta verkkoaineiston käyttäjälokeja tutkimalla on todettu, että tuhannesta yleisimmästä hakusanasta 80 prosenttia on nimiä: 30 prosenttia etunimiä, 30 prosenttia sukunimiä ja 20 prosenttia paikannimiä. Tämä kertoo selkeästi sen, että ihmiset ja paikat toimivat hyvin usein kiinnekohtina, joiden kautta käyttäjät lähestyvät aineistoja. Nimien eristäminen teksteistä tarjoaisi uusia mahdollisuuksia luoda aineistoon erilaisia hakemistoja sekä linkittää eri aineistoja toisiinsa nimien kautta.

Sekä artikkelien että nimien eristäminen aineistoista ovat tehtävälistalla Digra-projektin mahdollisessa jatkoprojektissa Tiikerissä, jolle on haettu rahoitusta.

Vipuvoimaa   eu

Kansalliskirjaston historiallinen sanoma- ja aikauslehtiaineisto
digi.kansalliskirjasto.fi