“Proof is in the pudding” – osa 1.

Ensimmäinen Kansalliskirjaston tutkijapalveluiden sanomalehtisymposium järjestettiin 16.5.2019. Tällä kertaa keskityimme sanomalehtiaineistoihin, tarkoituksena saada kuvaa aineistojen käyttötavoista juuri nyt, nykyisillä sopimusmalleilla ja käyttöehdoilla. Tavoitteenamme oli kerätä tietoa mikä tilanne on nyt, mitä toiveita on, ja miten jatkossa tulisi varautua nykyisen lehtiaineistojen tutkimuskäytön suhteen. Halusimme saada mahdollisimman laajasti kokemuksia eri puolilta ja siksi kasvatimme seminaarin kestoa aiotusta, kun hyviä ehdotuksia tuli niin paljon, joista halusimme itse tietää ja antaa mahdollisuuden myös tutkijoille kuulla toisistaan, kun yhteisenä tekijänä on saman aineistokokonaisuuden osa – vaikka tutkimusaiheet ja -alat vaihtelivat teologiasta feminismin tutkimukseen, tai arkkiveisuista, liki nykypäivään.

Iso kissa vasemmalla ja pikkukissoja rivissä

Tie vapauteen, 01.09.1922, nro 9, s. 9
https://digi.kansalliskirjasto.fi/aikakausi/binding/1360361/articles/3278605?page=9
Kansalliskirjaston digitaaliset aineistot

Ylikirjastonhoitajan tervetuliaispuheen jälkeen, jossa korostettiin tutkimuksen tärkeyttä ja yhteistyötä aineistojen ja tutkijoiden kesken, pääsivät puhujat irti! Kansalliskirjaston omalla tutkimus- ja kehitystyön kertomuksilla aloitettiin, jotta päivä saatiin käyntiin ja kaikki paikalle. Digi.kansalliskirjasto.fi  – palvelun uutuuksista mainittiin, kuten samana päivänä julkaistusta uudesta avauksesta. Kerrottiin myös Digitalia-projektin tuomista uutuuksista lyhyesti, mitä seuraavaksi julkaistaan, eli tekstintunnistuksen korjauksesta, artikkelinpoiminnasta, nimien poiminnasta ja kuvitusten luokittelusta, joita aletaan pian viemään tuotantoon kohdelehteen eli Uuteen Suomettareen ja toivottavasti siitä eteenpäin (hiljalleen) mitä prosessointiteho antaa myöten.

Digitalian Kimmo Kettunen kertoi tekstintunnistuksen korjauksista, joka on oleellinen vaihe ennen nimien poimintaa, jotta virheiden määrä vähenee. Tunnistus paranee, joka taas parantaa aineistojen löydettävyyttä. Kun yleisöstä kysyttiin mitä tutkimuksen jälkeen tapahtuu, niin Kimmo kertasi, Kansalliskirjaston DH-tutkimuksen ja aineistojen rikastamisen pääidean: “Proof is in the pudding”, eli ajatus on, että tutkimuksen tuotokset viedään tuotantoon ja aina Digi-esitysjärjestelmään saakka, jolloin tutkijat ja kansalaiset voivat yhtä lailla hyödyntää aineistoja tehokkaammin tai uusin keinoin, kumpaa sitten parempana pitääkään.

Juha Rautiainen kertoi kiinnostavasta NewsEye-projektista, jossa ajatus on viedä työkalukehitystä vielä eteenpäin. Tutkijat saavat uusia työkaluja, joilla prosessoida aineistoja ja joilla pääsevät nopeammin tutkimuskysymystään vastaavaan aineistoon. Näitä työkalujen ensimmäisiä versioita testattiin jo NewsEye-projektin omassa kokoontumisessa  alkuviikosta, joten kehitys etenee sielläkin saralla.

Jussi-Pekka Hakkarainen paljasti tulevia suunnitelmia lehtiaineistojen tutkimuskäytön suhteen. Olemme saaneet tämän ensimmäisen pilotin aikana palautetta siitä, että miksi vain tietty tutkimusryhmä saa aineistot käyttöön, ja toinen naapurista ei, miksi vuosiraja on tietty, eikä jokin muu ja mitäs oikeastaan aineistoilla nyt sai tehdäkään?  Näihin kysymyksiin,  työnimellä Tutkain aloittanut neuvotteluprosessi pyrkii löytämään ratkaisuja hyvässä yhteistyössä tekijänoikeusjärjestön (eli lehtien oikeudenhaltijoiden) kanssa. Suunnitelmat ovat vielä hyvin alkuvaiheessaan, ja työ aivan alussa, joten kärsivällisyyttä ja positiivisia ajatuksia neuvottelijoiden suuntaan.

Varoitus: Alla oleva tulkinta esityksistä on kirjoittajan, esityksiä oli kuitenkin lukuisia, joten osa vivahteista on voinut jäädä huomaamatta, josta pahoittelut virheistä jo etukäteen. Ideoita tuli tulvimalla!

Sessio 1.

Historiallinen sanomalehtikirjasto on fantastinen!

Tarja Luukkanen toi mieleen ne kaikki tarinat, uutiset joita sanomalehtiainistosta löytyy. Kuinka esimerkiksi August Ahlqvist oli vuonna 1860 saanut suureelliset juhlat, ja sitten hautajaiset 1889 ja kuinka tämän jälkeinen sanomalehtikeskustelu nosti hänestä kansallista suurmiestä. Miten Topeliuksen tarina on luonut suomalaisen miehen prototyyppiä, jopa stereotyyppiä, josta ehkä ei vieläkään ole päästy täysin irti. Hienoa oli kuulla tällaisestä pitkäaikaisesta tutkimuksessa, jossa edetään systemaattisesti aineiston parissa!

Toiveina: lehtien “luokittelu”, eli mitä puoluekantaa lehdet olivat (esimerkiksi hyödyntäen Suomen sanomalehdistön historian -teossarjassa jo olevaa tätä tietoa),  lehden levikki ja agenda.

Lehdistössä julkaistuja paikalliskirjeitä kokoava Translocalis-tietokanta Heikki Kokko (Tampereen yliopisto):  kertoi kuinka aineistokoelmansa, joka on tehty digin perustoimintojen avulla on edennyt siihen vaiheeseen, että pallo heitetiin kohti Kansalliskirjastoa ja miettiä kuinka leiketoimintoa voisi hyödyntää eteenpäin. Lehtileikkeet ovat olleet yllättävä menestys ja hyvä tapa tutkijoille kerätä tutkimusaineistoa talteen.

Biografinen materiaali ja sen löytäminen Kaisa Kyläkoski, esitti  kiinnostava katsaus henkilöhistoriaan ja samalla sai kuvaa mitä kaikkea suositun bloginsa taustalla tapahtuu (lyhyesti sanoen). Hän on ollut palvelun parissa jo vuodesta 2004, joten matkan varrella hän on voinutkin havaita kuinka palvelu on hiljalleen muuttunut. Kaisalta taisikin tulla kiitos niinkin perustoiminnosta kuin hakutulosten järjestämistä kronologisesti, joka oli yhden hänen kirjaprojektinsa näin pelastanutkin. Hän oli myös konkreettisesti kokenut nimien löytämisen vaikeuden – kuinka tekstintunnistuksen virheet tai jopa välimerkit voivat haussa aiheuttaa yllätyksiä, mutta toisaalta myös uusia löytöjä.

”Maaseudun tulevaisuus on ihan loistava aineisto”

Digitoitu lehtiaineisto ja historiantutkimus: kokemuksia ja kehittämiskohteita Hannu Salmi (Turun yliopisto), kertoi useammastakin projektista joissa tutkimusryhmänsä on sanomalehtien kanssa työskentelemässä. Yksi näistä on tuttu Comhis, jossa Kansalliskirjastokin on mukana, tämän lisäksi kuulimme myös mannerten yli ulottuvusta tutkimuksesta nimeltään OceanicExchanges, jossa viedään tutkimusteemoja vielä laajemmalle, globaaleihin uutisiin ja niiden leviämiseen. Ovelaa oli se, että samanlaisten geeni, tekstipätkien etsinnässä pystytään osin kiertämään tekstintunnistuksen heikkoudet ja virheet, jolloin pystytään löytämään kuinka uutiset ovat siirtyneet lehdestä toiseen ja ajassa eteenpäin. Ovatko aikansa kirjoittajat arvanneet, että aika merkittävä määrä artikkeleita on ilmestynyt myöhemmissä lehdissä uudestaan, 10 , 20, 40, tai jopa 100 vuoden kuluttua?

Tässä puheessa tuli myös esille se, että on myös arvokasta, että joitakin lehtiä on olemassa koko julkaisuhistorialtaan – tällöin tiettyjä teemoja (esimerkiksi ilmastoon liittyviä) voidaan seurata systemaattisesti lehden sisällön kautta. Pääetenemä digitoinnissa menee vuosittain, ja yksittäisiä lehtiä on tehty digitointikumppanuuksina, joka on mahdollistanut näiden muutaman lehden osalta kattavan katsauksen – tällöin on luonnollista, että näihin harvinaisuuksiin, jotka ovat helposti käytettävissä koko julkaisuhistorialtaan, että ne saavat huomiota tutkijoilta.

Vaka, vanha mikrofilmi!

Päivän aikana tuli myös kiitosta mikrofilmeille – sekin on kuitenkin tapa välttää paperiseen originaaliin tarttumista, sivujen selailu kuitenkin onnistuu (ja aineiston talletus omalle tikulle) vaikka hakua ei olekaan. Mikrofilmit ovat kuitenkin kattavasti lehdille tehty, säilytystavoitteiden saavuttamiseksi. Eräälle kysyjälle korjaukseksi näin jälkikäteen, lehdet ovat Pohjoissalissa saatavilla vuoteen 1945 ja tätä tuoreemmat tulee tilata etukäteen. Syynä tähän, että tila on salissa kuitenkin rajattu, joten käytetyimmät lehdet löytyvät valmiina, eli joitakin lehtiä löytyy myös pidemmälle. Lista lehdistä  ja ohjeita mikrofilmien tilauksesta löytyy verkkosivultamme ja mikrofilmiskannerin käytöstä on myös ohjevideo.

https://youtu.be/1VSULRUVUTQ

Päivän pohdinta jatkuu seuraavassa blogikirjoituksessa…

DigiSuomi-seminaari 2019

DigiSuomi-tapahtuma järjestettiin 14-15.5.2019. Osallistuimme siihen ensi kertaa, kiinnostuneena kuulemaan muita asiantuntijoita, kuntien ja valtion virastojen muita tekijöitä, ja miten digitaalisuutta Suomesta kehitetään. Digitointi, digitaalisuus, digitaalisen tiedon hallinta ja sen rikastaminen on Digitaliaa lähellä, mutta tulipa seminaarissa myös tietojohtaminen aika ajoin eri tahoilta mainittuna.

Vertailupohjaa sai jo ensimmäisestä avauspuheenvuorosta, Euroopan innovaatisimmaksi pääkaupungiksi, valitun Ateenan CDO:n Konstantinos Champidiksen kertomus kuinka Ateenassa digitalisaatiolla saatiin tiukasta lähtötilanteesta, jossa sekä rahoitusongelmia, henkilöstövajeita ja vielä maahanmuuttokriisi, saatiin digitalisaatiolla tilannetta selkeämmäksi ja paremmaksi. Lähtötilanteessa Suomen digitaalisen teknologian integraatioindex on DTEI oli 79%  ja Kreikan 36%, josta kaupungin tilannetta alettiin kehittämään. Kolme perusolettamaa olivat: siirtymä älykkäistä kaupungeista digitaaliseen muutokseen, digitaalisuus ei ole väistettävissä vaan on välttämätöntä ja että on paljon kysymyksiä joihin vastauksia tarvitaan. Ratkaisuna nähtiin CDO-roolin luominen ja siihen panostaminen  Digital Council:n avulla (johon kuuluu kaupungin johtoa ja merkittävien yritysten pääjohtajat), ja Digitaalisuuden Tiekartta, jolla luotiin suunnitelma eteenpäin. Lopputuloksena oli akuuttien ongelmien nopea ratkaisu, Maker Space-konseptin tuominen, e-Frontdesk  – kansalaisten aktivointi eri tavoin ylipäätään. Näillä muutoksilla Ateena on päässyt parantamaan palveluja kaikille ja lopputulema olikin tuo edellä  mainittu palkinto innovatiivisuudesta.

Jarkko Moilanen muistutti rajapintojen ja alustapalvelujen tärkeydestä.

Suuret alustapalvelut ovat muualta kuin Euroopasta, joka asettaakin tänne haasteen kuinka eteenpäin – ratkaisuksi annettiin rajapinnat, joilla kumppanit, muut kehittäjät voivat jatkaa ja tehdä omia sovelluksiaan peruskäytön päälle.

Tähän  hieno jatko oli VM:n Maria Nikkilä, joka kertoi Suomen AuroraAI-hankkeesta osana esitystään, jossa kerrottiin kuinka tekoäly jalkautuu julkiselle sektorille. Tekoälyohjelman loppuraportissa olikin annettu yksitoista kokonaisuutta, jotka luovat raamit jatkolle

Tämä tuntuikin tutulta, yht’äkkiä, kuten Digitalia-projektissakin oli huomattukin, havaitsemme että ihan omassa projektissa ollaankin tekemässä kuvitusten luokittelua tekoälyä hyödyntäen  ja päädymmekin annotoinnin pulmiin, eli mistä saisi tarpeeksi digitaalista dataa, jotta tekoälyn opetusmallista saadaan tarpeeksi kattava ja monipuolinen. Tekoäly tulee hiljalleen, niin että emme huomaakaan :). Hyvä esimerkki tästä on 28.5. järjestettävä “Tekoäly tuli töihin” -seminaari, jossa katsotaan kuinka jo nyt tekoälyä kirjastotyössä käytetään, joko automaattisen kuvailun (ks. annif.org) tai muiden työkalujen tai menetelmien kautta.

Kiinnostava oli myös esitys Apotti-hankkeesta, joka on Etelä-Suomen sosiaali- ja terveysohjelmistojen kehityksistä varmasti merkittävin hanke pitkään aikaan. Kuulimme hallintamallista ja siitä kuinka hallintamallil itsessään kehittyi, projektin aikataulusta ja skenaarioista, mutta myös käytännön vinkeistä kuinka toimittajien kanssa voi kommunikointi olla vaikeaa , mutta minkälaisilla keinoilla siitäkin pääsee yli.

Yhteenvetona, kiinnostava tapahtuma, jossa oli myös uusia puhujia, joilla oli hyviä näkökulmia joko kuntien tai valtion roolista ja kenen pitäisi koordinoida ja ketä, joten toivottavasti keskustelu jatkuu eteenpäin. Oli myös kiinnostavaa keskustella muiden osallistujien kanssa ja kuulla hiukan epävirallisemmin millaisia haasteita esim. GDPR-vaatimukset ovat eri puolille tehneet.

ISSN:1457-4721

Uusi Suometar on ollut Digitalia-projektissa kohdelehti, josta lähtien olemme rakentaneet uusia ratkaisuja aineistojen parantamiseen ja rikastamiseen. Valitsimme Uusi Suometar-lehden, useastakin syystä johtuen:

  • Lehti on yksi Kansalliskirjaston Digissä, käytetyimmistä lehdistä (kautta aikojen).
  • Lehden aikajana ulottuu vuodesta 1869 aina vuoteen 1918, joten lehti on kokenut kaikenlaista. Esimerkiksi artikkelinpoiminnassa huomattiin, kuinka palstamäärät ovat kasvaneet kahdesta aina yhdeksään ja sitten taas vähentyneet.
  • Lehti on sopivan ikäinen, vanhin aineisto on tekijänoikeuksista vapaata ja voimme käyttää sitä muidenkin tutkimusryhmien kanssa vertailuun.
  • Lehti on sopivan kokoinen, siinä on yli 80.000 sivua, joten aineistomäärä on sopiva kattavuuden kannalta – oletus on että erilaiset erikoistilanteet (eri laatuiset alkuperäisaineiston lajit, sivut joilla on vain kuvia, jne.) tulevat jo tässä sivumäärässä esille.

Nimienpoimintaa varten olemme tehneet tekstintunnistuksen uudestaan kaikille Uuden Suomettaren lehdille. On hyvä varautua siihen, että kunhan nämä uudet sivutiedostot tuodaan digiin, se voi muuttaa hakuosumia nykyisestä, koska lehden indeksoidut sisältötektit päivittyvät paremmiksi.

Lehdestä voi myös digin avoindata-sivulta ladata alkuperäiset ALTOT, mutta myös uudet altot joihin on sovellettu Digitalia-projektissa kehitetty tekstintunnistuksen korjausmenetelmää.  Löydät siitä lisätietoja artikkelista Open Source Tesseract in Re-OCR of Finnish Fraktur from 19 th and Early 20 th Century Newspapers and Journals-Collected Notes on Quality Improvement .

 

Mikkelin Tieteen päivät 2019

Mikkelin yliopistokeskus järjesti tänä vuonna ensimmäistä kertaa “Mikkelin Tieteen päivät” 9.-13.4.2019.  Aiemmin vain Helsingissä olleen seminaarikavalkaadista tehtiin mikkeliläinen versio, aikomuksena tuoda tiedettä lähemmäksi eri sukupolvia. Luentoja järjestettiin eri puolilla Mikkeliä, mm. lukiossa, kirjastossa, ja tietysti itse yliopistokeskuksessa.

Puhujia oli monenlaisia, sekä humanisteja, että tietojenkäsittelijöitä, filosofeja ja kosmologeja ja aiheet yhtä moninaisia liikenteen kehityksestä , digitalisaation ja kuluttajan mahdollisuuksiin uudenlaisessa palveluympäristössä. Lisäksi myös viime vuoden Tieteenkesyttäjä junior voittaja kertoi opiskeluistaan Helsigin yliopiston valtiotieteellisessä tiedekunnassa ja hän nostikin viime hetkien tuoreita teemoja esitellen, kysyen yleisölle mitkä niistä ovat indikaatio pysyvistä muutoksista.

Kaikilta esittäjiltä kysyttiin myös lukusuosituksia, joita löytää Mikkelin kirjaston erikoissivustolta ja kirjastossa valittuja kirjoja voi napata näyttelystä lainattavakseen. Hieno esimerkki lainausinnon kasvusta on Rantakylän koulun Iku-Turso , jossa lukuhirviö kasvoi lukemisen edetessä.

Vanhoja digitoituja kirjoja löytää myös digi.kansalliskirjasto.fi -palvelusta, valitse vain aineistolajiksi ‘kirjat’. Mahdollisesti jatkossa niistä tehdään myös aineistopaketteja tiedonlouhintaa varten, joten lainathan palautetta, jos sinulla olisi tarvetta tietynlaiselle aineistopaketille esim. kielen tai vuoden mukaan lajiteltuna.

P.S. Lauantaina 13.4. klo 12-15.30 Päämajatalossa on vielä Tieteen päivien tapahtuma, joten kipi kapi ohjelmaa tutkimaan, jos vielä askeleet eivät ole Tieteen päiville vieneet. Aina on mahdollista laajentaa omaa maailmanpiiriään ja löytää yllättäviä suosikkeja, oman piirin ulkopuolelta.

Vierailu LUT-yliopistossa

Helsingin yliopiston ja Digitalian väkeä kävi tutustumassa Mikkelin yliopistokeskuksen järjestämään tutustumismatkaan LUT-yliopistossa, Lappeenrannassa. Kiitokset järjestäjille, matka oli erittäin mielenkiintoinen ja herätti uusia ajatuksia.  Saimme katsauksen LUT-yliopiston tutkimukselliseen ja opetukselliseen tilanteeseen ja kuinka yliopisto, eri mittareilla, löytyykin ihan Suomen yliopistojen kärkikaartista.

Toiminta oli vireää, jota osoitti mm. suhteellisen tuoreelta kuulostava ViipuriLAB, joka ei nimestään huolimatta liity Viipurin alueeseen, vaan on kokoavana elementtinä tietyille tutkimussuunnille, vahvistaen sitten organisaatiota laajemmin.  Analytiikan hyödyntäminen ja eri päätöksiin johtavat reitit ovatkin nykyään kehityksen alla erilaisissa organisaatioissa, jotta muuttuva ympäristö ja sieltä tulevat signaalit osattaisiin ottaa huomioon päätöksenteossa ja linjauksissa.

 

Loppuhuipennuksena kävimme vielä tutustumassa LUT-yliopiston, J. Hyneman Center:n – protopajaan, jossa kurssien prototyyppejä voi rakennella. Saimme esittelyn labran mahdollisuuksiin, metalli-, puupajaan ja osaavaan henkilöstöön, joka auttaa opiskelijoita tarvittaessa. Huhtikuun lopussa on taas protopajan projektien esitelystä esittelypäivä, johon jäämme toivomaan etäyhteysmahdollisuutta.