”Avoimuus pitää saada mukaan ytimeen, kaikkeen tekemiseen ja kaikkeen koulutukseen” – Mikko Tolosen Open Data Champions -haastattelu

Ratkaisevaa eri tieteenaloilla on osoittaa se, että avoimen tieteen käytännöt ovat parempi tapa tehdä tiedettä – tätä kautta kulttuuri muuttuu. Näin toteaa Open Data Champions -tunnustuksella palkittu Mikko Tolonen, joka on raivannut tietä avoimille käytännöille humanistisen tutkimuksen puolella.

(English version of this interview is available on Open Data Champions website.)

SPARC Europe -kirjastoyhteisö palkitsi viime vuonna kolme Helsingin yliopiston tutkijaa – Tuuli Toivosen, Ari Asmin ja Mikko TolosenOpen Data Champions -tunnustuksella, joka myönnetään avoimen tutkimusdatan edistämisestä (ks. myös Flamma-uutinen). Think Open -blogissa julkaistaan heinäkuun aikana palkittujen HY-tutkijoiden haastattelut suomeksi.

Haastattelusarjan viimeisessä osassa on vuorossa aatehistorian ja filosofian historian tutkija ja digitaalisten ihmistieteiden apulaisprofessori Mikko Tolonen. Tolosen haastattelu tehtiin alun perin suomeksi, ja siitä julkaistiin SPARC Europen sivuilla englanninkielinen versio.

Miksi pidät datan jakamista tärkeänä? Mikä auttoi sinua ymmärtämään datan jakamisen tärkeyden?

Mikko Tolosen mukaam avoin tiede edellyttää humanistisella puolella kokonaisvaltaista kulttuurin muutosta.

Olen koulutukseltani perinteinen humanisti, ja olen väitellyt historiasta. Kun aloin tutkijakollegiumissa toteuttaa Digital Humanities -yhteistyötä, tiedustelin lääketieteen alalla työskentelevältä ystävältäni, tietääkö hän datan parissa toimivaa henkilöä, joka olisi kiinnostunut tekemään yhteistyötä humanistien kanssa. Hän mainitsi Leo Lahti -nimisen kaverin, joka on ensimmäisiä avoimen tieteen aktiiveja Suomessa. Hänen lähestymistapansa tulee luonnontieteiden puolelta. Aloin tarkastella humanistista kenttää, ja ymmärsin, että olemme monella tapaa huomattavasti jäljessä.

Perinteiset historiantutkijat eivät ymmärrä tutkimusdataa, koska he ajattelevat, ettei heillä ole mitään tutkimusdataa. On vain lähteet, muistiinpanot ja lopullinen julkaisu. Mutta näinhän asia ei ole. Olen yrittänyt edistää tietoisuutta tutkimusdatasta omassa tutkimusryhmässä ja muiden tutkijoiden joukossa, tutkimustyön ja valistamisen kautta. Avoimuutta ei tule ymmärtää vain julkaisujen kautta, vaan on nähtävä koko prosessi raakadatasta lopputuotteeseen. Tässä tutkimusdata on keskeisessä asemassa, ja luonnontieteiden puolella tämä on ymmärretty jo pitkään. Humanistisella puolella olemme joutuneet lähtemään alkutekijöistä liikkeelle. Humanistisella puolella kyse on kokonaisvaltaisesta kulttuurin muutoksesta. On ollut tyypillistä, että yksi henkilö tekee tutkimuksen. Sen sijaan digitaalisissa ihmistieteissä tutkimus ymmärretään niin, että siihen kuuluu useita eri toimijoita. On pystyttävä kommunikoimaan ja jakamaan dataa joka päivä. Lisäksi on pystyttävä toimimaan muiden tutkimusryhmien kanssa jatkuvassa yhteistyössä. Tämä on aika eri maailma kuin perinteisessä historiantutkimuksessa, ja tilanteen muuttamiseksi on tehtävä paljon töitä.

Mikä on suhteesi avoimeen dataan?

Oma tutkimuksemme liittyy aatehistoriaan, ja aineistomme koostuu pitkälti tekstiaineistoista. Meillä on suuria aineistokokonaisuuksia, kuten 1700-luvun brittiläinen aineisto, joka on luetteloitu ESTC:een (The English Short Title Catalogue). Käytämme myös kirjastoluetteloita aineistona, e. g. Fennica (The National Bibliography of Finland). Aineiston käyttöön liittyy paljon puhdistustyötä. Puhdistamme kirjastoluetteloita, jotka yhdistämme kokotekstiaineistoihin, kun teemme hakuja. Tässä syntyvä tutkimusdata on tärkeätä, koska muokkaamme aineistoja, ja muokatessa voimme tehdä myös virheitä. On pystyttävä näkemään, mitä prosessissa on oikeasti tapahtunut. Vaikka raakadata ei ole aina kaikille avointa, putsauskoodi on. Meillä on GitHubissa repository, josta voi nähdä, mitä on tehty. Sitä kautta meidän työmme tulee avoimeksi. Suosimme myös raakadatassa avoimia datasettejä, mutta emme kategorisesti voi käyttää vain avoimia lähteitä.

Tutkimustyön lisäksi olen mukana Open Knowledge Finlandin (OKF) avoimen tieteen työryhmässä. OKF tekee hyvää työtä avoimen tieteen hyväksi Suomessa. Myös Helsingin yliopistossa minulle on langennut aktiivinen rooli. Olen mukana aika monessa tiimissä, jossa päätetään avoimeen tieteeseen liittyvistä asioista. Koen olevani mukana yhteisessä avoimen tieteen rintamassa. Syksyllä 2016, kun FinELib-kirjastokonsortio kävi neuvotteluja Elsevierin kanssa, olin organisoimassa yhdessä OKF:n kanssa Tiedonhinta.fi-nimistä vetoomusta, jossa noin 2000 tutkijaa osoitti tukensa FinELib-neuvottelijoille. Yleisen tason keskustelua ja politiikkaa on avoimeen tieteeseen liittyen paljon, mutta tutkijoiden aktivoiminen on kaikkein tärkein asia.

Yleisen tason keskustelua ja politiikkaa on avoimeen tieteeseen liittyen paljon, mutta tutkijoiden aktivoiminen on kaikkein tärkein asia.

Mikä turhauttaa sinua eniten nykykäytännöissä? Jos voisit muuttaa yhden asian, mikä se olisi?

Avoimesta tieteestä puhutaan paljon, ja siitä, että data on se seuraava askel. Yhteistoiminta humanistisella puolella on kuitenkin yhä lapsenkengissä. Meillä menee tolkuttomasti aikaa siihen, kun neuvottelemme mahdollisuuksista käyttää aineistoja. Avoimesta datasta ajatellaan, että avatessa data leviää maailman tuuliin ja tekijänoikeudet menevät siinä samalla. Ei ymmärretä, että tutkija tarvitsee aineiston tehdäkseen työtään.

Pääsy dataan on ollut usein se pullonkaula. Esimerkiksi Gale-yritykseltä yritimme pitkään saada 1700-luvun ECCO-aineistoa (Eighteenth Century Collections Online). He vastasivat toistuvasti, että kuulostaa hyvältä mutta emme voi antaa teille kyseistä datadumppia. Samaan aikaan aikaan he eivät ole itse kehittäneet 15 vuoden aikana minkäänlaisia datan analyysityökaluja. Heidän ansaintalogiikkansa on se, että he myyvät pelkästään lisenssiä kirjastojen kautta tutkijoille. Historiantutkijat eivät ole ehkä edes ymmärtäneet, että tässä voisi olla muitakin käyttömahdollisuuksia. Me saimme viimein ECCO-aineiston, mutta monilla muilla ei ole siihen pääsyä. Ja jos ei ole pääsyä raakadataan, avoimuus ei leviä. Tekstin- ja tiedonlouhinnan kannalta kustantajien käytännöt ovat olleet aika hankalia.

Kuka tai mikä (projekti tai palvelu) inspiroi sinua ja saa sinut luottavaiseksi avoimen tieteen tulevaisuuden suhteen?

Esimerkkinä voisin mainita R-ohjelmointikielen ympärillä toimivan tiedeyhteisön. Siellä luodaan pieniä työkaluja eri tieteenalojen tarpeisiin ilman, että pitäisi odottaa, että jokin kaupallinen toimija ratkaisisi asian. On innostavaa nähdä, miten tällaiset yhteisöt kasvavat ja levittäytyvät eri aloille. Itse lähdimme liikkeelle siitä, kun aloimme soveltaa bioinformatiikan työkaluja kirjastoluetteloiden analysoimiseen. Ja nyt siihen työhön on tullut mukaan ihmisiä aivan eri aloilta, koska he ovat olleet kiinnostuneet samoista asioista. Yhteistyön tekemiseksi ei tarvitse tehdä erillisiä sopimuksia, vaan toiminta lähtee yhteisistä intresseistä. On lohduttavaa, ettei aina tarvitse istua neuvottelupöydissä.

Toisena esimerkkinä voisin mainita oman COMHIS Collective -tutkimusprojektimme, koska sekin on tietyllä tavalla avoimen tieteen projekti. Siinä on mukana tutkijoita, jotka saavat projektirahoitusta, mutta myös ihmisiä, jotka eivät ole muodollisesti sidottuja projektiin. Toimimme kuitenkin yhdessä. Käymme päivittäin keskustelua ja viemme asioita monella rintamalla eteenpäin. Tämä edustaa mielestäni avoimen tieteen eetosta.

Mitä pitäisi vielä tehdä, jotta yhä useampi tutkija jakaisi ja avaisi tutkimusdatansa?

Muutos tapahtuu sitä kautta, kun avoin tiede tulee osaksi tutkijan koulutuksen perustaa ja kun pystytään konkreettisesti osoittamaan, että tämä on parempi tapa tehdä tiedettä. Tavoitteena ei ole se, että järjestetään erikseen avoimen tieteen koulutusta. Jos avoimuus tuodaan ulkopuolisena asiana, tutkijat, ja varsinkin varttuneemmat tutkijat, pitävät sitä hankalana. Avoimuus pitää saada mukaan ytimeen, kaikkeen tekemiseen ja kaikkeen koulutukseen, jota tarjoamme. Kun opetamme tutkimuksen metodologiaa, opetuksen yhtenä osana pitäisi olla näkemys tutkimusdatan roolista. Siihen liittyisi datan jakaminen, pitkäaikaissäilytys, toistettavuus ja tieteen periaatteet ylipäätään.

Muutos tapahtuu sitä kautta, kun avoin tiede tulee osaksi tutkijan koulutuksen perustaa ja kun pystytään konkreettisesti osoittamaan, että tämä on parempi tapa tehdä tiedettä.

Kun meillä kasvaa sukupolvi, jolle avoin data on osa tutkimustyötä, olemme aika erinäköisiä humanisteja sen jälkeen. Ei ole ehkä järkevää odottaa, että tiettyyn tekemisen tapaan tottuneet, ja koko uransa sen varaan rakentaneet, tutkijat muuttaisivat omaa toimintatapaansa. Uusi suunta tulee avoimen tieteen parhaiden periaatteiden kautta. Kaikkein ratkaisevinta kaikilla aloilla on osoittaa se, että tämä on parempi tapa tehdä asioita. Usein käytetään esimerkkinä DNA-tutkimusta, joka kehittyi valtavasti, kun laboratoriot alkoivat kilpailla keskenään myös avoimuudella. Kilpailullisuutta ja omien intressien ajamista voi käyttää siihen, että kaikki hyötyvät.

Ja lopuksi, miltä näyttäisi nykyistä avoimemman datan maailma?

Uskon, että ihmisten elämää parantavat palvelut kehittyvät avoimen datan maailmassa. Humanisteilla on tässä oma roolinsa. Nykyisin on paljon avoimen datan kisoja, mutta minusta tuntuu, että niissä voittaa aina se, joka keksii reittioppaan uudelleen. Voimme tehdä avoimella datalla mitä vaan, mutta päädymme usein tämäntyyppisiin ratkaisuihin. Tämä johtuu osittain siitä, että avoimen datan hyödyntäjien joukko on vielä pieni. Kun datan hyödyntämistä opitaan eri tieteenaloilla, tekeminen ja perspektiivit muuttuvat. Insinöörivetoisesta smart city -suunnittelusta saattaa tulla jotain ihan muuta. Ja kun näkökulma ilmiöihin muuttuu, esimerkiksi historian tai kulttuuriperinnön mukaan ottamisen kautta, myös historiankirjoitus muuttuu.

Konkreettisena esimerkkinä voisin myös mainita, että maailmasta tulee demokraattisempi avoimen datan myötä. Tavallisen kansalaisen on helpompi muodostaa punnittu näkemys erilaisista asioista. Kun on keinot punnita asioita tarjolla olevan tiedon avulla, populismia vastaan ei tarvitse taistella huutamalla.