”Avoimuus on a ja o, ja se vahvistuu koko ajan” – Ari Asmin Open Data Champions -haastattelu

Datan jakamisen on oltava tutkijalle helppoa ja palkitsevaa, jotta avoimuus yleistyisi, toteaa Open Data Champions -tunnustuksella palkittu Ari Asmi. Asmille avoimessa datassa on kysymys tutkijantyön ja -uran edistämisen lisäksi tieteen periaatteiden toteutumisesta: avoimuus on tieteen edellytys. Läpinäkyvyys on erityisen tärkeää, kun tutkimukseen kohdistuu poliittista painetta.

(English version of this interview is available on Open Data Champions website.)

SPARC Europe -kirjastoyhteisö palkitsi viime vuonna kolme Helsingin yliopiston tutkijaa – Tuuli Toivosen, Ari Asmin ja Mikko TolosenOpen Data Champions -tunnustuksella, joka myönnetään avoimen tutkimusdatan edistämisestä (ks. myös Flamma-uutinen). Think Open -blogissa julkaistaan heinäkuun aikana palkittujen HY-tutkijoiden haastattelut suomeksi.

Sarja jatkuu tutkimuskoordinaattori ja ilmakehätutkija Ari Asmin haastattelulla. Asmin haastattelu tehtiin alun perin suomeksi, ja siitä julkaistiin SPARC Europen sivuilla englanninkielinen versio.

Miksi pidät datan jakamista tärkeänä? Mikä auttoi sinua ymmärtämään datan jakamisen tärkeyden?

Ari Asmin mukaan avoin data sisältää tutkijantyötä koskevan käytännöllisen ja tieteen läpinäkyvyyttä koskevan periaatteellisen puolen.

Väitöskirjan jälkeen siirryin tutkimustoimintaa tukevalle alalle. Työskentelen tutkimusinfrastruktuurin parissa, ja dataan liittyvät asiat ovat sielläkin selkeä ongelma. Kohtaamieni hankaluuksien takia oli aika luonnollista, että kiinnostuin tutkimusdatasta. Vaikka tutkijat tietävät tutkimusdataan liittyvät asiat tärkeiksi, he kokevat sen ehkä enemmän filosofiseksi kysymykseksi. Ajatellaan, että kyllä joku muu sen hoitaa. Mikä usein onkin totta. Tutkijoiden pääasiallinen tehtävä ole miettiä tutkimusdatapolitiikkaa, mutta heidän olisi hyvä olla jollain tavalla tietoisia siitä, ettei tule yllätyksiä.

Tutkijana tulen ilmastotutkimuksen puolelta. Ja ilmastotutkimuksessa olennaista ovat pitkät aikasarjat. Ilmastoa ei voi muuten tutkia. Väitöskirjassani keräsin datasettejä, trendianalyysejä pienhiukkasista. Aineistoa kerätessäni jouduin soittamaan eri ihmisille pitkin maailmaa, kun kuulin huhuja, että jollakin saattaisi olla datasettejä jossain. Siihen liittyi kauhea neuvottelu jokaisen kanssa, miten dataa voi käyttää ja millä ehdoilla. Se oli aikamoinen operaatio. Silloin huomasin, että kysymys ei ole triviaalista asiasta.

Mikä on suhteesi avoimeen dataan?

Edellä mainittujen syiden takia avoimuus on a ja o. Ja se vahvistuu koko ajan. Kun aloitin avoimen datan parissa, se oli minulle enemmän filosofinen kysymys: kun tiedettä tehdään, tulokset pitää pystyä varmentamaan. Myös ajatus julkisesti rahoitetun tutkimuksen avoimuudesta oli tärkeä. Kukaan ei saisi jemmata tutkimusaineistoa omaan kirjahyllyynsä vain sen takia, että ajattelee kirjoittavansa aineiston pohjalta ehkä joskus vielä toisenkin artikkelin.

Viimeisten vuosien aikana, tai oikeastaan sen jälkeen, kun brittiläisen East Anglian ilmastotutkijoiden sähköpostit hakkeroitiin, ilmastotutkimuksessa ja ympäristötutkimuksessa on herätty siihen, että tutkimusdatan avoimuudessa on toinenkin pointti. Kysymys ei ole vain tieteenfilosofinen, vaan avoimella datalla voidaan todistaa se, ettei kukaan ole päässyt muuttelemaan aineistoa. Tällainen avoimuus tekee omasta argumentista huomattavasti vahvemman. Samalla on mahdollista näyttää, mistä johtopäätökset tulevat.

Mikä turhauttaa sinua eniten nykykäytännöissä? Jos voisit muuttaa yhden asian, mikä se olisi?

Turhauttavinta on se, kun tutkijat tulevat kysymään, että miksi, mitä hyötyä heille henkilökohtaisesti on avoimuudesta. Usein joudun perustelemaan avoimuuden hyvin kauaskantoisilla asioilla. Eli suurin ongelma tällä hetkellä on se, että avoimuudesta ei palkita. Yliopistot voisivat esimerkiksi rekrytointivaiheessa kysyä, millaisia avoimia datasettejä tutkija on julkaissut, miten paljon niitä on käytetty ja onko niillä ollut merkitystä tieteenalan kannalta. Tällä hetkellä käydään tarkasti läpi viittaustietokannat ja kirjoitetut artikkelit, mutta datasetit ovat parhaimmillaankin vain lisätieto. Niitä ei pidetä osana kompetenssin osoittamista.

Itse asiassa, voisi olla mielenkiintoista, jos olisi avoimen datan palkintoja. Se voisi antaa vähän ”pushia” ja nostaa avoimuuden arvostusta. Raadollisesti ajatellen tutkimustoiminta on kuitenkin pitkälti oman nimen mainostamista ja oman maineen nostamista. Jos voidaan konkreettisesti näyttää, että tutkimusdatan avoimuus parantaa tutkijan mainetta, tutkijat lähtevät mukaan. Sinänsä tämä on ihan pöllö asia. Oikeaan tieteelliseen tutkimukseen kuuluu todisteiden jakaminen. Samalla tavalla oikeaan tieteelliseen tutkimustapaan kuuluu raportointi. Kukaan ei kyseenalaista artikkelin kirjoittamista, koska se on osa systeemiä ja palkitsemisjärjestelmä tukee sitä.

Tällä hetkellä käydään tarkasti läpi viittaustietokannat ja kirjoitetut artikkelit, mutta datasetit ovat parhaimmillaankin vain lisätieto. Niitä ei pidetä osana kompetenssin osoittamista.

Mitä tapahtuu, jos tutkimusdata pysyy suljettuna?

Pelkään, että se johtaa siihen, että on yhä vaikeampi luottaa tutkimusten johtopäätöksiin. Tutkimusdatan määrä lisääntyy kovaa vauhtia eikä kukaan voi olla selvillä siitä, mikä on ollut se tausta-aineisto, johon johtopäätökset perustuvat. Tämä voi johtaa hyvin pirstaloituneeseen kuvaan tieteellisen totuuden tilasta. Se voi haitata myös tieteellistä keskustelua, ja itse asiassa, se haittaa tieteellistä keskustelua jo nyt, kun ihmisillä ei ole saatavilla samoja informaatiolähteitä.

Jos nykyinen tilanne jatkuu, ja kun otetaan huomioon nykyisen poliittisen paineen tiedettä vastaan, luulen, että meille käy huonosti. Enkä puhu vain ilmastotutkimuksesta. Jos jollakin tutkimuksen kohteena olevalla asialla on yhteiskunnallista painoarvoa ja jos samalla pysymme suljetussa järjestelmässä, painostusryhmien on hyvin helppo ajaa omia tavoitteitaan. Heidän sanansa on aivan yhtä vahva kuin tutkijan sana, jos ei ole mitään tausta-aineistoja, joilla tutkija voi tukea väitteitään.

Kuka tai mikä saa sinut luottavaiseksi avoimen tieteen tulevaisuuden suhteen?

Avoimen tieteen merkitys on aika monellakin taholla tieteen kentällä ymmärretty. Se näkyy Euroopan komissiossa, Suomen Akatemiassa ja Helsingin yliopistossa. Tämä on selvästi asia, jonka eri ihmiset näkevät tarpeelliseksi.

Muutama vuosi sitten olin Kiinassa kokouksessa. Siihen aikaan ilmanlaadun mittaustulokset eivät olleet julkista tietoa, vaikka yliopistot niitä mittasivat. Emme halunneet mennä eurooppalaisina sinne käskemään, miten tulisi toimia. Paikalliset akateemikot, vanhat professorit olivat kuitenkin sitä mieltä, että tämä on väärin, mittausten pitäisi hyödyttää kaikkia. He kirjoittivat kirjeen akatemialle, että käytäntö pitäisi muuttaa. En tiedä, mitä tapahtui, mutta tämä on mielestäni valaiseva esimerkki: muutos lähti tutkijoista, tutkijoiden tarpeelliseksi kokemasta asiasta. Tällaiset tapaukset antavat uskoa.

Toinen asia, joka on ollut mukava huomata, on opiskelijoiden reagointi nykyiseen tilanteeseen. He ovat olleet yllättyneitä siitä, että tutkimusdata ei ole avoimesti saatavilla. Se on heille outoa. He kysyvät, miksi se ei ole avointa. Joudun vastaamaan, että käytännön syistä.

On otettava huomioon myös välineiden kehittyminen. Datan käsittelyyn tarkoitetut välineet paranevat koko ajan. Kun välineet ovat parempia, myös datan julkaiseminen muuttuu koko ajan helpommaksi. Loppujen lopuksi vaiva voisi olla niin pieni, että julkaiseminen tapahtuu enemmän tai vähemmän automaattisesti.

Opiskelijat ovat olleet yllättyneitä siitä, että tutkimusdata ei ole avoimesti saatavilla. Se on heille outoa. He kysyvät, miksi se ei ole avointa. Joudun vastaamaan, että käytännön syistä.

Mitä pitäisi vielä tehdä, jotta yhä useampi tutkija jakaisi ja avaisi tutkimusdatansa?

Lisäämällä kannustavuutta ja parantamalla työkaluja avoimuus lisääntyy. Tutkijoiden oma motivaatio on tärkeä, mutta datan avaaminen on tehtävä myös helpoksi. Mitä helpompaa datan avaaminen on, sitä varmemmin ihmiset sitä tekevät.

Tutkimusinfrastruktuurin kohdalla meillä on se etu, että ajattelumme on pitkäjänteistä ja meillä on tietty ajatus tuotteista, joita haluamme tehdä. Yksittäisillä tutkijoilla voi kuitenkin olla hyvinkin heterogeenisiä aineistoja, ja siinä kirjastot ja e-infrastruktuurit, kuten EUDAT, voivat olla tärkeitä (ks. myös Helsingin yliopiston Datatuki ja HY:n Tutkimusdatapalvelut-sivusto).

Ja lopuksi, miltä näyttäisi nykyistä avoimemman datan maailma?

On olemassa sellainen massiivinen eurooppalainen projekti kuin European Open Science Cloud (EOSC). Kukaan ei oikein tunnu tietävän, mikä se on. Idea siinä on se, että koko tutkimustoiminta suunnittelusta lopputuotteeseen olisi avoimesti saatavilla. Samalla siitä näkisi jokaisen tutkimukseen osallistuneen kontribuutiot. Tätä tietoa voisi hyödyntää monin tavoin. Kun koko prosessi olisi avoimesti näkyvillä, olisi helppo nähdä ihmisten eri roolit. Koska tutkijan tehtävä on mainostaa itseään, tällaisen systeemin kautta voitaisiin osoittaa, millaisia rooleja tutkijalla on ollut tutkimuksessa. Samalla tämä näyttäisi, millaisia valintoja tutkimuksen aikana on tehty. Tämä tekisi tieteentekemisestä huomattavasti uskottavampaa. Toivon, että EOSC olisi tällainen, mutta tulevaisuus näyttää, millainen siitä tulee.

Nykyisessä systeemissä insentiivit ovat kuitenkin hyvin outoja. Eivätkä ne ole välttämättä edullisia tieteen kannalta. Tviittasin jokin aika sitten artikkelista, jossa kerrottiin, miten suuri osa opiskelijoista ja tutkijoista haluaa olla tiedemiehiä (scientists), mutta heidät on pakotettu olemaan ”akateemikkoja” (academics). Akateemikko kirjoittaa artikkeleita, ja yrittää saada niitä lehtiin, sen sijaan että hän yrittäisi tehdä mahdollisimman hyvää tiedettä. Pointti on se, että ihmiset pakotetaan maksimoimaan insentiivit sen sijaan että he tekisivät mahdollisimman hyvää tiedettä. Mikä tahansa indikaattori on, ihmiset alkavat maksimoimaan etujaan sen perusteella.