Kamppailu datasta on alkanut – Jouko Väänäsen ja Mikko Tolosen keskustelu digitalisaatiosta ja avoimesta tieteestä

Uuden Think Open -blogin avauspostauksessa vararehtori Jouko Väänänen ja apulaisprofessori Mikko Tolonen keskustelevat digitalisaatiosta, avoimesta julkaisemisesta ja avoimesta datasta.

(The abstract of this post is also available in English.)

Avoin tiede ja digitaaliset tutkimuspalvelut ovat tänään aloittavan Think Open -blogin tärkeimmät teemat. Päätemoista avautuu joukko alateemoja, jotka eri tavoin koskettavat Helsingin yliopiston tutkijaa tämän tutkimustyössä.

Apulaisprofessori Mikko Tolonen ja vararehtori Jouko Väänänen keskustelivat avoimesta tieteestä ja digitalisaatiosta. Kuvat: Juuso Ala-Kyyny

Avoimen tieteen laaja kokonaisuus on blogissa esillä, ja Helsingin yliopiston digitalisaatio-ohjelman tiekartta vuosille 2018–2020 ja visio vuodelle 2024 antaa suuntaa digitaalisille palveluille niin tutkimuksen, opetuksen kuin hallinnon alalla.

Think Open -blogin avausjutussa tutkimuksesta vastaava Helsingin yliopiston vararehtori Jouko Väänänen ja digitaalisten ihmistieteiden apulaisprofessori Mikko Tolonen keskustelevat uuden blogin teemoista. Keskustelua käydään digitiekartan toteutuksesta, digitaalisuudesta eri tieteenaloilla, avoimen julkaisemisen keinoista ja tutkimusdatan avoimuuden tulevaisuudesta.

”Miten pysyä ketteränä? – digitalisaation
edistämisestä tieteenalakohtaisiin eroihin

Aatehistorian ja filosofian historian tutkija Mikko Tolonen avaa keskustelun aiheesta, joka on luonteva kaikissa suurissa hankkeissa.

MT: ”Jos puhutaan tiekartasta, ja peilataan avointa tiedettä sen kautta, ensimmäinen tärkeä asia on digitalisaatiostrategia. Miten strateginen johtaminen saadaan parhaalla tavalla mukaan niin, että pystytään tekemään riittävän suuria rakenteita mutta samalla olemaan ketteriä?”

JV: ”Työryhmässä, joka digitiekartta-suunnitelman teki, oli mukana tutkimusta, hallintoa ja palveluja, ja kaikki kontribuoivat hyvin suuresti. Se ei ollut mikään ylhäältä johdettu toimikunta. Digitalisaatio menee nykyään läpi kaiken toiminnan yliopistossa, tavalla tai toisella kaikki on sähköistymässä. Tiekarttatyössäkin tehtiin ensin kartoitus, mitä digitalisaatioprojekteja HY:ssä on jo käynnissä. Tuntui, että niitä on aivan loputtomasti, ja osa leikattiin mukaan tähän tiekarttaan. Nyt, kun tiekartta on tehty, on perustettu ohjausryhmä. Lisäksi on nimitetty digitalisaatiojohtajaksi Jaakko Kurhila. Hän on eräänlainen digitalisaation tsaari, jonka vastuulla on valtava määrä erilaisia ideoita ja hankkeita. Tällä tavalla yritetään saada yhtenäisyyttä.”

Jouko Väänänen korostaa yhtenäisyyttä myös käyttäjän – tutkijan, opiskelijan ja opettajan – näkökulmasta. Eri puolilla ideoitujen ja kehiteltyjen digitaalisten palvelujen tulisi muodostaa käyttäjän kannalta sujuva kokonaisuus.

JV: ”Ihannetilanteessa eri välineillä olisi yliopistossa yhteinen alusta, jossa käyttäjä liikkuisi saumattomasti opiskelusta opetukseen, hallintoon, matkalaskuihin, kirjaamiseen ja muuhun. Kaikki tämä niin, ettei välillä joutuisi siirtymään systeemistä toiseen ja syöttämään uudelleen samoja tietoja. Siihen pyrimme, se on se visio.”

Mikko Tolonen toivoo, että digitalisaatioprosessissa ymmärrettäisiin tieteenalojen erityispiirteet.

MT: ”Kuulostaa tosi järkevältä. Tutkijan arjen kannalta on hyvä asia, että on tunnistettu ja hyväksytty hallinnon välineiden, SAPin ja muiden, kehittämistarve. Miten on otettu huomioon se, että digitalisaatio koskee eri tavoin eri tieteenaloja?”

JV: ”Perinteinen ajattelutapa, että tämä koskisi enemmän luonnontieteitä ja tilastotieteitä, on muuttumassa. Kymmenen vuotta sitten digitaalisuus tuli lääketieteeseen ja biologiaan. Muutamia vuosia sitten tuli digitaaliset ihmistieteet, ja nykyään digitaalisuus on mukana kaikessa tieteessä. Suurin muutos on tapahtunut viime vuosina kuitenkin humanistisissa tieteissä. Mutta onko siellä tullut jo vastareaktiotakin?”

MT: ”Tottakai, ja osittain se johtuu siitä, että vaikka digitaalisuus yhdistää, tutkimusaineiston luonne on aika erilainen. On datahankkeita, joissa pyritään yhä isompaan. Hyvä esimerkki on HiDATAn MegaSense-hanke, jossa Markku Kulmalan ilmastontutkimus ja 5G (tiedonsiirtojärjestelmä) kohtaavat. Humanistien data ei kuitenkaan koskaan ole samassa mielessä isoa ja yhdenmukaista kuin Kulmalan hankkeissa. Kaikkien intresseissä on varmasti ymmärtää jatkossakin eri alojen luonne, jotta kehitys jatkuu sielläkin, missä tutkimusdataan liittyvät kysymykset ovat aika erilaisia. Tämä on se perinteisten humanistien vastareaktio: he ymmärtävät uudet menetelmät hyvänä asiana, mutta jotkut voivat pelätä, että insinöörien invaasio tekee humanistisista tieteistä jotain ihan muuta kuin se vuosisatojen jatkumo.”

JV: ”Kaikenlaisia muutoksia voi tulla. Voi syntyä myös uusia tieteenaloja. A priori se tuntuu kuitenkin hyvin pinnalliselta, jos vain lasketaan sanojen frekvenssiä tai verrataan tekstien muutoksia, kun taas humanistiselle tutkimukselle on tyypillistä se, että analysoidaan sisältöjä, tarkoitusta ja ajatuksia, ja verrataan niitä kyseisen ajan kulttuuriin. Näiden välinen ero saattaa kuitenkin vähitellen hämärtyä. Kvantitatiivinen analyysi voi alkaa lähestyä kvalitatiivista analyysia, jossa todella pohditaan tarkoituksia ja ideoita.”

MT: ”Digitaalisten ihmistieteiden kannalta iso ja osittain haastava juttu on se, että menetelmät, joita käytämme, ovat pitkälti lainattuja. Ne tulevat bioinformatiikasta ja muualta. Emme ole vielä päässeet siihen, että menetelmän kehittäminen tapahtuisi meidän omilla ehdoilla. Sitten, kun siihen pääsemme, kyse ei ole enää frekvenssin laskemisesta tai klusteroinnista.”

”Tärkeää on datan avoimuus” – kansalaistieteestä
tutkimusdatan omistajuuteen

Matematiikan tutkijana 1970-luvulta lähtien työskennellyt ja yliopiston johtotehtävissä 1990-luvulta lähtien toiminut Jouko Väänänen avaa uudella keskustelunavauksella ovea yliopiston ulkopuolelle.

JV: ”Ottaisin esiin tällaisen asian, jota ei varsinaisesti digitiekartassa käsitellä, eli kansalaistieteen (citizen science), joka liittyy avoin tiede -teemaan. Perusajatus on se, että kun yhteiskunnan varoja pannaan tieteeseen, kansalaisilla olisi oikeus saada tulokset käyttöönsä ja osallistua omilla intellektuaalisilla resursseillaan. Digitaalisuudella on demokratisoiva vaikutus siinä mielessä, että kenellä tahansa on mahdollisuus päästä käsiksi valtavaan määrään tietoa. Tämä ilmiö on jo olemassa, tavalliset kansalaiset ovat voineet tehdä merkittäviä tieteellisiä läpimurtoja käyttämällä avoimesti saatavilla olevia lähteitä. Mitä mieltä olet, Mikko, onko tämä tärkeä ilmiö?”

MT: ”Ilman muuta, se on yksi komponentti avoimessa tieteessä. Se, mikä tässä on tärkeää, on tutkimusdatan avoimuus. Se mahdollistaa paitsi kansalaisten myös muiden tutkijoiden ja tutkimusryhmien toiminnan, ja se kiihdyttää tieteenaloja. Vanhat suomalaiset sanomalehdet ovat tärkeitä historiantutkimuksessa, ja siinä on tehty paljon yhteistyötä Kansalliskirjaston kanssa. Muistiorganisaatioille on usein vierasta, että koko datasetin voi antaa muille käyttöön. Mutta sitä kohti mennään. Tätä varten tarvitaan alustat, joilla aineiston käsittely voidaan tehdä. Datan saaminen jalostettuun muotoon, jonka pohjalta voi tehdä erilaisia päätelmiä, on ehkä se, mitä kansalaiset eivät aina pysty tekemään.”

Kysymys avoimesta tutkimusdatasta on monella tapaa ajankohtainen ilmiö. Sen painoarvo on kasvanut niin yliopistoissa ja rahoitusorganisaatioissa kuin myös kaupallisten tiedekustantajien silmissä.

MT: ”On äärimmäisen tärkeätä, että näissä liikkeissä ollaan mukana, jotta datan avaaminen on mahdollista myös tulevaisuudessa. Tieteellinen kustantaminen on ollut rahakas bisnes, ja se varmasti loppuu, kun tutkijat ja tiedeyhteisö eivät sitä enää sulata. Tottakai ne etsivät uutta roolia. Kustantajat ovat tunnistaneet, että se, missä raha jatkossa tehdään, on tutkimusdata. Ja koska kyse on niin suurista toimijoista, yliopiston ja tutkijoiden on oltava hereillä, ettemme luovuta sitä roolia heille. Ennen lehdet ja lukeminen oli se juttu. Nykyään tiedonlouhinta, esimerkiksi lääketieteessä pääsy tutkimusaineistoihin diagnoosia varten, on se juttu. Ja tässä analytiikkatyökalujen ja muun kehittäminen on kaikki kaikessa. Mildred-hankkeessa on lähdetty pienin askelin liikkeelle. Meidän on pystyttävä pitämään intellektuaalinen pääoma itsellämme, ettei se valu jollekin julkaisijalle, joka myy sen meille takaisin. Tämä on tärkeätä.”

Jouko Väänäsen mukaan tieteellisten tutkimustuotosten julkaisemisen pitäisi olla paremmin tiedeyhteisön omissa käsissä.

JV: ”Voisin tuoda tähän matemaatikon näkökulman. Matemaatikko keksii ensin idean ja todistaa teoreemat. Sen jälkeen hän kirjoittaa käsikirjoituksen. Hän latoo sen itse LaTeXilla, ja lähettää lehteen, jota toiset matemaatikot toimittavat – ja matemaatikot myös arvioivat käsikirjoituksen. Sitten artikkeli julkaistaan verkossa. Koko prosessin tekevät matemaatikot, mutta silti he maksavat tuhansia euroja avoimesta julkaisemisesta. Ja kirjastojen kautta maksetaan kustantajien julkaisumaksut. Matemaatikot ovat todella kärttyisiä tästä. Nykyään matemaattisilla seuroilla Euroopassa ja Yhdysvalloissa on omat elektroniset systeemit, joissa on hyvin tehokas analytiikka. Hinnat ovat niissä kohtuullisia. Ja Euroopan ja Amerikan matemaattiset seurat tukevat voimakkaasti matemaattisia kongresseja ja opiskelijoita sillä rahalla, jonka ne saavat järjestelmiensä käytöstä. Tutkijoiden, tiedeakatemioiden ja yliopistojen täytyisi itsensä perustaa tällaisia analytiikka- ja tietopankkeja. Vaikka esimerkiksi Cambridge University Press toimii kaupallisin perustein, se ei ole ahneimpia rahan kahmijoita, ja se toimii aika hyvin tiedeyhteisön hyväksi. Suosisin tällaisia toimijoita, jotka ovat tutkijoiden ja yliopiston itsensä luomia ja joissa mahdollinen taloudellinen hyöty tulee tutkijayhteisön hyväksi.”

Helsingin yliopisto on jo ryhtynyt toimiin, kun yliopiston ja Gaudeamuksen perustama avoin tiedekustantamo Helsinki University Press aloitti tänä vuonna toimintansa – ja uusien käsikirjoitusten haku jatkuu 6. kesäkuuta asti.

Kun puhutaan avoimen tieteen edistämisestä, mikä vastuu on tutkijalla, mikä toimintaympäristöllä, kuten tiedekunnilla, yliopistolla tai tutkimusyhteisöllä?

JV: ”Monet isot datat lasketaan nykyään tutkimusinfrastruktuureiksi. Yliopistot ja tiedekunnat suunnittelevat ja hallinnoivat näitä infrastruktuureja. Mitä tulee pienempiin datoihin, ainakin matemaattis-luonnontieteellisessä tiedekunnassa on oma tutkimusinfrastruktuurikomitea. Tiedekunnissa on myös tutkimusvaradekaanit, ja niissä voi olla myös tutkimuskomiteoita. Lisäksi on vastuullisten tutkijoiden kokouksia. Näissä opastetaan tutkijoita tiedekunnassa noudatettavista periaatteista.”

MT: ”Tutkimusdatan ja avoimen tieteen merkitystä ei pidä opettaa erillisenä pakettina, vaan se on vietävä perusopetuksen ytimeen, että se on osa kaikkea – esimerkiksi digitaalisten ihmistieteiden sivuaine on suunniteltu juuri näin. Se ei tule pakollisuuden kautta. Ja kun kehitetään järjestelmiä, niiden on oltava intuitiivisia ja helppokäyttöisiä.”

Kohti kestävämpää mallia? – avoimesta julkaisemisesta
avoimeen dataan ja metadataan

Helsingin yliopiston tavoitteena on, että vuoteen 2020 mennessä 70 prosenttia yliopistolaisten julkaisuista on avoimesti saatavilla – joko suoran avoimen julkaisemisen (gold OA) tai rinnakkaisjulkaisemisen (green OA) kautta. Lisäksi on niin sanottu hybridijulkaiseminen (hybrid OA), joka nousi esiin FinELib-kirjastokonsortion neuvotteluissa Elsevierin kanssa. Toisin sanoen, avoimuuden edistämiseen on eri teitä.

MT:FinELib näkee, että nyt eletään tavallaan siirtymäaikaa. Ollaan valmiita maksamaan siitä, että päästään kohti avoimuutta, ja sen jälkeen saadaan se vakiinnutettua. Osa tutkijoista on sitä mieltä, että on oltava paljon radikaalimpia, jotta päästään lopputulokseen – että ei enää tehtäisi näitä big dealeja (suuria lehtipaketteja koskevat sopimukset). Vaihtoehtoisia toimintamalleja on olemassa. Oletko sitä mieltä, että voitaisiin olla radikaalimpia? Että sanouduttaisiin kokonaan irti näistä suurista kustantajista, joilla on 30 prosentin voittomarginaalit?”

JV: ”Olennaista on se, että yliopistot toimivat yhteistyössä, eivät ainoastaan kansallisesti vaan myös ylikansallisesti. Tämän yhteistyön järjestäminen on a ja o. En ota suoraan kantaa boikottiasiaan. Ne ovat neuvotteluasioita. Itse olen aika tiukka neuvottelija – kyllä siinä voidaan joutua boikottiinkin. Tavoite on kuitenkin se, että löydetään neuvotteluratkaisu. Neuvottelujen viimekätinen tavoite on se, että tutkijayhteisöt, tiedeakatemiat ja yliopistot lopulta itse hoitavat tämän. Näen sen ainoana mahdollisuutena. Avoin julkaiseminen tulee olemaan sääntö, ja silloin siinä ei ole enää sitä voittomarginaalia, jolla ylläpidetään tällaisia isoja yrityksiä. Enkä usko, että niiden rooli muuttuu niin, että ne olisivat jatkossa datan analysoijia.”

MT: ”Avoin tiede ei ole sinällään kaupallisia yrityksiä vastaan, mutta on tärkeätä, että data pysyy avoimena.”

JV: ”Tuo on tärkeää, avoin tiede ei ole yrityksiä vastaan.”

Metadata on avoimen datan ydinteemoja. Jouko Väänäsen ja Mikko Tolosen mukaan metadatan tuottamisesta on tehtävä tutkijalle nykyistä houkuttelevampaa.

Avoin julkaiseminen on Väänäsen mukaan ”kova kamppailu”, mutta siinä pelin henki on selvä: tutkija voi käytännössä aina julkaista avoimesti, viimeistään rinnakkaistallennuksen kautta – ja kirjasto tukee tätä omilla palveluillaan.

JV: ”Avoin data on paljon vaikeampi asia, koska siihen liittyy tietosuojalainsäädäntö, IP-oikeudet – ja metadata: jos saat valtavan määrän dataa, mutta et tiedä muuttujista, ei ole mitään väliä sillä, onko data avointa vai ei. Avoimella datalla on merkitystä vain, jos siinä on metadata mukana. Mutta kuka sen metadatan tekee? Tutkija rämpii vaikeuksien keskellä, ja onnistuu tiettyjen standardien mukaan päättelemään jotkin asiat. Mutta hän ei tee tätä siten, että se koko ajan palvelisi yhteiskuntaa sillä tavalla, että hän jatkuvasti selittäisi symbolien muuttujat ja käytetyt mittayksiköt. Ei, tutkija rämpii eteenpäin, ja pitää yllä tietyn tieteellisen standardin. Tieteellinen standardi on kuitenkin eri kuin palvelustandardi. Miten tutkijat saataisiin palvelemaan avoimuutta siten, että data olisi käyttäjäystävällisesti avoimesti saatavilla? Se on pikkuisen vaativampi asia. Ja tiedän, että on myös sellaista protektionismia, jossa annetaan data avoimesti mutta toivotaan, ettei kukaan pystyisi käyttämään sitä – jotta voisi itse puristaa siitä viimeisetkin tiedonjyväset. Tämä ei tietenkään ole avoimen datan idea. Kun data on muiden käytössä, sen pitäisi olla aidosti muiden käytössä, jotta tieto tulee oikealla tavalla tulkituksi.”

MT: ”Nämä ovat hyviä pointteja, joita teit datan kuratoinnista ja metadatan merkityksestä. Tässä olemme Suomessa kohtuullisen hyvin liikkeellä. Meillä on erilaisia hankkeita ja CSC (Tieteen tietotekniikan keskus) palveluineen on voimavara, jota muualla ei ole. Kun Mildrediä aloitettiin, ajateltiin, että tehdään meille omaa kapasiteettia. Toisaalta sitä tarvitaan, esimerkiksi sensitiivisen datan kohdalla se on järkevää. Mutta se, että meillä on kansallista yhteistyötä – ja sitä kautta kansainvälistä – on tärkeää. Helsingin yliopiston kannattaa olla mukana viemässä tätä eteenpäin.”

Metadata on avoimen tutkimusdatan kynnyskysymyksiä, kuten Helsingin yliopistossa tehty selvitys osoitti. Millä tavalla metadatan tuottaminen voitaisiin saada osaksi normaalia tutkimusprosessia?

MT: ”Datan julkaisemista pitäisi tukea ja siitä pitäisi palkita. Siitä pitäisi saada meriittejä. Metadata on tietysti tällöin tuotettava oikealla tavalla. Tämä on ehkä se helpoin tapa. Tutkijat eivät kovin herkästi tee mitään muuta kuin sitä, mikä edistää omaa tekemistä – eikä heidän tällaisessa kilpailutilanteessa pidäkään tehdä.”

JV: ”Datasta pitäisi tulla samanlainen viitattava tutkimustuotos kuin mitä julkaisut ovat. Datalla tulisi olla DOI-tunnus, johon liittyisi se, että data täyttäisi vaatimukset, siinä olisi metadata kunnossa ja se olisi avointa (ks. Data Citation Roadmap for Finland). Tällöin data olisi selkeästi oma tuotoksensa, josta voisi saada krediittiä ja josta voisi olla ylpeä. Dataan voitaisiin viitata, ja se voisi saada viittauksia. Tutkimustulokset julkaistaan lehdessä, julkaisuarkistossa tai web-sivuilla, ja myös datalle pitäisi olla keskitetty paikka, repository, jossa data on. Tällaisia suunnitelmiahan on, Mildredissä ja CSC:llä. Toinen keino [metadatan edistämiseksi] on se, että tutkimushankkeissa asetetaan standardeja datalle. Suomen Akatemia edellyttää nykyisin, että tutkimustulokset julkaistaan avoimesti. Akatemia voisi vaatia myös metadatalla varustetun datan julkaisemista.”