Miten syntyy avoimen tieteen tutkimusinfrastruktuuri? Tarkastelussa Luomus ja Lajitietokeskus

Avoimen tieteen tutkimusinfrastruktuurin rakentamisessa keskeistä on yhteisten linjausten huolellinen valmistelu, organisaatiolle sopivan toteutusstrategian valinta ja koko työyhteisön sitouttaminen. Näin summaa Aino Juslén Helsingin yliopiston Luonnontieteellisestä keskusmuseosta (Luomus). Luomuksen koordinoimassa Lajitietokeskuksessa tieteen avoimuutta toteutetaan eri tavoin (avoin data, avoin lähdekoodi, avoin opetus). Blogiartikkeli avaa avoimen tieteen infrastruktuureja esittelevän juttusarjan.

(This article is also available in English.)

Think Open -blogissa käynnistyy avoimen tieteen tutkimusinfrastruktuureja esittelevä artikkelisarja, jonka tarkoitus on kuvata erilaisia tapoja toteuttaa tieteen avoimuutta lisääviä infrastruktuuriratkaisuja. Sarjan avausosassa esittelyssä on Helsingin yliopiston Luonnontieteellinen keskusmuseo (Luomus), joka palkittiin viime vuonna Helsingin yliopiston avoimen tieteen palkinnolla.

Tutkimusinfrastruktuurilla voidaan ymmärtää monenlaisia asioita – mitä tutkimusinfrastruktuuri Luomuksen kohdalla tarkoittaa?

”Se tarkoittaa kahta asiaa. Meillä on fyysiseen tieteellisten näytteiden kokoelmaan liittyvä infrastruktuuri, jossa hallinnoimme Suomen kansalliskokoelmia. Siihen kuuluu noin 13,5 miljoonaa tieteellistä näytettä, joita lähetetään tutkijoille lainaan ympäri maailmaa tai he tulevat tutkimaan näytteitä tänne”, Luomuksen eläintieteen yksikön johtaja Aino Juslén kuvaa infrastruktuuria, joka on osa luonnontieteellisten kokoelmien maailmanlaajuista verkostoa.

”Sitten on Suomen Lajitietokeskus (Laji.fi-verkkopalvelu), jonka kautta avataan digitaalisesti paitsi Luomuksen kokoelmat myös kaikki muut Suomen merkittävät luonnontieteelliset kokoelmat. Luomus koordinoi myös erilaisia pitkäaikaisia lajistoseurantoja, joiden aineistot on käytettävissä Laji.fi:ssä. Myös useat muut tutkimusorganisaatiot Suomessa käyttävät jatkossa Lajitietokeskusta kanavana aineistojensa jakamisessa.”

Aino Juslén jakaa Luomuksen tutkimusinfrastruktuurin kahteen osaan: toisaalta on luonnontieteellisen museon fyysinen kokoelma, toisaalta avoimen tieteen periaatteilla toteutettu Lajitietokeskus. Kuva: Juuso Ala-Kyyny (CC BY 4.0)

Lajitietokeskus tutkimusinfrastruktuurien tiekartalla

Avoimen tieteen palkinto myönnettiin Lajitietokeskuksen isäntäorganisaatiolle Luomukselle. Luomuksen koordinoima Lajitietokeskus on kansallisesti merkittävä tutkimusinfrastruktuuri, joka kokoaa yhteen useita toimijoita.

Lajitietokeskus on mukana myös Suomen Akatemian kansallisella tutkimusinfrastruktuurien tiekartalla.

”Tiekartalle pääseminen oli tärkeää Lajitietokeskuksen kehittämisen kannalta, kansallinen tunnustus siitä, että Lajitietokeskus ja luonnontieteelliset kokoelmat tunnistetaan merkittävänä tutkimusinfrastruktuurina. Tietysti se mahdollistaa myös sen, että voimme hakea Akatemian rahoitusta infrastruktuurin kehittämiseen – ja sitä kautta onkin saatu erittäin merkittävää rahoitusta. Tiekartalla oleminen on avannut myös keskusteluyhteyksiä muiden infrastruktuurien suuntaan.”

Tiekartalle pääseminen oli tärkeää Lajitietokeskuksen kehittämisen kannalta, kansallinen tunnustus siitä, että Lajitietokeskus ja luonnontieteelliset kokoelmat tunnistetaan merkittävänä tutkimusinfrastruktuurina.

”Koen, että meidät on Lajitietokeskuksen myötä myös Helsingin yliopiston sisällä tunnistettu paremmin tutkimusinfrastruktuurina. On tärkeää, että olemme olleet mukana HiLIFE-verkostossa (Helsinki Institute of Life Science). Heillä on myös rahoitusinstrumentti infrastruktuurien kehittämiseen, jota kautta mekin olemme saaneet rahoitusta.”

Uutena avauksena hän nostaa esiin Euroopan luonnontieteellisten kokoelmien muodostaman konsortion, DiSSCon (Distributed System of Scientific Collections), jossa on 21 maata ja yli sata kokoelmaa.

”Siinä on lähdetty konsortiona yhdessä kehittämään Euroopan laajuista digitaalista infraa, joka tarjoaisi pääsyn digitaalisiin kokoelmiin yhdeltä luukulta. Vuonna 2018 DiSSCo pääsi Euroopan tutkimusinfrastruktuurien tiekartalle”, DiSSCon yleiskokouksen varapuheenjohtajaksi helmikuun lopussa valittu Juslén toteaa.

Luomus ja Suomen Lajitietokeskus

  • Helsingin yliopiston Luonnontieteellinen museo (Luomus) on perustanut ja koordinoi kansallista avoimen tieteen tutkimusinfrastruktuuria, Suomen Lajitietokeskusta.
  • Lajitietokeskuksen perusajatus on jakaa avoimena datana Suomen lajiston havaintotiedot, niistä johdetut levinneisyystiedot ja muu merkittävä lajitieto.
  • Lajitietokeskuksen Laji.fi-palvelussa on avoimesti saatavilla dataa lähes 35 miljoonasta lajihavainnosta. Palvelulla oli toisen täyden toimintavuotensa (2018) lopulla yli 330 000 käyttäjää.
  • Lajitietokeskus hyväksyttiin vuonna 2018 kansalliselle tutkimusinfrastruktuurien tiekartalle.
  • Lajitietokeskuksen aineistopolitiikka perustuu FAIR-periaatteisiin (Findable, Accessible, Interoprable, Reusable).
  • Lajitietokeskuksen kansainvälisiä benchmarkkauskohteita ovat mm. Ruotsin Artdatabanken, Australian Atlas of Living Australia ja Ison-Britannian Natural History Museum.
  • Luomuksen toimeenpanosuunnitelmassa 2017–2020 avoin tiede nostetaan keskeiseksi kehittämiskohteeksi, ja toimenpiteinä ovat ”avoin tiede toimintatavaksi” ja ”avoimet foorumit ja materiaalit opetuksessa ja tutkimuksessa”. Luomus on sitoutunut myös avoimeen datapolitiikkaan, kokoelmiensa digitoimiseen avoimeksi dataksi, kustantamiensa lehtien jakamiseen avoimina, open access -julkaisemiseen ja avoimen elektronisen oppimateriaalin tuotantoon.

”Cite the DOI” eli datan tunnisteista

Lajitietokeskuksen aineistoja käytetään tutkimukseen, opetukseen, politiikkatoimenpiteiden valmisteluun ja päätöksentekoon sekä yritystoimintaan. Myös luonnosta ja ympäristöstä kiinnostuneilla kansalaisilla on aineistoille monenlaisia käyttötarkoituksia.

Laji.fi:stä kerätään käyttötilastoja, ja tarkoitus on parantaa myös tutkimuskäyttöön liittyvää seurantaa, eli missä tutkimuksissa aineistoa on käytetty.

”Yksi tutkimusinfrastruktuurien kehityskohteista kansainvälisestikin on se, miten aineiston käyttöä saataisiin paremmin seurattua. Syksyllä oli alan keskeiset toimijat yhteen tuonut Biodiversity Next -konferenssi, joka keskittyi pitkälti biodiversiteetti-infrojen kehittämiseen. Siellä kuuli usein mainittavan: ’Cite the DOI.’ DOI- tunniste (digital object identifier) on tuttu julkaisuista, mutta nyt pyritään siihen, että dataseteilläkin olisi DOI ja tämä on tavoitteena meilläkin.”

Tunnisteen kautta saadaan paitsi tietoa käytöstä myös varmistetaan, että dataan viitataan oikein (ks. blogiartikkeli dataan viittaamisesta). Juslénin mukaan kansainvälinen tutkimusinfrastruktuuri, Global Biodiversity Information Facility, jakaa maailmanlaajuisesti biodiversiteettiaineistoja, ja sitä kautta myös Lajitietokeskuksen aineistot saavat DOI-tunnisteen. Lajitietokeskuksessa käytetään lisäksi niin sanottuja uniikkitunnisteita (uniform resource identifier, URI), jotka yksilöivät aineistot ja täyttävät avoimen datan kriteerit.

FAIR-periaatteet käytännössä

Lajitietokeskus pyrkii toteuttamaan aineistojen avoimuudessa niin sanottuja FAIR-periaatteita, joilla tehdään mahdolliseksi aineiston löydettävyys (findable), saavutettavuus (accessible), yhteentoimivuus (interoperable) ja uudelleenkäyttö (re-usable).

”Olemme aika hyvin pystyneet toteuttamaan löydettävyyden ja saavutettavuuden: hakutoiminnot ovat aika kehittyneitä ja lataustoimintoihin on panostettu paljon. Yhteentoimivuus vaatii – teknisen yhteensopivuuden lisäksi– esimerkiksi biodiversiteettiaineistoissa yhteneväisen lajikäsityksen, että tietoa jakavat infrat puhuvat samoista lajeista. Se ei olekaan ihan yksinkertaista. Suomessakin on 45 000 lajia, ja lajikäsitykset muuttuvat koko ajan.”

Uudelleenkäytettävyyteen liittyy käyttöoikeuksien, kuten CC-lisenssien, lisäksi myös datan alkuperän tunnistaminen. Juslénin mukaan DOI-tunnisteet auttavat tässä.

”Seuraamme FAIR-periaatteiden toteuttamiseen liittyvää kehitystyötä tarkasti ja peilaamme palvelujemme FAIR-tasoa muun muassa Tieteen tietotekniikan keskuksen CSC:n jakamiin suosituksiin.”

Yhteentoimivuus vaatii biodiversiteettiaineistoissa yhteneväisen lajikäsityksen, että tietoa jakavat infrat puhuvat samoista lajeista. Se ei olekaan ihan yksinkertaista. Suomessakin on 45 000 lajia, ja lajikäsitykset muuttuvat koko ajan.

Avoin tiede toteutuu Luomuksessa monin eri tavoin

Luomuksen toiminnassa on avoimen tutkimusdatan lisäksi monia muitakin avoimen tieteen piirteitä: open access -julkaisemista, avointa opetusta (avoimia oppimateriaaleja), kansalaistiedettä ja avointa lähdekoodia.

”Opetusinfrastruktuuriin kuuluu alun perin professori Jouko Rikkisen bio- ja ympäristötieteellisessä tiedekunnassa alulle panema Pinkka-oppimisympäristö. Se on yliopiston opetuskäytössä, mutta Laji.fi:n kautta se tarjotaan avoimesti kaikkien muidenkin opetuskäyttöön.”

Julkaisemisessa Luomus on ottanut askelia avoimempaan suuntaan: vuonna 2017 tieteellisistä julkaisuista 51 prosenttia oli avoimesti saatavilla, seuraavana vuonna OA-prosentti oli noussut jo 69:een.

”Open accessia pidetään itsestäänselvyytenä, mutta sitä ei aina ole. Tässä täytyy antaa kiitosta myös kirjaston palveluille – avoin julkaiseminen on tehty erittäin helpoksi. Ei tarvitse ottaa kuin yhteyttä open access -osoitteeseen.”

Hoikkakiiltokorento (Somatochlora arctica) Laji.fi-kuvapankissa. Kuva: Jussi Mäkinen (CC BY-NC 4.0)

Kansalaistieteessä Juslén korostaa sitouttamista, vuorovaikutusta ja vastavuoroisuutta. Erilaisiin seurantoihin osallistuu edistyneitä luontoharrastajia, koululaisia, järjestöjä, yrityksiä ja kansalaisia; kun he tuottavat tietoa ympäristöstä, käyttöliittymien on oltava kunnossa ja käyttäjien saatava palautetta toiminnastaan esimerkiksi tilastojen muodossa (ks. myös Seurantauutiset). Juslén korostaa, että kansalaistiede ei synny itsestään.

”Kansalaistiede ei onnistu ilman koordinaatiota. Ilman mitään resursseja on vaikea hyödyntää kansalaistiedettä.”

Lajitietokeskuksessa myös tietojärjestelmien lähdekoodi on avointa (ks. Bitbucket ja Gihub). Avoimen lähdekoodin avulla ja etenkin avoimen ja dokumentoidun API tiedonvaihtorajapinnan kautta voidaan rakentaa esimerkiksi verkkopalveluita tai kännykkäsovelluksia Lajitietokeskuksen avointen aineistojen päälle.

”Avoin lähdekoodi ja avoimet rajapinnat on periaatteellinenkin kysymys, koska tuotamme infrastruktuurin julkisin varoin. Mutta sitä kautta myös mahdollistetaan käyttöä muille.”

Avoimuus vaatii kulttuurin muokkausta – ja vastuullisuutta

Luonnontieteelliset kokoelmat ovat olleet tavallaan avoin tutkimusinfrastruktuuri jo satojen vuosien ajan, tosin pääsy on rajattu tutkimuskäyttöön paikan päällä. Luomuksessa avoimuus on varsinaisesti alkanut digitaalisuuden myötä ja toden teolla vasta viime vuosina.

Museon kokoelmia. Kuva: Juuso Ala-Kyyny (CC BY 4.0)

Juslénin mukaan avoimen tieteen kulttuuri on vaatinut muutosta erityisesti siinä, millaisena tutkija näkee oman työnsä suhteessa muihin, tutkimusyhteisöön ja yhteiskuntaan.

”Meillä pitkäaikaiset seuranta-aineistot ovat aiempina vuosikymmeninä voimakkaasti henkilöityneet seurantaa vetävään tutkijaan, joka on saattanut kokea aineiston omakseen. On käyty pitkiäkin keskusteluja ennen avaamista. Tämä on muuttunut täysin. Julkisin varoin kerätyt aineistot halutaan mahdollisimman laajasti käyttöön.”

”Nämä ovat kipeitäkin asioita, eivätkä ne liity vain omistajuudentunteeseen. Meidän alalla mukaan tulevat myös suojelunäkökulmat. On ajateltu, että pitämällä aineistot salassa, edistetään suojelua. Nyt ajatellaan laajasti, että jakamalla aineisto ja kaikki tieto mahdollisimman avoimesti edistetään suojelua. Juuri tänään huomasin Twitteristä, että metsäyhtiö on hakannut kuukkelin reviiriin kuuluneen metsän – ja he perustelivat tätä sillä, etteivät olleet saaneet tietoa asiasta.”

Avoimuuteen liittyy myös vastuullisuus. Laji.fi:ssä on oma osionsa, jossa kerrotaan sensitiivisen lajitiedon käsittelystä.

Pitkäaikaiset seuranta-aineistot ovat aiempina vuosikymmeninä voimakkaasti henkilöityneet seurantaa vetävään tutkijaan, joka on saattanut kokea aineiston omakseen. Tämä on muuttunut täysin. Julkisin varoin kerätyt aineistot halutaan mahdollisimman laajasti käyttöön.

Miten avoimesta tieteestä tulee toimintatapa – kolme pointtia

Avoimen tieteen toimintatapojen tarve on tiedostettu Luonnontieteellisessä keskusmuseossa jo pitkään, vaikka kehitystyö käynnistyi vasta 2010-luvulla. Luomuksen prosessi sai alkusysäyksen vuonna 2012 pidetystä kansallisesta lajitietoseminaarista, jossa 21 organisaatiota esitti tukensa Lajitietokeskuksen perustamiselle Luomuksen johdolla. Varsinainen kehitystyö alkoi muutamaa vuotta myöhemmin rahoituksen varmistuttua.

Puolessa vuosikymmenessä palkituksi avoimen tieteen infrastruktuuriksi – miten? Juslén listaa kolme avainkohtaa, ja aloittaa politiikasta.

Aino Juslénin mukaan avoimen tieteen toteutusta linjaavaan politiikkapaperiin kannattaa käyttää aikaa. Kuva: Juuso Ala-Kyyny (CC BY 4.0)

”Korostaisin sitä, että olemme linjanneet aineistojen käytöstä ja muusta toiminnasta politiikkadokumenteissa. Meillä on muun muassa digitaalisten aineistojen aineistopolitiikka, jossa on yhteisesti sovittu, miten digitaaliset aineistot jaetaan ja Lajitietokeskuksella on oma aineistopolitiikka. On tärkeää, että voimme kerta toisensa jälkeen sekä sisäisissä että yhteiskumppanien kanssa käydyissä keskusteluissa palata politiikkoihin: näin on linjattu, tähän se perustuu. Politiikan laatiminen ei käy kuitenkaan nopeasti, sormia napauttamalla. Se on tehtävä laajasti osallistaen, ja siihen kannattaa käyttää aikaa.”

Toinen onnistumisen edellytys liittyy toteutukseen, sopivan toteutustavan valintaan.

”Jälkeenpäin on helppo sanoa, mutta aivan keskeinen valinta alkuvaiheessa oli toteuttaa tämä ketterän kehityksen mallilla. Meillä ei ollut valmista suunnitelmaa, jossa olisimme tienneet kaikki olemassa olevat aineistot ja tarpeet. On lähdetty liikkeelle tietyistä aineistoista ja tietyistä järjestelmän osista. Kehitystyötä on tehty parin viikon sprinteissä ja käyttäjien kanssa on käyty koko ajan vuoropuhelua”, Juslén sanoo ja korostaa myös Luomuksen oman IT-ryhmän suurta merkitystä.

Meillä ei ollut valmista suunnitelmaa, jossa olisimme tienneet kaikki olemassa olevat aineistot ja tarpeet. On lähdetty liikkeelle tietyistä aineistoista ja tietyistä järjestelmän osista. Kehitystyötä on tehty parin viikon sprinteissä ja käyttäjien kanssa on käyty koko ajan vuoropuhelua.

”Ja kun työtä on tehty hankkeissa, niihin on saatu erillistä rahoitusta. Olemme onnistuneet saamaan rahoitusta monista eri lähteistä, esimerkiksi Suomen Akatemian ja valtiovarainministeriön rahoitukset ovat olleet keskeisiä.”

Kolmas avaintekijä liittyy prosessin johtamiseen ja koko henkilöstön osallistamiseen.

”Johtaminen on ollut tavoitteellista. Meillä toteutetaan toimeenpanosuunnitelmaa, josta johdetaan kullekin tiimille ja henkilöille tavoitteita. Koen, että yhteiset tavoitteet ovat lyöneet Luomuksessa läpi koko organisaation. On hyvä jakaa kiitosta ja palautetta, että jokainen pääsee kokemaan, miten oma päivittäinen työ liittyy isompaan asiaan, avoimeen tieteeseen.”


Avoimen tieteen tutkimusinfrastruktuurit -artikkelisarja: