”Aineiston avaaminen ei ole vain sitä, että laitetaan aineistoja nettiin” – OpenFIREssa data avattiin käyttäjiä ajatellen

Mitä datan avaaminen tarkoittaa käytännössä? Mitä se vaatii? Mikä rooli on käyttäjillä? Millaisia ongelmia matkan varrella on ratkaistava? Seismologian instituutissa toteutettu OpenFIRE-hanke toi esiin sekä datan avaamisen vaatiman työn ja osaamisen että ne kipupisteet, joita eteen tulee. Prosessin lopputulos, OpenFIRE-palvelun täysversio, julkaistiin tänä kesänä.

(This article is also available in English.)

Vuosituhannen alussa suomalaiset geologian tutkijat yhdessä venäläisen urakoitsijan kanssa toteuttivat mittavan FIRE-hankkeen (Finnish Reflection Experiment), jossa kerättiin tietoa Suomen kallioperästä.

14 vuotta projektin päättymisen jälkeen vuonna 2018 data on kaikkien vapaasti saatavilla OpenFIRE-verkkopalvelussa. Miten tähän päästiin? Mitä datan julkaiseminen vaati? Datan avaamisesta vastanneet Helsingin yliopiston Seismologian instituutin tutkijat ja opiskelijat kertovat, millainen prosessi tutkimusdatan avaaminen on ollut.

Ensimmäinen yritys avata data – ”tyypillinen tapaus”

FIRE-aineiston avaaminen tapahtui kahdessa vaiheessa. Data käsiteltiin ja julkaistiin ensimmäisen kerran jo vuosien 2005–2009 aikana, mutta aineisto jäi silloin kansainvälisestä merkittävyydestä huolimatta vähäiselle käytölle. Tähän oli hyvä syy: aineiston saaminen vaati vaivannäköä.

  FIRE ja OpenFIRE
  • FIRE-hanke (Finnish Reflection Experiment) on Geologian tutkimuskeskuksen (GTK) sekä Helsingin yliopiston Seismologian laitoksen ja Oulun yliopiston geofysiikan osaston ja Sodankylän geofysikaalisen observatorion heijastusseisminen luotaushanke, joka toteutettiin yhteistyössä Venäjän valtionyhtiö Spetsgeofizikan kanssa vuosina 2001–2004.
  • Hanke tuotti noin 2100 kilometriä korkearesoluutioisia heijastusluotausprofiileja Suomen kallioperän keskeisimmistä kohdista.
  • OpenFIRE on FIRE-hankkeen tuottaman heijastusseismisen luotausaineiston tarkastelu- ja lataustyökalu, joka löytyy AVAA-portaalista.
  • OpenFIRE-palvelun tavoitteena on parantaa FIRE-aineiston näkyvyyttä ja käytettävyyttä sekä edistää avoimien geotieteellisten aineistojen kulttuuria.

”Kerrottiin, että aineisto on saatavissa. Sen jälkeen aineistoa haluavan oli hakeuduttava aineistolähteelle, ja löydettävä se organisaatio ja henkilö, joka näkee sen vaivan ja riesan, että luovuttaa aineiston. Aineistoa oli meillä ja Geologian tutkimuskeskuksessa (GTK), ja taisi olla Oulussakin [yliopiston geofysiikan osastolla]. Sieltä sen olisi voinut saada, jos olisi halunnut. En muista, että kukaan olisi sitä kysynyt. Tai kyllä se hyvin pientä oli”, FIRE-projektiin osallistunut, nykyisin eläkkeellä oleva Seismologian instituutin entinen johtaja Pekka J. Heikkinen kertoo.

Heikkinen kutsuu tätä ”tyypilliseksi” tutkimusdatan avaamiseksi.

”Näin on monien muidenkin aineistojen kohdalla. Siinä on tietty aikaikkuna: Kun on ensimmäinen hyöty tieteellisesti saatu, sen jälkeen data on julkisesti saatavissa. Mutta ei sitä yleensä markkinoida millään tavalla. Kerrotaan vain, että sellainen on.”

Käytännön seuraus tällaisesta rutiininomaisesta julkaisemisesta on se, että data jää vaille käyttöä. Tämä on resurssien tuhlausta, erityisesti, jos kyse on arvokkaasta aineistosta.

”FIRE ei ole ainoa hanke, jossa laitetaan suuri raha kenttämittauksiin ja jossa aineiston tuottava organisaatio – tässä GTK ja [Helsingin ja Oulun] yliopistot – käyttää sen omissa tutkimuksissaan. Aineisto tulee suhteellisen vähän hyödynnetyksi suhteessa investointiin. Sama vaivaa useita kansainvälisiä hankkeita. Aineisto ei enää kiinnosta, koska tutkijat ajattelevat, että kerma on jo kuorittu eikä aineiston kanssa kannata lähteä tekemään mitään”, Heikkinen sanoo.

”Kuitenkin tämä meidän aineistomme on maailmanluokassa, parasta saatavilla olevaa aineistoa, joka on maksanut 20 miljoonaa euroa. Olisi resurssien tuhlausta, jos aineisto jäisi vain 3–4 tutkijan käyttöön”, FIRE-projektiin osallistunut Seismologian instituutin nykyinen johtaja Annakaisa Korja toteaa.

Toinen yritys – data oikeasti käyttöön

Jos ensimmäinen vaihe FIRE-datan julkaisemisessa kuvasti näennäistä datan avaamista, toista vaihetta voi pitää esimerkillisenä. Helsingin yliopiston Seismologian instituutissa käynnistyi vuonna 2016 opetus- ja kulttuuriministeriön (OKM) Tieto käyttöön -rahoituksella FIRE-ATT -hanke, jonka lähtökohtana oli saada arvokas FIRE-aineisto helposti potentiaalisten käyttäjien saataville.

Datan julkaisemista varten koottiin Seismologian instituutin tutkijoista ja opiskelijoista ryhmä, jossa Annakaisa Korja ja Pekka J. Heikkinen toimivat projektipäällikköinä, Sakari Väkevä vastasi aineiston käsittelystä, Aleksi Aalto työskenteli ohjelmistokehityksen ja käyttöliittymäsuunnittelun parissa ja Aku Heinonen toteutti palvelun geologisen osuuden.

Hankkeen lopputuotteena syntyi OpenFIRE-verkkopalvelu, jonka betaversio julkaistiin AVAA-portaalissa jo marraskuussa 2016. Palvelun täysversio, jossa data julkaistaan kokonaisuudessaan, julkaistiin tänä kesänä. Lopullinen versio vaati ylimääräistä työtä.

”Sovelluksen skaalaaminen isommille aineistoille vie enemmän aikaa kuin tuollaisen prototyyppityylisen sovelluksen tekeminen. Lisäksi tuotantoon viedyn projektin päivittämisessä on omat haasteensa, kun emme itse hallitse koko ketjua”, AVAA-yhteistyöstä vastannut Aleksi Aalto sanoo.

Metadata, metadata, metadata

FIRE-datan avaamisprojektiin siis ryhdyttiin, koska arvokas data haluttiin oikeasti käyttöön.

”Aiemman kokemuksen perusteella tiesimme täsmälleen, mikä on se kynnys, mikä tähän [aineiston hyödyntämättömyyteen] eniten vaikuttaa. Se on aineiston työstäminen. Siihen ei kukaan halua ryhtyä. Teettää vuoden töitä ennen kuin raaka-aineisto on siinä kunnossa, että voit sillä jotain tehdä. Jokaisen tutkijan on mietittävä, onko hänellä aikaa käyttää vuotta tällaiseen”, Pekka J. Heikkinen sanoo.

FIRE-aineiston heijastusseismiset profiilit leikkaavat Suomen neljällä linjalla.

Heikkinen arvioi, että OpenFIRE-projektiin on mennyt noin 50 prosenttia enemmän työaikaa kuin alussa arvioitiin. Osaltaan työtä hidasti Helsingin yliopiston yt-prosessi, mutta prosessin edetessä myös työnkuva tarkentui.

”Lisätyötä alkoi tulla, kun dataa tarkasteli uudestaan ja uudestaan, ja sieltä alkoi nähdä joka kerta uusia yllätyksiä. Ja ehkä se, mihin tällaisissa menee eniten aikaa, on kehittää itselleen sopivat työkalut. Tähän valmistelevaan työhön menee jopa enemmän aikaa kuin itse [datan] verifiointiin. Kyse oli oman työn automatisoinnista, rutiinien tekemistä. Pilotoimme FIRE 3 -aineistolla [ks. FIRE-datan kuvaukset], ja sitä kautta haluttiin saada koko aineistoon sovellettava workflow”, aineiston julkaisukuntoon työstänyt Sakari Väkevä sanoo.

Aineiston kuvailutiedon eli metadatan tuottamisessa haettiin tasapainoa, joka löydettiin datan käsittelyprosessin aikana. Tutkimusprosessin aikana käytetyt metadatamallit olisivat luonnollisesti vähentäneet jälkityön määrää.

”Olisi hirveän hyvä, jos olisi selkeät ohjeet siitä, mitä metadatan pitää pitää sisällään. Että kun ihminen alkaa kerätä dataa, hän keräisi sen metadatan samantien eikä vasta kymmenen vuoden jälkeen. Tulevaisuudessa ongelma tulee olemaan nimenomaan tässä. Jos et näe sitä vaivaa heti, et tee sitä myöhemminkään. Tämä on se pullonkaula [datan avaamisessa]”, Annakaisa Korja toteaa.

”Seismologian alalla, ja yleisestikin, on paljon eroja vallitsevien metatietomallien välillä. Yhden formaatin tietosisällöstä ei pysty aina tuottamaan toisen formaatin mukaista tietuetta, minkä seurauksena tarpeellista tietoa joutuu etsimään julkaisuista. Jos tietosisältö ei ole kattava, erilaisia tietomalleja ei voi synkata koneellisesti keskenään, mikä heikentää yhteensopivuutta esimerksi hakupalveluiden välillä”, Aleksi Aalto kertoo.

Olisi hirveän hyvä, jos olisi selkeät ohjeet siitä, mitä metadatan pitää pitää sisällään. Että kun ihminen alkaa kerätä dataa, hän keräisi sen metadatan samantien eikä vasta kymmenen vuoden jälkeen. Tulevaisuudessa ongelma tulee olemaan nimenomaan tässä.

Onko avoin tiede käyttäjiä vai rahoittajia varten?

Riittävä metadata on tärkeässä roolissa, kun data halutaan muiden käyttöön. OpenFIRE-projektissa tavoitteet olivat kuitenkin vielä pykälää kunnianhimoisempia: data haluttiin tarjota käyttäjälle helposti omaksuttavassa muodossa. Oli otettava huomioon palvelu-ulottuvuuden ja käyttöliittymäsuunnittelun kaltaisia asioita.

”Aineiston avaaminen ei ole vain sitä, että laitetaan aineistoja nettiin. Olen itse ajatellut sen niin, että aineisto on koko ajan ruokittava lusikalla suuhun. On näytettävä, mihin aineistosta on. Käyttäjähän ei välttämättä tiedä, mitä hän etsii”, Väkevä sanoo.

Käyttäjälähtöisyys ei tutkimusdataa avattaessa ole itsestäänselvyys, kuten FIRE-aineiston ensimmäinen avaamisyritys osoittaa. Datan avoimuuden toteuttamisessa voi nähdä erilaisia tasoja minimivaatimusten täyttämisestä käyttäjä- ja palvelunäkökulman huomioimiseen. Annakaisa Korja nostaakin esiin avoimen tieteen kannalta tärkeän kysymyksen: avataanko aineisto rahoittajia vai käyttäjiä varten?

”Jos haluaisimme, että FIRE-aineisto olisi vain siellä avoinna, mutta kukaan ei sitä käyttäisi, emme tekisi tätä ylimääräistä työtä. Jos taas oikeasti haluamme, että tällä on tieteellistä vaikutusta, tämä työ on tehtävä. Kun yliopisto tekee suunnitelmia, se voi miettiä, mitä se haluaa. Haluaako se vain, että OKM:n ja Akatemian minimivaatimukset täytetään ja että aineistot ovat avoimesti saatavilla netissä? Vai halutaanko, että siinä on myös joku muu tarkoitus?” Korja kysyy.

Aineistolla on monenlaisia käyttäjiä

OpenFIREssa käyttäjä on ollut suunnittelun keskiössä.  Palvelu on suunnattu kansainvälisille ammattikäyttäjille, ja se pyrkii laskemaan aineiston käyttöönottokynnystä myös opetuksessa ja koulutuksessa. Suunnittelussa otettiin huomioon erityisesti kaksi käyttäjäryhmää, geologiset ja seismologiset loppukäyttäjät – niin tutkijat, opettajat kuin opiskelijatkin.

OpenFIREn kartta- (yllä) ja taulukkokäyttöliittymissä on otettu huomioon erilaiset loppukäyttäjät.

Seismologisen loppukäyttäjän oletettiin hyödyntävän taulukkopohjaista sovellusta, jonka avulla aineistoa voi suodattaa muun muassa aineistotyyppien tai linjanumeron mukaisesti. Geologisen loppukäyttäjän ei oletettu olevan yhtä perehtynyt heijastusseismisiin menetelmiin, mutta hänen ajateltiin olevan kuitenkin kiinnostunut aineistojen hyödyntämisestä esimerkiksi karttakäyttöliittymän avulla.

”Kolmas käyttäjäkunta on yleiset tutkijat ja opiskelijat, jotka etsivät esimerkkejä tietyntyyppisistä rakenteista seismisissä aineistoissa. He eivät välttämättä tee alan tutkimusta, vaan käyttävät sitä sivussa”, Korja mainitsee.

Aloittelijoiden apuna on muun muassa kattava akronyymi- ja kirjainlyhennelistaus sekä teoreettinen taustoitus siitä, mikä seisminen heijastusluotausmenetelmä on. Punaisena lankana palvelusuunnittelussa on ollut potentiaalisen käyttäjäkunnan laajentaminen.

”Alussa ajattelimme, että käyttäjäkunta olisi meidän kaltaisiamme geofyysikkoja, jotka harrastavat tutkimusta. Aika nopeasti ymmärsimme, että käyttäjäkuntaa kannattaa laajentaa. Se pitää sisällään geologit, jotka käyttävät hyväksi tuloksia, ja opiskelijat. Jos maailmalla on joku opettaja, joka haluaa ottaa jonkin aineiston ja käyttää sitä kurssillaan opetusmateriaalina, se on tässä helposti tehtävissä”, Heikkinen sanoo.

”Prosessoimaton data on tarpeellista geofyysikolle, mutta se on täysin tarpeetonta 90 prosentille käyttäjistä. Käytännössä he ovat erilaisia geologeja ja opiskelijoita, jotka tarvitsevat valmiiksi prosessoituja sektioita (poikkileikkauksia maankuoresta) ja kuvia. Tuotteistus on tässä se olennainen sana, aineiston tuotteistus”, Korja kiteyttää.

Oma osaaminen A ja O, koska avaamista ei voi ulkoistaa

Seismologian instituutissa on kohtalaisen selkeä näkemys siitä, mikä oli ratkaiseva tekijä melko kivuttomasti sujuneessa prosessissa. Se oli Seismologian instituutista löytyvä oma osaaminen. Erityisesti opiskelijana projektiin tullut Aleksi Aalto oli avainroolissa, koska palvelu toteutettiin yhteistyössä AVAA-tiimin kanssa.

”Olin ollut aiemmin AVAA-projektissa töissä harjoittelijana CSC:llä. Tiesin, miten aineistoja yleensä avataan. Oli aika luontevaa tulla avaamaan oman alan aineistoa”, nykyisin seismologina Seismologian instituutissa työskentelevä Aalto sanoo.

”Aleksilla oli se käsitys siitä, mitä vaaditaan, kun tällainen palvelu avataan. On aika ikävää ajatella, että jokaisessa yksikössä pitäisi olla tällainen henkilö. Mutta tätä se tarkoittaa, kun avoimet datat tulevat: on resursoitava näitä ATK-ihmisiä, tietojenkäsittelyihmisiä, tai ihmisiä, joilla on yhdistelmä tietojenkäsittelyosaamista ja oman alan koulutusta. Tämä [datan avaaminen] ei ole ilmaista puuhaa. Eivät tutkijat tule tekemään tätä omalla ajallaan”, Korja toteaa.

”Se tässä on huomattu, että sitä osaamista on oltava nimenomaan tässä päässä. Vasta siinä vaiheessa, kun puhutaan datan varastoimisesta tai jonkin erikoisen asian järkkäämisestä, käännytään muiden puoleen. Sellainen ajatus, että tutkijat olisivat tässä ja jossain toisaalla olisi avoin data -yksikkö, joka tekisi aineistoista kaikkien saatavilla olevia sivustoja – en usko, että se toimisi. Kaikki aineistot ovat niin erilaisia. Silloin, kun tällaisia hankkeita suunnitellaan, resursseja on allokoitava tavalla tai toisella niin, että homman pystyy tekemään täällä päässä aika pitkälle valmiiksi. Tätä ei voi ulkoistaa, koska silloin prosessista tulee aivan liian hidas”, Heikkinen sanoo.

Aallolla oli aiemman AVAA-työn kautta kokemusta myös toisenlaisista datan avaamisista.

”Silloin, kun tein datan avaamista muille, tutkija antoi aineiston, ja piti hyvin pitkälle itse miettiä, miten aineisto esitetään. Geologin piti pohtia, mitä teologi haluaa”, Aalto kertoo.

Se tässä on huomattu, että sitä osaamista on oltava nimenomaan tässä päässä. Vasta siinä vaiheessa, kun puhutaan datan varastoimisesta tai jonkin erikoisen asian järkkäämisestä, käännytään muiden puoleen. Sellainen ajatus, että tutkijat olisivat tässä ja jossain toisaalla olisi avoin data -yksikkö, joka tekisi aineistoista kaikkien saatavilla olevia sivustoja – en usko, että se toimisi.

Pari keskeistä pullonkaulaa: raha ja arvostus

”Datat eivät avaudu itsestään” ja ”avoin tiede on resursoitava”, muistutettiin Avoimen tieteen ja datan toimenpideohjelman julkistustilaisuudessa toukokuussa – ja samaa on painotettu monissa muissa yhteyksissä.

Raha ratkaisi myös FIRE-datan julkaisemisen, koska osaaminen ja työaika mitataan viime kädessä rahassa. Ilman ATT-tukea OpenFIREa ei olisi syntynyt.

”Jostain löytyi rahaa siihen, että saatiin ihmisiä tekemään se työ. Siihen tarvittiin noin kolmen ihmisen puolentoista vuoden työ, jotta aineisto saadaan käytettävään muotoon ja esille verkkoon”, Korja sanoo.

Korjan mielestä datan avaamiseen liittyy rahoitusongelman lisäksi keskeisesti myös arvostusongelma, seikka, johon on viitattu myös aiemmissa blogipostauksissa (Jouko Väänäsen ja Mikko Tolosen keskustelussa ja dataviittaustiekartan yhteydessä). OpenFIRE-projektissa este saatiin tavallaan kierrettyä: Pekka J. Heikkinen oli jäämässä eläkkeelle, joten hänen tarvinnut miettiä julkaisupisteitä – ja Sakari Väkevä ja Aleksi Aaltokin olivat projektiin ryhtyessään vielä opiskelijoita.

”Fyysinen työmäärä [datan avaamisessa] on suuri, mutta julkaisupisteitä tästä ei tule. Tavallinen tutkimusprojekti ei pistä resursseja tähän, koska tähän menee aikaa, ja samalla menettäisi ne julkaisupisteet”, Korja sanoo.

Entä jos datan tuottamiseen olisi oma organisaationsa?

Datan avaamisen keskeiset hyödyt ovat kollektiivisia ja yksilöllisiä. Ne liittyvät resurssien säästämisen ohella tieteellisen tiedon lisääntymiseen ja tieteen edistymiseen sekä tutkijan maineeseen ja näkyvyyteen.

Hyödyt käyvät usein käsi kädessä, mutta tutkijoiden tai tutkimusryhmien voi olla joskus vaikea nähdä yleistä etua. Pekka J. Heikkisen mukaan uudenlaiset hallinnon ratkaisut voisivat olla tässä apuna. Hän mainitsee esimerkkinä amerikkalaisen USArray-tutkimushankkeen, joka toimi osittain myös OpenFIREn esikuvana.

”Siellä tehtiin päätös, että datan tuottaminen ja kenttämittaukset poistettiin tutkivilta organisaatioilta, ja sitä varten muodostettiin oma organisaatio. Nyt data on reaaliaikaisesti ladattavissa palvelimilta koko ajan. Tämä moninkertaisesti niiden tutkijoiden määrän, jotka tutkivat Yhdysvaltain kallioperää. Toivomme, että näin kävisi myös Suomessa. Monilla tieteenaloilla tieteelliset yhteisöt Suomessa ovat pieniä. Tämä [datan avaaminen] on yksi tapa saada suurempaa näkyvyyttä ja parempaa yhteistyöpohjaa. Jos tieteessä on jotain tarjota, silloin saa helpommin ystäviä. Tämä tarjoaa mahdollisuuden laventaa virtuaalitutkijoiden määrää. Se on merkittävä seikka. Aineistonkerääjä saa täyden hyödyn, ei vain julkaisuina, joita täällä tehdään, vaan myös viitteinä muiden tutkimuksista”, Heikkinen sanoo.

Monilla tieteenaloilla tieteelliset yhteisöt Suomessa ovat pieniä. Tämä [datan avaaminen] on yksi tapa saada suurempaa näkyvyyttä ja parempaa yhteistyöpohjaa. Jos tieteessä on jotain tarjota, silloin saa helpommin ystäviä.

”Ja onhan tässä sekin näkökulma, että tämä lisää tältä tieteenalalta yliopiston näkyvyyttä ja merkittävyyttä. Nykyisin kaikilla tutkimusyksiköillä, jotka haluavat näkyä, täytyy olla netissä näkyviä sivustoja ja tuotteita, jotka houkuttelevat muitakin yhteistyöhön”, Heikkinen mainitsee.

Organisaation saamasta näkyvyydestä on enteitä myös OpenFIRE-projektissa.

”Olemme saaneet yhteydenottoja eurooppalaisilta tutkijoilta, jotka ovat olleet kiinnostuneita aineistosta ja palvelun toteutuksesta. Lisäksi kansainvälisistä malminetsintäyhtiöistä on pyydetty aineistoon liittyviä tulkintoja. Palvelemme siis sekä tutkijoita että yhteiskuntaa”, Aleksi Aalto toteaa.


Lisätietoa OpenFIRE-hankkeesta:

OpenFIRE – GIS-pohjainen verkkopalvelu heijastusseismisen FIRE (Finnish Reflection Experiment) -aineiston jakamiseksi (XXVIII Geofysiikan päivät Helsingissä 18.-19.5.2017, Geofysiikan seura, sivut 22–25)

OpenFIRE – Suomen syvyydet avataan verkkoon (Geologi, vol. 69, nro 3, sivut 92–97)

Suomen kallioperän heijastusmittausaineisto avoimesti verkkoon (Helsingin yliopiston matemaattis-luonnontieteellisen tiedekunnan verkkosivut, 16.12.2016)

OpenFIRE-palvelu avaa heijastusseismisen FIRE-aineiston (Portti, 12.12.2016)

FIRE-heijastusluotausprojekti (Seismologian laitoksen verkkosivut ensimmäisen datan avaamisen aikoihin, 2006)