”Pitäisi toimia kuin jokainen aloitettu mittaus jatkuisi ikuisesti mutta mittausten aloittajat ja datavirran ylläpitäjät siirtyisivät muihin töihin seuraavalla viikolla”, havainnollistaa yliopistotutkija Pasi Kolari datanhallinnan lähtökohtaa. Ilmakehätieteiden tutkimuksen SMEAR-asemien datayhdyshenkilönä toimiva Kolari valottaa blogihaastattelussa käytännönläheisesti datan keräämiseen, käsittelyyn ja avaamiseen liittyviä haasteita. Artikkeli on toinen osa Think Open -blogin avoimen tieteen tutkimusinfrastruktuureja esittelevässä sarjassa.
(This article is also available in English.)
Teksti: Tanja Lindholm & Mika Holopainen
Suomen ilmakehätieteiden tutkimus on maailman huippuluokkaa. Yksi merkittävämpiä hankkeita on ollut SMEAR-asemien (Station for Measuring Ecosystem-Atmosphere Relations) perustaminen ja niillä tapahtuva tutkimus.

SMEAR-asemien suunnittelu alkoi vuonna 1989 professori Pertti Harin ja Markku Kulmalan toimesta. Ensimmäinen asema perustettiin Värriön tutkimusaseman yhteyteen vuonna 1991 ja seuraava Hyytiälän metsäaseman yhteyteen 1995. Tällä hetkellä asemia on yhteensä seitsemän, Suomessa neljä, Virossa yksi ja Kiinassa kaksi.
Asemat keräävät mittausdataa ilmakehässä ja maapallon pinnalla esiintyvistä ilmiöistä ja niiden vuorovaikutuksesta. Esimerkiksi SMEAR II -asemalla mitataan yli 1200 erilaista muuttujaa, kuten kasvihuonekaasujen ja pienhiukkasten pitoisuutta ja koostumusta, satoja erilaisia hiilivetyjä, fotosynteesiä, puiden kaasuaineenvaihduntaa sekä erilaisia maaperän ominaisuuksia.
Asemaverkoston aineistoista on tuotettu ainakin sata väitöskirjaa ja pari tuhatta tieteellistä artikkelia. Tutkimukset käsittelevät muun muassa metsien hiilensidontaa ja haihdutusta erilaisia maaperän prosesseja ja typen käyttöä ja kiertoa ekosysteemin eri osissa.
SMEAR-asemat ovat myös osa ICOS–verkostoa (Integrated Carbon Observation System). ICOS on hajautettu eurooppalainen tutkimusinfrastruktuuri, jonka tavoitteena on tuottaa pitkäaikaista ja yhdenmukaista tietoa ilmakehän kasvihuonekaasuista ja ekosysteemien hiilitaseista.
Yliopistotutkija Pasi Kolari työskentelee Helsingin yliopiston ilmakehätieteiden keskuksessa (INAR) ja hoitaa erilaisia SMEAR-dataan liittyviä tehtäviä. Kysyimme häneltä mitä valtavien datojen käsittely vaatii, millaisia prosesseja asiaan liittyy ja mitä tapahtuu datalle prosessin eri vaiheissa.
Pasi Kolari
|
Miten olet tullut mukaan SMEARiin ja mikä on roolisi tällä hetkellä?

”Aloitin vuonna 2000 tavanomaisen graduntekijän ja sittemmin jatko-opiskelijan roolissa, eli vastasin jostain mittauslaitteistosta, jonka tuottamaa dataa käytin myös opinnäytteissäni. Tein myös mallinnusta, mihin tarvitsin muutakin dataa. Tuohon aikaan jotkut tutkijat tapasivat istua datojensa päällä joten helpointa oli haalia raakadatat käsiinsä ja prosessoida ne käyttökelpoiseen muotoon itse.”
”Vähitellen toiminta laajeni datan toimittamiseen muille. Kun ICOSia ruvettiin suunnittelemaan 2010-luvun alussa, asemani ”datayhdyshenkilönä” virallistettiin. Nykyään teen kaikkea mittalaitteiden kalibroinnista datajulkaisuihin ja projektien datanhallintasuunnitelmiin. Tuotan loppukäyttäjädataa asemien (lähinnä SMEAR I ja II) mittauksista, dokumentoin mittauksia ja datoja, ylläpidän loppukäyttäjädataa sisältävää tietokantaa, julkaisen ja toimitan noita datoja ympäri maailmaa ja neuvon datanhallintaa SMEAR-tutkijoille ja teknikoille.”
Ensimmäisellä SMEAR-asemalla on kerätty dataa jo 28 vuotta. Kuinka paljon raakadataa tällaisessa ajassa kertyy, missä sitä säilytetään ja miten varmuuskopiointi hoidetaan?
”SMEAR-asemat tuottavat kaiken kaikkiaan muutaman teratavun vuodessa eli pyöreästi joka kuukausi tavanomaisen PC:n kovalevyn täyteen. Isot asemat, kuten SMEAR II, tuottavat enemmän dataa, mutta eniten aseman datamäärä riippuu siitä, millaisia instrumentteja siellä on. Esimerkiksi osa online-massaspektrometreistä tuottaa dataa teratavun vuodessa. Valtaosa datasta kopioidaan suoraan yliopiston tai kampuksen servereille, joissa datasta otetaan säännöllisesti varmuuskopiot. Olemme ottaneet käyttöön myös yliopiston uuden Datacloud–pilvipalvelun.”

Aineiston matka raakadatasta lopulliseen tuotteeseen on pitkä. Mitä kaikkea se vaatii?
”Ennen kaikkea ihmistyövoimaa mittausten ylläpitoon ja dokumentointiin kentällä sekä loppukäyttäjämetadatan jalostamiseen kenttädokumenteista. Loppukäyttäjädatan dokumentointi vaatii mittausten ymmärtämistä, datan käyttäjien tarpeiden tuntemista ja yleistä datanhallinnan osaamista. Itse datan prosessointi loppukäyttäjille käyttökelpoiseen muotoon on usein työtunteina aika pieni osa, koska sen vaiheen pystyy automatisoimaan käyttäen laskentaserverillä ajastettuna monta kertaa päivässä suoritettavia laskentakoodeja. Automaattisesti tuotetut datat pitää tietysti tarkastaa ja laskentakoodiston ylläpito vaatii työtä.”
Asemien perustamisen ajoista, ennen suurta digitaalista murrosta, toimintatavat ovat luultavasti muuttuneet. Näkyykö tämä esimerkiksi dokumentaatiossa, onko asemien välillä yhteisiä käytäntöjä? Onko jälkikäteen tullut mieleen jotain, mikä olisi aikoinaan pitänyt dokumentoida?
”Datanhallinta asemilla on aika kirjavaa. Yhteistä on lähinnä tiedostojen siirron ja datan online-prosessoinnin keskittäminen. Myös saman perusohjelmiston ympärille laadittuja raakadatan keruuohjelmia tehtiin omalla porukalla jo 90-luvulla, sittemmin nuori teknikkosukupolvi on tehnyt uuden softan. Toisaalta esimerkiksi päiväkirjat ovat vieläkin eri asemilla erilaisia. Joillakin tutkijoilla tai laitteilla oli vielä 2010-luvun alussa paperiset päiväkirjat. SMEAR II -asemalla satelliiitteineen on kuitenkin alettu 2015 alkaen käyttää jatkuville mittauksille määrämuotoisia sähköisiä päiväkirjoja (elog-softa). Vieläkään ei ole yhtenäistä käytäntöä sellaisen harvakseltaan tai kertaluonteisesti kerätyn datan prosessoinnista ja julkaisemisesta, joka ei päädy SMEAR-tietokantaan. Tutkimusinfrojen hyvät käytännöt toivottavasti leviävät myös muun datan hallintaan. Tarvitaan myös teknikoiden ja tutkijoiden asennekasvatusta.”
Dokumentointi on tehty vain mittausvastuullisen omaan tarpeeseen. Dokumentointia olisi pitänyt ajatella enemmän datan loppukäyttäjien näkökulmasta; heistä moni ei ole koskaan edes käynyt paikan päällä tai käyttää dataa eri tarkoitukseen kuin mittaaja on alun perin kuvitellut.
”Suurin puute vanhoissa dokumenteissa on niiden keskittyminen yksityiskohtaisiin teknisiin tietoihin – ja samalla loppukäyttäjän kannalta oleellinen yleistajuinen tieto kuten mitä, miksi ja missä on mitattu, puuttuu. Dokumentointi on tehty vain mittausvastuullisen omaan tarpeeseen. Dokumentointia olisi pitänyt ajatella enemmän datan loppukäyttäjien näkökulmasta; heistä moni ei ole koskaan edes käynyt paikan päällä tai käyttää dataa eri tarkoitukseen kuin mittaaja on alun perin kuvitellut. Olisi myös ollut hyödyllistä laatia esimerkiksi vuosittain täydennettävä yleisdokumentti, missä olisi kuvattu, mitä kaikkea asemalla tehdään, sekä kuvailtu ympäristön muuttumista.”
SMEAR-aineistoja on avattu monessa eri paikassa (mm. ICOS, ETSIN, PAS). Mitä haasteita tämä tuo tullessaan esimerkiksi metadatan suhteen – onko niissä eroavaisuuksia? Olisiko tarvetta yhteisille, esimerkiksi EU-tason, standardeille?
”Pyörän keksiminen uudelleen on datan avaamisen suuri riesa. Kaikki projektit ja infrat haluavat kehittää omia tiedostomuotojaan, metadatamallejaan ja metadatansyöttöalustoja. Muiden projektien tai infrojen tekemisistä ei olla kiinnostuneita eikä selvitetä, kerätäänkö projektin käyttämää dataa jo jonkun infran tai muun projektin puitteissa. Tämä johtaa tulokseen, missä samat datat ja metadatat pitää lähettää monessa formaatissa moneen eri paikkaan. Yhteisiä metadatastandardeja hyödyllisempää olisi, jos rahoittajat olisivat tarkempia siitä ettei tehdä päällekkäistä datankeruutyötä vaan tietokannat ja repositoriot haravoisivat metadataa ja dataa toisiltaan.”
Pyörän keksiminen uudelleen on datan avaamisen suuri riesa. Kaikki projektit ja infrat haluavat kehittää omia tiedostomuotojaan, metadatamallejaan ja metadatansyöttöalustoja.

Aineistoja on käytetty laajasti erilaisissa tutkimuksissa. Seuraatteko datojen käyttöä ja miten se tapahtuu? Tuottavatko arkistot tilastoja datan käytöstä, kuten lataus- tai viittausmääristä?
”AVAA-palvelusta näemme, kuinka paljon dataa on ladattu SMEAR-tietokannasta, mutta emme näe, kuinka paljon sitä on käytetty esimerkiksi tieteellisissä artikkeleissa. Datan käyttöä voidaan teoriassa seurata haravoimalla Etsimeen vietyjen datasettien viittauksia journaalijutuista. Samalla periaatteella voidaan seurata latauskertoja kansainvälisistä tietokannoista ja viittauksia Zenodossa ja muissa julkaisupalveluissa julkaistuun dataan. Toistaiseksi olemme päätelleet datan käytön laajuutta karkeasti lähinnä datan latauksista ja tutkijoiden yhteisjulkaisujen määristä. Älykkäämpää viittausten haravointia ei ole tehty, koska hyviä työkaluja siihen ei ole.”
Onko tiedossanne kuinka paljon SMEAR-aineistoa on käytetty ryhmän ulkopuolella ja onko sen pohjalta syntynyt odottamattomia yhteistyöprojekteja?
”Asiasta ei ole tarkkaa tietoa, mutta ryhmän ulkopuolisia käyttäjiä lienee ollut aikojen saatossa tuhansia. Datan avoimuus on luonut niin suurta kuin pientäkin yhteistyötä, lähinnä yhteisjulkaisuja data-analyyseista. Tosin on myös paljon tapauksia, missä datan käyttäjät ovat halunneet tulla SMEAR-asemalle mittaamaan jotain omilla laitteillaan – tai vastavuoroisesti kutsuneet meidän tutkijoita omille asemilleen. Osa yhteistyöehdotuksista on tullut meidän tavanomaisten tutkimusaiheiden ulkopuolelta, esimerkiksi kaukokartoitusdataa käyttävät tutkijat ovat halunneet päästä käyttämään tai mittaamaan aikasarjadataa yhdessä paikassa. Näitä ehkä voi sanoa odottamattomiksi. Pyrimme myös aktiivisesti mainostamaan asemiamme ja dataamme konferensseissa ja kokouksissa.”
Ryhmän ulkopuolisia käyttäjiä lienee ollut aikojen saatossa tuhansia. Datan avoimuus on luonut niin suurta kuin pientäkin yhteistyötä, lähinnä yhteisjulkaisuja data-analyyseista.
Mitä haasteita aineistojen avaamisen yhteydessä on ollut?

”Edellämainittu vanhojen datojen huono dokumentointi on toiseksi kovin haaste, mutta siitä selviää, kun jaksaa kiskoa tietoa SMEAR-veteraaneilta. Pahin ongelma ovat satunnaiset tutkijat, jotka kieltäytyvät ymmärtämästä datan avaamisen hyötyjä sekä sitä, että emme tuota dataa ainoastaan itsellemme, vaan koko tiedeyhteisölle.”
”Meillä ei ole oikein keinoa pakottaa ketään avaamaan dataa. Jotkut pelkäävät, että datan avaaminen merkitsee luopumista oikeuksista dataan ja datan alkuperäiset tekijätiedot häviävät. Tämä ei yleensä ole ollut merkittävä ongelma kun on tehty selväksi, että datan alkuperäisen tuottajan nimi seuraa dataa maailman tappiin, jos datan käyttäjät viittaavat asianmukaisesti alkuperäiseen datasettiin.”
Jotkut pelkäävät, että datan avaaminen merkitsee luopumista oikeuksista dataan ja datan alkuperäiset tekijätiedot häviävät.
Jos saisit aloittaa koko SMEAR-projektin alusta, mitä tekisit eri tavalla tai mihin kiinnittäisit erityisesti huomiota?
”Pitäisi toimia kuin jokainen aloitettu mittaus jatkuisi ikuisesti mutta mittausten aloittajat ja datavirran ylläpitäjät siirtyisivät muihin töihin seuraavalla viikolla. Kaikki dokumentointi pitäisi tehdä muille, ei itselle.”
Avoimen tieteen tutkimusinfrastruktuurit -artikkelisarja: