”Koskaan ei ihan tarkkaan tiedä mitä työpäivä sisältää” – Datanhallinnan asiantuntijana tutkimusasemilla

Tutkimusdataan liittyvät kysymykset ovat tulleet yhä keskeisemmiksi viime vuosien aikana. Tanja Lindholm työskentelee Helsingin yliopiston tutkimusasemilla tutkijoiden tukena tutkimusdatan hallinnassa. Hänen tärkein tehtävänsä on kartoittaa ja koota tietoa asemien pitkäaikaisista seurantatutkimuksista ja laatia asemille datanhallinnan suunnitelma. Lindholmin mukaan sekä yliopiston että tutkijoiden ymmärrys datanhallinnan tärkeydestä kasvaa jatkuvasti, mutta tukea ja koulutusta tarvitaan edelleen. Erityisesti datan jakaminen edellyttää yhteisiä käytäntöjä.

Teksti: Mika Holopainen

Projektisuunnittelija Tanja Lindholm (TUHAT) toimii datanhallinnan asiantuntijana Helsingin yliopiston Life Science -alan tutkimusasemien yhteenliittymässä (RESTAT UHEL). Tässä blogijutussa Lindholm kertoo taustastaan ja työstään, samalla hän avaa näkemyksiään datanhallinnan haasteista ja edistysaskelista.

Tanja Lindholm työskentelee datanhallinnan asiantuntijana Helsingin yliopiston tutkimusasemilla. Kuva: Katri Kuuppo

Lindholm aloitti nykyisessä tehtävässään keväällä 2021. Laaja luonnontieteiden koulutus sekä tutkimukseen, opetukseen ja datanhallintaan liittyvä työkokemus antoivat hyvät valmiudet tehtävään.

”Olen tehnyt maisterin tutkinnot sekä geologiasta että biologiasta. Vuosien aikana on tullut tehtyä vähän kaikenlaista. Olen toiminut opetustehtävissä Aalto-yliopistolla, tehnyt malminetsintää ja sitten biologian puolella työskennellyt parissa eri tutkimusryhmässä. Ennen nykyistä toimea työskentelin Helsingin yliopiston kirjaston datatiimissä, joka on osa yliopiston Datatuki-verkostoa”, Lindholm kertoo.

”Luonnontieteen maailmassa kaikki liittyy tavalla tai toisella dataan, ja itse olen siitä onnellisessa asemassa, että mulla on monipuoliset luonnontieteen ja paikkatiedon opinnot taustalla. En oikeastaan keksi yhtään työtä, missä data ei olisi ollut jossain roolissa. Näin on ehkä luontevaakin, että olen muutaman mutkan kautta päätynyt pääsääntöisesti työskentelemään datan ja datanhallinan pariin.”

”Kun asemille tuli tämä mun nykyinen projektisuunnittelijan paikka hakuun, tuli vahva tunne, että tuota haluan tehdä ja olen paras henkilö sitä tekemään. Työ kirjaston datatuessa opetti todella paljon ja myös mahdollisti sen, että pystyin siirtymään neuvojasta tekijäksi. Nykyisessä työssä yhdistyy sopivasti sekä luonnontieteellinen alakohtainen osaaminen että datanhallinnan osaaminen.”

Datanhallinnan haasteet vaihtelevat eri tutkimusasemilla

Lindholm toimii datanhallinnan tehtävissä useilla tutkimusasemilla, jotka maantieteellisesti sijaitsevat laajalla alueella Suomessa. Näitä asemia ovat Hyytiälän metsäasema, Kilpisjärven ja Lammin biologiset asemat, Tvärminnen eläintieteellinen asema sekä Viikin opetus- ja tutkimustila ja siihen kuuluva Muddusjärven tutkimusasema. Resurssit ja datanhallinnan haasteet määrittävät osittain, mille asemille Lindholmin työpanos painottuu.

”Ensisijaisia asemia ei varsinaisesti ole, mutta pienemmillä asemilla on pienemmät resurssit ja niissä tarvitaan enemmän apua. Toisaalta suuremmilla asemilla on usein enemmän mitattavia muuttujia ja näin ollen datanhallinta on haastavampaa. Onneksi näiltä asemilta löytyy henkilöitä, jotka työskentelevät datanhallinnan parissa, kuten esimerkiksi Tvärminnen asemalla Laura Kauppi. Lisäksi kansainväliset infrat, kuten eLTER, yhdistävät asemia, ja sitä kautta on helppo tehdä samoja asioita kaikille asemille.”

Helsingin yliopiston tutkimusasemaverkosto on laaja. Suomessa olevien asemien lisäksi Keniassa sijaitsee Taita Research Station.

Mitä, missä, milloin ja mihin datat kulkevat

Lindholmin tärkeimpänä tehtävänä on kartoittaa ja koota tietoa asemilla tehtävistä pitkäaikaisista seurantatutkimuksista ja laatia asemille datanhallinnan suunnitelma. Tämä tarkoittaa metatietojen keräämistä: mitä missä, milloin ja mihin datat kulkevat ja kuka niistä on vastuussa.

”Tätä projektia on tehty jo pitkään yhdessä muiden Suomen tutkimusasemien kanssa. Toisaalta kun itse lähdin toteuttamaan tietojen keräämistä varsin kunnianhimoisesti ja yksityiskohtaisesti, niin työtä onkin ollut enemmän kuin mitä alun perin ajattelin. Se ei sinällään ole ihme, kun mitattavia muuttujia yhteensä on tuhansia. Datanhallinnan vastuissa ja datan julkaisemisessa on vielä paljon tekemistä, mutta näitäkin tässä koko ajan työstetään.”

”Nyt voi ajatella, että meillä on pikkuhiljaa syntynyt selkeämpi kuva siitä, mitä eri alojen tutkimuksissa mitataan ja minne data menee. Tämä voi kuulostaa hölmöltä, että sitä selkeää kuvaa ei ole ollut, mutta jos miettii että esimerkiksi Lammin biologinen asema on 70-vuotias, niin kyllä siihen historiaan mahtuu yhtä ja toista. Toisaalta datanhallintaan ja vastuisiin on herätty vasta aivan lähivuosina, jolloin ei ole mikään ihme, ettei kaikki ole niin selvää. Pitkään tutkijat myös työskentelivät lähinnä omalla koneella eikä aineistoja ole sen vuoksi totuttu jakamaan muiden kanssa.”

Lammin pääjärven merkittävimpien lähtevien ja tulevien uomien pitkäaikainen vesistöseuranta.

Lopullisena päämääränä Lindholm näkee sen, että kaikki asemien aineistot noudattaisivat FAIR-periaatteita (Findable, Accessible, Interoperable, Re-usable).

”Mutta sepä ei olekaan niin yksinkertainen tehtävä. Pitkistä aikasarjoista puhuttaessa usein keruun vastuuhenkilöt ovat vaihtuneet tai eläköityneet, menetelmät ja laitteet ovat muuttuneet ja usein saattaa olla myös niin, että asioita ei aina ole kovin hyvin dokumentoitu vuosien varrella. Mutta sitä soppaa tässä selvitellään.”

Kansainväliset ja kansalliset tutkimusinfrastruktuurit ovat Lindholmin työn kannalta olennaisia.

”Tutkimusinfroista voisin mainita esimerkkinä eLTERin (Long-Term Ecosystem Research in Europe), jossa tarkoituksena on harmonisoida EU-tasolla erilaisia ekosysteemeihin liittyviä elollisen ja elottoman luonnon mittauksia. Tämän tapainen työ tuo yhteen eri organisaatioita niin kansallisella kuin kansainväliselläkin tasolla.”

Työpisteellä ovi on kaikille avoin

Omaa työnkuvaansa Lindholm pitää niin monimuotoisena, että sitä on vaikea tiivistää muutamalla lauseella.

”Koskaan ei ihan tarkkaan tiedä mitä työpäivä sisältää, etenkin silloin kun on fyysisesti asemilla käymässä. Välillä sitä kerää metsästä käpyjä ja toisena päivänä kirjoittaa rahoitushakemuksia. Etenkin Kilpisjärven asemalla, missä resurssit ovat pienet, autetaan toisia mahdollisuuksien mukaan. Jos vaikka paikallinen johtaja sairastuu koronaan juuri kansainvälisen kokouksen alla, niin sitten on vain hypättävä niihin saappaisiin. Näinkin hassusti pääsi pari vuotta sitten käymään INTERACT-vuosikokouksen alla.”

Koskaan ei ihan tarkkaan tiedä mitä työpäivä sisältää, etenkin silloin kun on fyysisesti asemilla käymässä. Välillä sitä kerää metsästä käpyjä ja toisena päivänä kirjoittaa rahoitushakemuksia.

Tutkimusasemilla tyypillisin tutkijoiden esittämä kysymys on Lindholmin mukaan se, minne he voivat datansa tallentaa.

”Meillähän ei harmi kyllä ole mitään omaa tietokantaa, mihin omat tai yksittäisten tutkijoiden datat voisi yksiselitteisesti ohjata. Tallennukseen liittyvät kysymykset ohjaan pääsääntöisesti yliopiston Datatukeen, kun siellä osataan ehkä hieman tarkemmin neuvoa tällaisissa yksittäistapauksissa. Kommentoin myös meidän tutkijoiden datanhallinnan suunnitelmia tarvittaessa, mutta lopulta nekin menevät vielä Datatuelle kommenteille ja hyväksyttäväksi.”

”Tässä puhuin siis ainoastaan tutkimuksen aikaisesta tallennuksesta. Tämän jälkeenhän se data pitäisi vielä jossakin avata FAIR-periaatteiden mukaisesti. Helpottaisi paljon jos oma organisaatio tarjoaisi selkeän polun miten toimia.”

Kiinnostus tutkimusasemilla kerättyjä data-aineistoja kohtaan on viime aikoina lisääntynyt muun muassa erilaisten kyselyiden muodossa.

”Näihin liittyen on kaikenlaisia virityksiä ilmassa, mutta kuten sanoin, työ on niin moninaista, että on vaikeaa summata erilaisia yhteistyön muotoja. Tutkimusasemilla toimii laaja kirjo tutkijoita, tutkimusryhmiä, satunnaisia kulkijoita ja taiteilijoita. Datanhallintaan liittyen yritän auttaa kaikkia siinä missä pystyn, ja työpisteelläni ovi on kaikille avoin.”

Kilpisjärven digitaaliset tiedepolut avattiin yleisölle kesäkuussa 2023. Kuvassa Helsingin yliopiston ympäristönmuutoksen professori Atte Korhola ja Tanja Lindholm. Kuva: Hannu Autto

Koulutusten järjestäminen tärkeää

Tärkeänä ja välttämättömänä tehtävänä Lindholm pitää myös erilaisten koulutusten järjestämistä, sen avulla voidaan lisätä ja vahvistaa yhteistä ymmärrystä asioista.

”Aika nopeasti huomasin, että kaikilla ei ole vastaavaa taustaa kuin itselläni. Se taas johti siihen, että emme puhuneet ihan samaa kieltä. Esimerkiksi metadatan käsite ei ole juuri kenellekään kovin selkeä, että mitä sillä tarkoitetaan. Aina ei myöskään ymmärretä, miksi tiettyjä asioita pitää dokumentoida.  Koulutuksissa aloitin ihan tutkimusdatan hallinnan perusteista räätälöitynä kullekin tutkimusasemalle. Yhdessä CSC:n ja Helsingin yliopiston Datatuen kanssa pilotoimme myös Datan hallinnan ABC -koulutusta. Nämä materiaalit on avattu Zenodossa, samoin asiaan liittyvä fasilitointi ohjeineen, jolloin niitä voivat sitten muutkin organisaatiot hyödyntää.”

Tuoreimpia koulutuksia, joissa Lindholm on ollut mukana, oli yhdessä CSC:n ja Tampereen yliopiston kanssa marraskuussa järjestetty datajulkaisuja käsittelevä webinaari Näkyvyyttä ja vaikuttavuutta tutkimukselle: datajulkaisut – käytännön kokemuksia. Myöhemmin järjestettiin vielä toinenkin vastaava tapahtuma otsikolla eLTER SPF Webinar: Data Papers. Koulutusten osalta Lindholm haluaa kehua erityisesti Finn-ARMA:n alaisuudessa toimivaa datakoulutukset työryhmää.

”Etenkin datakoulutukset-työryhmästä löytyy aina innostunutta ja aktiivista porukkaa sekä osallistumaan että järjestämään erilaisia tilaisuuksia. Meillä Suomessa on huikeaa osaamista ja sitä yritämme parhaamme mukaan jakaa eri organisaatioille ja myös eri tasoille sekä meille datakouluttajille myös.”

Datanhallinnan haasteet usein samanlaisia

Lindholmin näkemyksen mukaan datanhallintaan liittyvät haasteet ovat usein aika samanlaisia monilla eri tutkimusaloilla, mutta toisaalta jokaisella alalla on myös omat erityishaasteensa.

Tutkimusasemilla ollaan koostettu laajalti tietoa asemilla tehtävistä seurannoista. Kuvassa murto-osa kerätystä tiedosta. Datasetin nimestä olisi jo hyvä käydä ilmi mitä, missä, milloin ja kuka.

”Tyypillistä on, että vastuita ei ole jaettu tai metadata on pinnallista. Tähän varmaankin liittyy se ajattelutapa, että luotetaan omaan muistiin tai ajatellaan, että jokin asia ei ole oleellinen, sen sijaan että kirjattaisiin kaikki tarkasti ylös. Jos kaikki on kirjattuna, saattaa esimerkiksi jokin asia, mikä ei kirjaushetkellä tunnu tarpeelliselta osoittautua myöhemmin hyvinkin tarpeelliseksi. Nollahavainnot on tästä hyvä esimerkki. Usein unohtuu, että 0 on arvo eikä ole sama asia kuin esimerkiksi Excel-taulukon tyhjä solu. Koneelle 0 on oikea arvo ja näin ollen dataa, sen sijaan kone tulkitsee tyhjän solun tuntemattomaksi arvoksi ja näin ollen saattaa vääristää tuloksia.”

”Toinen, ehkä jopa suurempi ongelma on, että jälkeenpäin on vaikeaa sanoa, onko asia jäänyt havaitsematta vai onko se jäänyt kirjaamatta. Näihin sitten jälkikäteen liittyy paljon arvuuttelua ja tulkintaa. Ylipäätään usein sellainen asia mikä tuntuu itsestään selvältä tai turhalta tiedolta on myös sellainen tekijä mistä ei jälkikäteen pysty sanomaan oikein mitään. Ihmisen muisti on hyvin lyhyt. Tämän olen ainakin itse kantapään kautta oppinut.”

Kuinka sitten datanhallinta voisi toimia ideaalitilanteessa? Tähän kysymykseen Lindholmilla on yksinkertainen vastaus.

”No kyllähän se ideaalitilanne on sellainen, että kirjoitetaan ajatuksella datanhallinnan suunnitelma ja sitten kun projekti alkaa, niin tehdään asioita suunnitelman mukaan ja samalla täydennetään ja muokataan suunnitelmaa. Tähän liittyy, että kaikille on selkeää, miten dataa hallitaan, missä se sijaitsee ja kenellä on minnekin pääsy.”

Datanhallinnan palveluihin panostaminen on alkanut näkyä

Viimeisten noin kymmenen vuoden aikana datanhallinnan palveluihin ja koulutukseen on panostettu monin tavoin, ja Lindholmin mielestä tulostakin on alkanut näkyä.

”Minusta tuntuu, että jollain tasolla Helsingin yliopistossa on otettu koppia datanhallinnnasta, ja vähitellen se ymmärrys siirtyy esimerkiksi infroihin. Toki tarvitaan ammattilaisia auttamaan alkuvaiheessa, sitähän esimerkiksi kirjaston datatuessa tehdään.”

Myönteistä on myös nuorempien tutkijoiden muuttuneet asenteet ja parempi ymmärrys avoimesta tieteestä.

”Yleisesti sanoisin, että useimmille nuoremmille tutkijoille avoin tiede ja sen toteuttaminen ovat jo toiminnan lähtökohta ja osa normaalia tutkijan työnkulkua. Ymmärrys ja asenteet näissä asioissa ovat kehittyneet positiivisesti, ja kyllähän Suomi on myös edelläkävijä datanhallinnan ja yleisesti avoimen tieteen saralla.”

Nykyisin datanhallintaan on Lindholmin mukaan myös saatavilla varsin hyvin tukea.

”Suomessa on tarjolla aika laajalti tukea datanhallintaan ainakin perustasolla melkein jokaisessa organisaatiossa, mutta sitä ei ehkä aina osata hyödyntää. Jokaisella yliopistolla on jonkinlainen datatuki olemassa, ehkä hieman eri nimikkeellä, mutta apua ja tukea löytyy jonkinlaisilla resursseilla. Toisaalta aineistonhallinnan yleiset periaatteet ja käytänteet, kuten vaikkapa kansiorakenteet tai versionhallinta, tulisi jokaisen opetella jo kandivaiheessa. Liian usein kuulee, että olisinpa tiennyt tämän jo vaikka väitöskirjan alkuvaiheissa. Aineistonhallinta kummasti helpottaa elämää monellakin tavalla.”