Hyvällä datanhallinnalla tutkimuksen parempaa toistettavuutta

Tuoreesta tutkimuksesta käy ilmi, että tutkijat pitävät tutkimuksen hyvää datanhallintaa eli datan järjestelmällistä käsittelyä erittäin tärkeänä datan eheyden, tutkimustulosten luotettavuuden ja tutkimuksen toistettavuuden kannalta. Silti koulutusta datanhallintaan on saanut vain harva ja nuorten tutkijoiden osaaminen on kirjavaa. Tutkimustaan käsittelevässä blogiartikkelissa Jukka Rantasaari esittää myös ratkaisuja tilanteen parantamiseksi.

Teksti: Jukka Rantasaari (Turun yliopiston kirjasto)

Suurta osaa eri tieteenalojen tutkimuksista ei ole onnistuttu toistamaan, Anu Silfverberg kirjoittaa elokuun Long Play -lehdessä. Vuonna 2016 Nature-lehden kyselytutkimukseen vastanneista 1576:sta eri tieteenalojen tutkijoista 52 % piti tieteen toistettavuuskriisiä vakavana. Vastaajien mukaan toistettavuutta voidaan parhaiten edistää paremmilla käytännöillä, koulutuksella ja kannustimilla. Suunnitelmallinen ja hyvin dokumentoitu datanhallinta (research data management, RDM) edistää tutkimusprosessin läpinäkyvyyttä, datan uudelleen käytettävyyttä ja tutkimuksen toistettavuutta. Mutta miten on osaamisen laita?

   Mitä on data?

  • Tutkimusdata on:
    • kaikkea sitä mitä tutkija analysoi (Briney)
    • kaikkea sitä informaatiota, jota tutkija systemaattisesti hankkii ja prosessoi uudeksi tiedoksi akateemisessa tutkimuksessa (Pryor)
    • keino validoida, evaluoida ja jäljittää se prosessi ja ne vaiheet, joilla tutkimustulokset on tuotettu (RIN).
  • Tutkimusdatan hallinta (research data management, RDM) on:
    • datan systemaattista käsittelyä sisältäen toiminnot, joilla parannetaan datan löytyvyyttä, ymmärrettävyyttä ja käytettävyyttä nykyisessä ja tulevissa tutkimusprojekteissa (Briney).

Tutkimus väitöskirjatutkijoiden datanhallinnan osaamisesta ja osaamistarpeista

Haastattelin vuosina 2018–19 Turun yliopiston eri tieteenalojen väitöskirjatutkijoita ja ohjaajia sekä lääketieteellisen tiedekunnan biostatistikoita (n=35). Haastatellut arvioivat datanhallinnan taidot keskimäärin erittäin tärkeiksi. Sen sijaan väitöskirjatutkijoiden tämänhetkinen osaaminen arvioitiin/itsearvioitiin keskimäärin tasolle ”osaa(n) jonkin verran” (kuva 1). Tämä ilmenee elokuussa International Journal of Digital Curation -lehdessä julkaistusta tutkimuksestani.

Kuva 1: Akateemisten asiantuntijoiden (ohjaajat, biostatistikot) ja väitöskirjatutkijoiden arvioima datanhallinnan kompetenssien tärkeys ja samojen ryhmien arvioima/itsearvioima väitöskirjatutkijoiden tämänhetkinen osaaminen (1 = ei tärkeä/ei osaamista; 5 = välttämätön/erinomainen osaaminen; n=35) (Rantasaari, 2021).

No hyvä, näyttäisi että parantamisen varaa on. Mutta miksi se on niin tärkeää?

Monien tutkijoiden – rahoittajista puhumattakaan – pyrkimys on, että tutkimus ei hyödytä vain tutkijan urakehitystä vaan laajemmin tiedettä, yhteiskuntaa ja maailmaa. Samaan tavoitteeseen pyritään tutkimuksen toistettavuuden ja luotettavuuden parantamisella. Lisäksi tutkimusyhteistyön lisääminen ja aikaisemman tutkimuksen tuotosten parempi hyödyntäminen muun muassa isojen maailmanlaajuisten ongelmien kuten luontokadon, ilmastonmuutoksen ja pandemioiden ratkaisemiseksi ovat perusteita datanhallinnan ja raportointikäytäntöjen standardoimiselle sekä datan ja prosessin avaamiselle.

Tutkimuksen tuotosten parempi hyödyntäminen isojen maailmanlaajuisten ongelmien kuten luontokadon, ilmastonmuutoksen ja pandemioiden ratkaisemiseksi ovat perusteita datanhallinnan ja raportointikäytäntöjen standardoimiselle sekä datan ja prosessin avaamiselle.

Tahdomme myös, että kansalaiset ja päätöksentekijät luottavat tutkimustietoon. Siispä meidän tulee lisätä ymmärrystä, miten olemme päätyneet tutkimustuloksiimme ja miten juuri tutkimustiedon tuottamisen tapa erottaa ne mielipiteistä, saduista, väärinkäsityksistä ja ennakkoluuloista.

Missä siis mättää?

Ongelma on, että monet arjen tutkimuskäytäntömme eivät palvele tahtoamme. Vaikka nuorilla tutkijoilla voi olla projekteissa iso vastuu tutkimuksen tärkeimmän raaka-aineen – datan – hankinnasta, tallennuksesta, prosessoinnista, analysoinnista ja säilytyksestä, he eivät yleensä ole saaneet datanhallinnan koulutusta, lukuun ottamatta tutkimusmenetelmäkoulutusta ja etiikan peruskurssia. Koulutuksen puuttuessa tutkijat selviytyvät ad hoc -ratkaisuilla ja yritys & erehdys -menetelmällä. Siksi käytännöt usein ovat epästandardeja, tutkimuksen immateriaali- ja sopimusasiat vieraita ja datan käsittelyvaiheet dokumentoitu meneillään olevaa tutkimusta ja sen tekijöitä, ei muita tutkijoita tai datan soveltajia silmällä pitäen. Tämä ei mahdollista datan jakamista ja uudelleenkäyttöä ja heikentää tutkimuksen toistettavuutta.

Koulutuksen puuttuessa tutkijat selviytyvät ad hoc -ratkaisuilla ja yritys & erehdys -menetelmällä.

Suurimmat osaamiskuilut

Strukturoidun haastattelututkimukseni tulosten analyysi auttoi paikallistamaan suurimmat datanhallinnan osaamisvajeet neljään osa-alueeseen:

1) Datan laatu, dokumentointi ja metadata

”Documentation is made for myself to follow my data during the project.”
(Doctoral student, Turku School of Economics).

Vaikka 80 prosenttia (n=12) väitöskirjatutkijoista uskoi dokumentointinsa olevan riittävän hyvää, jotta ulkopuolinenkin voi ymmärtää ja käyttää dataa, ainoastaan 15 prosenttia (n=3) haastatelluista akateemisista asiantuntijoista oli samaa mieltä. Datan dokumentointia ja kuvailua vaikeuttavat toisaalta datatyyppien moninaisuus, toisaalta se, että vaikka standardeja on jo luotu, niitä ei vielä tunneta ja käytetä.

”Most doctoral students don’t document because they don’t think anyone else would use their data after the current project.”
(Biostatistician, Faculty of Medicine)

Samaan aikaan kuin akateemiset asiantuntijat korostivat datan käsittelyn dokumentoinnin ja kuvailun tärkeyttä, he tunnistivat koulutuksen ja standardien puutteen. Eräs ohjaaja lääketieteen piiristä totesi, että koska paineen parantaa datanhallintaa ja datan dokumentointia on koettu tulevan tieteenalan ulkopuolelta, kuten päättäjiltä, tilastotieteilijöiltä ja data-analyytikoilta, dokumentoinnin taso on jäänyt matalaksi.

2) Datan jakaminen, uudelleenkäyttö ja pitkäaikaissäilytys

”In principle there has not been a thought that anyone other than researchers themselves would use their focus group interview data. As far as qualitative research data are concerned, there is not that kind of culture [of preserving data] as there is of preserving quantitative research data.”
(Supervisor, Faculty of Social Sciences).

”Researchers’ focus is here and now, and they don’t pay so much attention to re-use and long-term preservation issues.”
(Supervisor, Faculty of Science and Engineering).

Haastattelemistani väitöskirjatutkijoista 87 prosenttia (n=13) suhtautui myönteisesti datan jakamiseen ja 73 prosenttia (n=11) arvioi datallaan olevan käyttöarvoa vähintään 50 vuoden ajan meneillään olevan tutkimuksen jälkeen. Silti he eivät tyypillisesti olleet huomioineet datan tulevaa käyttöä dokumentoinnissa eivätkä solmituissa datan käyttöä säätelevissä sopimuksissa – tai eivät olleet tietoisia tällaisten sopimusten olemassaolosta. Toisin sanoen, dataa ei mahdollisesti ollut lupaa jakaa ja käyttää meneillään olevan tutkimuksen jälkeen tai datan käsittelyprosessin dokumentoinnissa ja kuvailussa ei ollut huomioitu ulkopuolisia käyttäjiä. Myöskään nykyisten kannustinjärjestelmien ei koettu riittävästi tukevan jakamista ja uudelleenkäyttöä.

Vaikka kaikkea dataa ei ole mahdollista jakaa eettisistä ja juridisista syistä, tällöinkin usein voidaan jakaa metadata eli tutkimuksen ja datan kuvailutiedot. Lisäksi tutkimusluvalla, niin sanotun ”pimeän arkiston” kautta, on usein mahdollista jakaa rajoitetusti myös arkaluontoista aineistoa.

3) Datanhallinnan suunnittelu ja datan organisointi

”It would be important to have a big picture of the data and its relevance to understand the importance of preservation and re-use.”
(Supervisor, Faculty of Humanities).

”It would have been a huge benefit if there had been some training on data management.”
(Doctoral student, Faculty of Social Sciences).

Huolimatta siitä, että datanhallinnan suunnittelu ja datan hyvä organisointi arvioitiin erittäin tärkeiksi, asiaan on alettu kiinnittää huomiota vasta viime aikoina tutkimuksen digitoitumisen, datamäärien kasvun ja yhteistyöprojektien lisääntymisen (e-research) myötä.

4) Etiikka ja immateriaalioikeudet

”Everything that has something to do with the letter of law is unclear and scary.”
(Supervisor, Faculty of Social Sciences).

Vaikka etiikka periaatteiden tasolla – johtuen ehkä pakollisesta etiikan kurssista – oli monien väitöskirjatutkijoiden itsearvioinnin perusteella jo verrattain hyvin hallinnassa, ohjaajat näkivät puutteita käytännöissä. Samoin käytännön toimenpiteitä kuvaavien vastausten perusteella lähes kaikki väitöskirjatutkijat kokivat epävarmuutta dataan liittyviin immateriaalioikeuksiin, omistajuuteen, sopimuksiin, tietosuojaan ja käyttöoikeuksiin liittyen.­­­­

Ei tässä syyllisiä kaivata, vaan…

Jotta tutkimustulosten julkaisemisen lisäksi myös muiden tutkimustuotosten kuten datan, menetelmien ja koodin jakaminen ja hyödyntäminen yleistyisi, tarvitaan koulutusta, helppokäyttöisiä palveluja ja infrastruktuureja sekä laaja-alaisempia, tutkimuksen toistettavuutta edistäviä kannustimia.

Koulutus

Turun yliopiston tutkijakoulussa on oma 3 ECTS Basics of Research Data Management (BRDM) väitöskirjatutkijoille ja postdoc -tutkijoille. Olemme kehittäneet ja järjestäneet kurssin vuodesta 2019 yhdessä eri tieteenalojen akateemisten asiantuntijoiden ja tutkimuksen tuen asiantuntijoiden kanssa, vuodesta 2020 yhdessä Åbo Akademin kanssa. Kurssi ei ole lopullinen ratkaisu datanhallinnan haltuun ottamiseen vaan pikemminkin ensiaskel, joka auttaa tunnistamaan mahdollisia puutteita nykyisissä datanhallinnan käytännöissä ja löytämään polkuja parempiin toimintatapoihin (ks. kurssin rakenne ja osaamistavoitteet).

Www-kursseja

  • Data Carpentry: Introductory computational skills needed for data management and analysis in all domains of research.
  • Data Management Expert Guide: This guide is designed by European experts to help social science researchers make their research data Findable, Accessible, Interoperable and Reusable (FAIR).
  • Data Management for Clinical Research: Critical concepts and practical methods to support planning, collection, storage, and dissemination of data in clinical research.
  • DataONE: In collaboration with the National Center for Ecological Synthesis and Analysis, DataONE has developed lessons, best practices, and training programs in data management to support research efficiency, productivity, and transparency.
  • Datatree: A free online course with all you need to know for research data management, along with ways to engage and share data with business, policymakers, media and the wider public.
  • Mantra: A free online course for those who manage digital data as part of their research project.
  • Research Data Management and Sharing: Will provide learners with an introduction to research data management and sharing.

Tutkija! Tule mukaan kehittämään avoimen tieteen palveluja, infraratkaisuja ja kannustimia

Tarvitsemme lisää tutkijoita mukaan kehittämään parempia vastuullisen tieteen palveluja, koulutusta, infrastruktuureja ja kannustimia esimerkiksi Helsingin yliopistossa, Turun yliopistossa sekä kansallisissa ja kansainvälisissä yhteisöissä kuten:

   Tarkista datanhallintasi

  • Millä toimenpiteillä varmistat datan laadun kylmäketjun säilymisen läpi tutkimusprosessin? Esim. tarkistukset; tiedostojen versionhallinta, kansiorakenne ja nimeäminen; käyttöoikeuksien hallinta.
  • Miten dokumentoit datan käsittelyn (valinnat, mittarit, työvaiheet) niin että sinä tai toiset pystyvät verifioimaan ja toistamaan käsittely- ja päättelyprosessin ja tarvittaessa uudelleenkäyttämään dataa? Esim. sähköinen laboratoriopäiväkirja; readme-tiedosto; kontrolloitu sanasto.
  • Oletko sopinut tutkittavien ja projektin muiden tutkijoiden kanssa oikeudesta käyttää kerättyä, tuotettua ja anonymisoitua dataa myös meneillään olevan tutkimuksen jälkeen?
  • Oletko selvittänyt datan omistus- ja käyttöoikeudet ja kirjannut keruutavan, rakenteen, muuttujat ja käyttöoikeudet esim. koodikirjaan, readme-tiedostoon tai muuhun oheis- eli metadataan?
  • Onko data tallennettu tutkimuksen aikana riittävän tietosuojan ja varmuuskopioinnin takaaville turvallisille alustoille ja onko data tutkimuksen jälkeenkin saatavilla luotettavassa ja turvallisessa paikassa?

Lähteet:


Jukka Rantasaari (UTU, ORCID, @laulumieli) toimii kirjaston palvelupäällikkönä Turun yliopistossa ja valmistelee väitöskirjaa Åbo Akademiin tutkimusdatan hallinnasta. Rantasaari on myös mukana kansainvälisissä ja kansallisissa työryhmissä mm. valmistelemassa data-asiantuntijoiden osaamispolkua (RDA) ja avoimen toimintakulttuurin palvelusuosituksia ja linjausta (TSV).