Aineistonhallintasuunnitelmia kartoittamalla parempia palveluita – tarkastelussa kesän 2023 DMP:t

Helsingin yliopiston Datatuessa kesä on perinteisesti aineistonhallintasuunnitelmien (DMP) kommentoinnin kulta-aikaa. Viime kesänä kirjaston datatiimin uudet työntekijät pääsivät tekemään DMP-kartoituksen. Kartoituksen perusteella yleisimpiä datatyyppejä olivat teksti- ja taulukkomuotoinen data ja datan säilytyspaikoista eniten mainintoja saivat tieteenalakohtaiset tietokannat. Kartoitus auttaa kehittämään Datatuen palveluita.

Teksti: Niina Nurmi, Timo Lahtinen ja Matilda Mela (Helsingin yliopiston Datatuki)

Aineistonhallintasuunnitelmien (DMP, data management plan) kommentointi on keskeinen osa Helsingin yliopiston Datatuen toimintaa. Kuluneen kesän aikana Datatuki kommentoi aineistonhallintasuunnitelmia, jotka lähetettiin osana Suomen Akatemian rahoitushakua vuodelle 2023. Samaan aikaan Helsingin yliopiston Datatuki on mukana isossa projektissa (TPAT-projekti), jossa kehitetään tutkimusdatan pitkäaikaistallennuksen ratkaisu.

Datatuelle aineistonhallintasuunnitelmat lähetetään luottamuksellisina, mutta niitä voidaan kuitenkin hyödyntää Datatuen palveluiden kehittämisessä. Esimerkiksi vuonna 2021 Datatuki on analysoinut aineistonhallintasuunnitelmia eettisten ja juridisten kysymyksien näkökulmasta. Aineistonhallintasuunnitelmien rakenteisuuden lisääminen voisi osaltaan edesauttaa tietojen hyödyntämistä.

Tässä blogitekstissä kerromme tekemästämme kartoituksesta keskeisine löydöksineen.

Taustaksi: DMP datakitkan poistajana

Datakitkaa, eli datan liikkumista, avaamista ja hyödyntämistä hankaloittavia asioita on paljon, ja hyvällä suunnittelulla on iso merkitys datakitkan poistossa. Samoin on myös sujuvilla prosesseilla, laajasti käytetyillä standardeilla ja hyvin toimivilla palveluilla.

Parhaimmillaan aineistonhallintasuunnitelma on tutkijan työn tärkeä väline, joka herättelee ajattelemaan tutkimusprojektissa tehtävää datanhallintaa eri tutkimusprosessin vaiheissa. Suunnitteluvaiheessa korostuvat eritoten riskien hallinta, vastuullisuus ja tarvittavien resurssien ennakointi. Toisaalta aineistonhallintasuunnitelmaan panostaminen edistää pidemmällä aikavälillä tutkimusdatan käytettävyyttä ja luotettavuutta myös silloin, kun varsinainen tutkimusprojekti on jo tullut päätökseen.

Aineistonhallintasuunnitelman hyödyllisyys on myös sen päivitettävyydessä: monet datanhallintaan vaikuttavat elementit, kuten tutkimusdatan koko, eivät ole vielä tarkassa tiedossa silloin, kun aineistonhallintasuunnitelmaa ollaan tekemässä osana tutkimussuunnitelmaa. Aineistonhallintasuunnitelman päivittäminen voi myös toimia tutkimusryhmän kommunikaation välineenä, eritoten jos sen osana on jaettu vastuita eri ryhmän jäsenille.

Tutkijoiden ohella aineistonhallintasuunnitelmat ovat hyödyllisiä myös datanhallinnan tukipalveluita tarjoaville asiantuntijoille. Aineistonhallintasuunnitelman tiedot karkeistettunakin auttavat tunnistamaan tutkijoiden tarvitsemia palveluita tai ratkaisuja (artikkeliteksti englanniksi). Aineistonhallintasuunnitelmien tietojen pohjalta voidaan myös kehittää erilaisia datanhallinnan koulutuksia vastaamaan paremmin tutkijoiden tarpeita ja näin vähentää datakitkaa.

Kuvassa henkilö joka harrastaa curlingia. Curling kuvastaa tässä yhteydessä datan liikkumista mahdollisimman kitkattomasti. Datan tavoitteena on olla avointa ja yhteentoimivaa ja saavutettavaa. Tähän tavoitteeseen päästään vähentämällä datakitkaa. Kuvassa harjat kuvastavat eri tapoja vähentää datakitkaa, mukaan lukien aineistonhallintasuunnitelmat, datanhallinnan palvelut, datatuki, datan säilyttäminen.
Datan liikkumista, avaamista ja hyödyntämistä haittaavaa datakitkaa voidaan vähentää eri tavoin, kuten panostamalla aineistonhallinnan suunnitteluun.

Kartoituksen toteutuksesta

Kävimme läpi yhteensä 90 aineistonhallintasuunnitelmaa jakamalla ne kolmen tiimiläisen kesken. Etsimme jokaisesta aineistonhallintasuunnitelmasta tietoja koskien datatyyppejä, tiedostoformaatteja ja arvioita datan koosta. Lisäksi etsimme mainintoja datan projektinjälkeisestä säilytyspaikasta. Jaoimme aineistonhallintasuunnitelmat karkeasti tieteenaloittain hyödyntämällä Suomen Akatemian rahoitushaussa käytettäviä toimikuntia. Toimikunnittain aineistonhallintasuunnitelmat jakautuivat seuraavasti: biotieteiden, terveyden ja ympäristön tutkimus 38 kpl, luonnontieteiden ja tekniikan tutkimus 20 kpl, ja kulttuurin ja yhteiskunnan tutkimus 32 kpl.

Datatyyppien lajittelussa on hankalaa löytää yhtä oikeaa tapaa. Keräsimme aineistonhallintasuunnitelmista mainintoja yleisimmin esiintyvistä datatyypeistä, mukaan lukien

  • haastattelut
  • kyselyt
  • videot
  • äänitykset
  • tekstit
  • kuvat
  • taulukot
  • sekvenssoinnit
  • koodit
  • mallinnukset.

Lisäksi poimimme omana kohtanaan tiedot dataformaateista, eli tiedostomuodoista, aina kun sellaisia oli mainittu.

Aineistonhallintasuunnitelmissa mainitut datan kokoarviot yhdistimme seitsemään kokoluokkaan ja lisäsimme yhden luokan puuttuville kokoarvioille. Aineistonhallintasuunnitelmissa esiintyvistä kokoarviosta ei aina selviä, onko kyseessä data-aineiston lopullinen koko vai sisältyykö kokoarvioon myös sellaista analyysivaiheen dataa, joka ei projektin valmistuttua vaikuta säilytystilan tarpeeseen. Osa kartoittamistamme aineistonhallintasuunnitelmista sisälsi tarkemman arvion datan koon jakaantumisesta projektin aktiivi- ja loppuvaiheissa.

Etsimme tutkimusdatan projektinjälkeisen säilytyspaikan tietoja aineistonhallintasuunnitelmasta (kohdasta 5. Aineiston avaaminen, julkaiseminen ja arkistointi tutkimushankkeen päätyttyä). Data-arkistojen ja tietokantojen lisäksi etsimme erityisesti mainintoja datan pitkäaikaissäilytyksestä. Sen turvin tutkimusdatan digitaalinen informaatio säilytetään käytettävänä ja ymmärrettävänä muutamasta kymmenestä vuodesta yltäen jopa sataan vuoteen. Helsingin yliopisto tarjoaa tutkimusaineistojen pitkäaikaissäilytyspalvelua (PAS). Otimme laskuihimme mukaan kaikki PAS-maininnat huolimatta siitä, oliko maininta osana alkuperäistä aineistonhallintasuunnitelmaa tai esiintyikö se osana Datatuen antamia kommentteja.

Nostot löydöksistämme

Selvityksemme tulosten perusteella yleisimmin mainittuja datatyyppejä olivat kuvat, taulukot ja tekstit (Kuvio 1). Tekstitiedostojen yleisyyden saattaa osaltaan selittää monien datatyyppien, kuten haastattelujen ja genomisekvenssien muunto tekstimuotoon. Toimikuntakohtaisen jaottelun perusteella haastattelu- ja kyselydataa löytyi lähinnä kulttuurin ja yhteiskuntatieteen tutkimuksen aineistonhallintasuunnitelmissa, siinä missä teksti-, taulukko- ja kuvatiedostot olivat yleisiä kaikissa toimikunnissa. Datan kokoarvioiden vertailussa kävi ilmi, että yleisimmin mainittu data-aineiston koko osui 1–5 teratavun (1 teratavu = 1000 gigatavua) kaatoluokkaan. Toimialakohtaisessa vertailussa mainintoja isosta datasta esiintyi eritoten biotieteiden, terveyden ja ympäristön sekä luonnontieteiden ja tekniikan tutkimuksen aineistonhallintasuunnitelmista.

Kuvio 1. Datatyyppien mainintojen lukumäärä Suomen Akatemian v. 2023 rahoitushaun aineistonhallintasuunnitelmissa.

Tieteenalakohtaiset tietokannat nousivat yleisimmin mainituiksi datan säilytyspaikoiksi (Kuvio 2). Näin ollen monella projektilla on jo suunnitteluvaiheessa tiedossa sopiva alakohtainen paikka datan projektinjälkeiseen säilytykseen. Usein mainittujen säilytyspaikkojen kärjestä löytyivät myös monitieteinen data-arkisto Zenodo sekä koodien versionhallintaan tarkoitettu alusta GitHub.

Kuvio 2. Säilytyspaikkojen mainintojen lukumäärä Suomen Akatemian v. 2023 rahoitushaun aineistonhallintasuunnitelmissa.

Tieteenalan ohella projektinjälkeisen säilytyspaikan valintaan vaikuttaa datan koko. Pienemmille aineistolle on yleensä helpompaa löytää säilytyspaikka verrattuna useiden teratavujen kokoiseen aineistoon. Toisaalta tämän tyyppistä datakitkaa voidaan vähentää valmistautumalla mahdollisiin lisäkustannuksiin hyvissä ajoin jo suunnitteluvaiheessa, eli arvioimalla datan kuratoinnin ja säilyttämisen kuluja aineistonhallintasuunnitelman viimeisessä osiossa.

Tutkimusdatan pitkäaikaissäilyttämisestä löysimme yhteensä 15 mainintaa. Tämä lukema sisälsi myös aineistonhallintasuunnitelmien datatuen lisäämät kommentit PAS-palvelusta. Näin ollen noin 16 prosentissa aineistonhallintasuunnitelmia oli sellaista tutkimusdataa, jonka katsottiin mahdollisesti sopivan PAS-säilytykseen.

Synteesi

Keräämämme tiedot auttavat meitä tunnistamaan ja kuvailemaan sellaista tutkimusdataa, jolle ei löydy selkeää projektinjälkeistä säilytyspaikkaa. Helsingin yliopistossa on tunnistettu tarve organisaatiokohtaiselle tallennusratkaisulle. TPAT-projektissa tuotettu pitkäaikaistallennuksen ratkaisu on näin ollen omiaan täydentämään säilytyspaikkojen valikoimaa.

Tulevaisuudessa tavoitteena on myös koota HY:n pitkäaikaistallennuksessa olevien sekä kaikkien muualle tallennettujen HY:n tutkimusaineistojen metatiedot yhteen paikkaan. Aineistonhallintasuunnitelmista saamiemme tietojen avulla pystymme paikantamaan keskeisiä säilytyspaikkoja, joista voimme kerätä Helsingin yliopistossa tuotetun tutkimusdatan metatiedot organisaatiokohtaisen metadatakatalogin valmistuessa.

Timo Lahtinen, Matilda Mela ja Niina Nurmi työskentelevät TPAT-projektissa, jossa rakennetaan Helsingin yliopiston tutkimusdatan pitkäaikaistallennusratkaisua. Kuva: Jussi Männistö

Data-arkistojen ja tietokantojen ohella on huomioitava myös pitkään säilytettävien, kansallisesti arvokkaiden tutkimusaineistojen tunnistaminen ja tarpeet. Pitkäaikaissäilytyksen PAS-palveluun sopivien aineistojen tunnistaminen suunnitteluvaiheessa auttaa poistamaan datakitkaa projektinjälkeisessä vaiheessa, sillä pitkäaikaissäilytykseen hyväksyttäviltä aineistoilta vaaditaan tiettyjä kriteereitä, kuten dataformaattien sopivuutta ja dokumentoinnin kattavuutta. Koulutusmateriaalien kohdentamisen ohella yliopiston PAS-palvelun tunnettuuden lisääminen selkiyttää tutkimusdatan elinkaareen liittyviä datanhallinnan palveluita entisestään ja toisaalta auttaa tunnistamaan myös puuttuvia palveluita.

Kesäisen kokemuksemme perusteella aineistonhallintasuunnitelmien läpikäynti osoittautui jälleen hyödylliseksi tavaksi perehtyä tutkijoiden monenlaisiin datanhallinnan kysymyksiin ja haasteisiin. Lisääntyneen ymmärryksen avulla voimme kehittää opastusta, koulutusta, prosesseja ja palveluja, jotta aineistojen monipuolista hyödyntämistä haittaava datakitka vähenisi.

Kootut vinkit DMP:n kirjoittajille

Lopuksi muutama kartoituksemme pohjalta koottu vinkki aineistonhallintasuunnitelmien kirjoittajille:

  • Tiedostomuodot on hyvä listata datatyyppien ohella. Taulukkona nämä tiedot saa kätevästi listattua rinnakkain. Listattuja tiedostomuotoja kannattaa miettiä aineistonhallintasuunnitelman osiota 5 (Aineiston avaaminen, julkaiseminen ja arkistointi tutkimushankkeen päätyttyä) silmällä pitäen; jos säilytyspaikka on jo tiedossa, ovatko tiedostot sellaisessa muodossa, että säilytyspaikka ottaa ne vastaan, vai pitääkö tiedostot muuttaa johonkin toiseen muotoon säilyvyyden ja uudelleenkäytettävyyden varmistamiseksi.
  • Datan kokoa voi arvioida erikseen projektin aikaiselle ja projektin jälkeiselle vaiheelle. Erittely on hyödyllistä eritoten silloin, kun projektin jälkeen avattavan datan koko tulee eroamaan projektin aktiivivaiheesta. Tarkempi kokoarvio auttaa hahmottamaan aktiivisen levytilan tarvetta projektin aikana verrattuna projektin jälkeiseen säilyttämiseen.
  • Säilytysajan pituudesta kannattaa antaa arvio projektin jälkeisen säilytyspaikan yhteydessä aina kun se on mahdollista. Pitkäaikaissäilytyksestä puhuttaessa ei ole aina selkeää, tarkoitetaanko sillä 10 vuoden tai yli 25 vuoden säilytysaikaa. Suomen Akatemian ohjeistuksessa (osio 5.2 Missä pitkällä aikavälillä arvokas data säilytetään ja kuinka pitkään?) on esimerkkejä säilytysaikojen pituudesta eri tarkoituksissa. Säilytysajan kirjaaminen auttaa sopivimman säilytyspaikan valinnassa.