Esittelyssä Mildred: Työkaluja tutkijoiden datanhallintaan

“Helsingin yliopisto tarjoaa tutkijoille ja tutkimusryhmille tutkimusdatainfrastruktuurin, joka käsittää datan hallintaa, käyttöä, löytyvyyttä ja jakamista tukevia työvälineitä, palveluita sekä tallennus-, laskenta- ja käsittelykapasiteettia. Datainfrastruktuuri rakennetaan ja sitä kehitetään yhteistyössä kansallisten ja kansainvälisten toimijoiden kanssa, ottaen huomioon myös näiden tarjoamat palvelut ja infrastruktuurit.”

Lainaus on Helsingin yliopiston tutkimusdatapolitiikasta, joka hyväksyttiin helmikuussa 2015. Vuotta myöhemmin käynnistyi Mildred-hanke, joka toteuttaa yliopiston linjausta käytännössä. Mildredissä siis rakennetaan työkaluja, joilla Helsingin yliopiston tutkijat voivat toteuttaa datanhallintaa parhaalla mahdollisella tavalla.

Mildredin ensimmäinen vaihe päättyy vuodenvaihteessa, ja on hyvä luoda silmäys siihen, mitä Mildred-hankkeen viidessä osaprojektissa on puolentoista vuoden aikana saatu aikaan. Osaprojektien laajemmat englanninkieliset katsaukset julkaistiin viime viikolla Mildred-blogissa. Tässä esittelemme tekstien lyhennelmät.

Mildred 1: Datatukea yhdeltä luukulta

Mildred 1 -osaprojektin tavoitteena on tuoda datapalvelut helposti tutkijoiden saataville Think Open -sivustolle. Tämä toteutuu kahdella tapaa: kokoamalla olemassa olevat datapalvelut tutkijoiden saataville yhden palvelukanavan kautta ja suunnittelemalla palveluiden itsepalvelutoiminnot.

Mildred 1 -projektin omistaja Eeva Nyrövaara ja projektipäällikkö Aija Kaitera. Kuvat: Jussi Männistö.

Palveluidea on suunnilleen sama kuin Book Navigatorissa: useiden palveluntarjoajien palvelut kootaan yhden käyttöliittymän alle. Palveluiden yhteenkokoamiselle on suuri tarve, sillä tutkijat eivät tiedä yliopiston tarjoamista tutkimusdatapalveluista.

“Tarkoitus on koota datan tallentamiseen ja julkaisemiseen liittyviä palveluja yhteen paikkaan, jotta tutkijan olisi helpompi löytää ne”, Mildred 1 -projektipäällikkö Aija Kaitera kiteyttää.

Helsingin yliopiston eri toimijoiden tarjoamat datapalvelut on kuvattu ja luetteloitu kesän aikana, ja julkaisukanavan toteutus painottuu syksyyn. Myös tutkijoilla on ollut mahdollisuus osallistua julkaisukanavan pilotointiin. Viiden yliopisto-organisaation yhteistyönä toteutettu Datatuki toimii jo tällä hetkellä.

Tulevaisuudessa palvelukanavan kautta voi hankkia myös ulkopuolisten palveluntarjoajien, kuten Tieteen tietotekniikan keskuksen (CSC), palveluja. Jatkossa on myös mahdollista, että palvelukanavaan tulee automatisoituja itsepalvelutoimintoja (mm. maksamiseen tai levytilan hankkimiseen) ja erilaisia personointimahdollisuuksia (esim. ostoskori, suosittelut tieteenalan perusteella).

“Niin pitkälle ei tänä vuonna päästä, mutta nämä toisivat kivaa lisäarvoa tutkijoille. Käyttäjän kirjautuessa kuitenkin tiedämme, missä yksikössä he toimivat, ja olisi mahdollista saada vaikka minkälaista informaatiota”, Kaitera sanoo.

(Read more on Mildred 1 here.)

Mildred 2: Datakokkien jääkaappi

Olennainen osa Mildred-hanketta on teknisen infrastruktuurin rakentaminen datapalveluille. Tätä työtä tehdään Tietotekniikkakeskuksen johdolla osaprojekteissa 2 ja 4. Mildred 2:ssa rakennetaan tutkimusdatan tallennuspalvelu (data repository service), joka auttaa tutkijoita tutkimusdatan hallinnassa, jakamisessa ja säilyttämisessä.

Ville Tenhunen ja Minna Harjuniemi.

Tallennuspalvelu on jaettu kahteen osaan, EUDATin työkalujen käyttöönottoon ja oman tallennuspalvelun (repository) rakentamiseen. EUDAT-työkalut on tarkoitettu tutkimusprosessin aikaiseen tallentamiseen, jakamiseen ja yhteistyöskentelyyn sekä valmiiden datasettien julkaisemiseen ja kuvailuun. Oman tallennuspalvelun tarkoituksena on tarjota työkaluja niille tutkijoille, joiden dataa ei syystä tai toisesta voi laittaa EUDAT:n kaltaiseen pilvipalveluun.

Data ja metadata kuuluvat kiinteästi yhteen eikä niitä voi varsinkaan datan hallintaan ja elinkaareen liittyvissä asioissa irrottaa toisistaan. Mildred 2 painottuu kuitenkin ennen kaikkea dataan.

“Mildred kolmosessa tulee [metadataan perustuvaa] data story tellingiä, joka on kuuminta hottia tällä hetkellä. Kakkonen tuottaa vain raaka-aineen saataville – se on enemmän vuorovaikutusta tutkijan ja tutkimusprosessin kanssa. Varmistamme, että se data, josta kertomus tehdään, on saatavilla”, Mildred 2 -projektipäällikkö Ville Tenhunen sanoo.

“Jos ruoanlaittoon vertaa, annamme keittiön ja ruoka-ainekset. Jonkun asia on sitten tehdä reseptin mukaan se herkullinen ruoka”, Mildred 2 -projektin omistaja Minna Harjuniemi sanoo.

“Tai olemme vähän kuin jääkaappi, jonne tyypit käyvät laittamassa porkkanansa. Sitten kokki tulee, ja duunaa niistä jotain. Me toimitetaan vain se jääkaappi, mutta jääkaappejakin on aika monella tavalla erilaisia”, Tenhunen sanoo.

(Read more on Mildred 2 here.)

Mildred 3: Metadatan avulla data esiin

Kun rakennetaan järjestelmää, joka mahdollistaa tutkimusdatan hallinnan, jakamisen ja säilyttämisen, pelkkä tutkimusdata ei riitä. Tarvitaan myös metadataa. Vasta metadata tekee tutkimusdatasta ymmärrettävää, löydettävää ja käyttökelpoista.

Mildred 3 -projektipäällikkö Pauli Assinen ja projektin omistaja Pälvi Kaiponen istuttamassa Mildred-basilikaa.

Mildredin osaprojektissa 3 on kyse juuri metadatasta. Tavoitteena on, että Helsingin yliopiston tutkijoiden julkaisema tutkimusdata olisi helposti löydettävissä ja monipuolisesti hyödynnettävissä. Osaprojektissa toteutettava datan julkaisupalvelu pyrkii tekemään dataa julkaisevan tutkijan työstä mahdollisimman sujuvaa ja houkuttelevaa.

“Jos haluat julkaista datasi, olisi olemassa paikka, jossa voit sen tehdä. Siellä olisi ohjeistus koskien datan säilytyspaikkaa, metadataa ja lisenssiasioita. Kun esivaatimukset on täytetty, seuraa työnkulku, jossa voi lisätä tekstejä ja visualisointeja. Ja datasetille tehdään oma sivu”, Mildred 3 -projektipäällikkö Pauli Assinen kuvailee.

Tällä hetkellä Mildred 3:ssa ollaan siirtymässä tutkijalle näkyvään vaiheeseen. ThinkOpen-sivulla pilotoidaan datatietojen haku- ja julkaisupalvelun käyttöliittymää (ks. Mildred-pilotit). Lopullinen versio valmistuu loppuvuodesta.

Helsingin yliopiston tutkijoiden varsinainen data voi sijaita jatkossakin eri paikoissa. Olennaista on kerätä tietoa siitä – siis metadataa – yhteen paikkaan Think Open -sivustolle. Osaprojektiin kuuluu tutkimusdataa koskevan tiedon haravointi eri lähteistä. Tämä toteutetaan ATTX-projektin työkaluilla.

“ATTX:n avulla tehdään sellainen haravointikone, jossa haravoidaan kolmesta tietolähteestä (Etsin, Zenodo, B2Share/EUDAT). Tällä luodaan pohja. Tämän jälkeen on helppo lisätä mikä tahansa muu ‘data repository’, jolla on toimiva rajapinta. Kun data on saatu haravoitua ATTX:n sisäiseen tietokantaan, voimme rikastaa sitä esimerkiksi OpenAIREn palveluja hyödyntämällä”, Pauli Assinen sanoo.

Metadata on datan käytettävyyden ydinasioita, mutta siihen liittyy myös paljon kysymyksiä. Kuka datan kuvailee (tutkija vai kirjasto)? Miten paljon kuvailua voi automatisoida?

“Tässä tasapainoillaan sen kanssa että mitä voidaan olettaa tutkijan tallentavan ja mitä repositoryn hallinnoijat tarvitsevat, jotta he voivat hoitaa hommansa. Julkaisupuolella kirjasto vastaa asiasanoituksesta, pitäisikö se tehdä myös datan puolella?” Pauli Assinen kysyy.

(Read more on Mildred 3 here.)

Mildred 4: Tallennustilaa big data -tutkijoille – ja turvaa kaikille

Jos Mildred-osaprojekti 2 liittyi ennen kaikkea datan tallentamiseen, jakamiseen ja hallinnoimiseen, osaprojekti 4 liittyy lähinnä tallennuskapasiteettiin ja varmuuskopiointiin (data storage and backup).

Ville Tenhunen ja Minna Harjuniemi.

Mildred 4:ssä varmistetaan, että tutkijat voivat saada joustavasti lisää tallennuskapasiteettia ja säilyttää tutkimusdatan mahdollisissa ongelmatilanteissa. Kapasiteettipalveluista ja datan varmuuskopioinnista hyötyvät kaikki tallennuspalveluita käyttävät, mutta erityisesti ne tutkijat, jotka pyörittävät suuria datamassoja.

“Teemme ‘data storagea’, joka sopii big data -tyypeille. Pienemmät aineistot yritetään saada hallittua Mildred 2:n palveluilla”, Mildred 4 -projektipäällikkö Ville Tenhunen kertoo.

“Mildred 4:n ‘storage’ liittyy ehkä enemmän tutkimuksenaikaiseen työhön. Kun joku datasetti on valmis julkaistavaksi, kyse on enemmän kakkosesta ja kolmosesta. Nelonen liittyy selvemmin siihen työstämisvaiheeseen”, Mildred 4 -projektin omistaja Minna Harjuniemi sanoo.

Dataintensiivisille tutkimushankkeille tarkoitetussa storagessa pilotoidaan Cephiä ja GlusterFS:ää. Hankinnat on tarkoitus tehdä syksyllä. Datan varmuuskopiointipalvelu on jo valmis hankittavaksi.

“Varmuuskopiointiin ei mitään käyttäjäpilotointia tarvita, koska se on niin vakiintunutta peruspalvelua”, Ville Tenhunen sanoo.

(Read more on Mildred 4 here.)

Mildred 5: Alussa on aineistonhallintasuunnitelma

Koko Mildred-projektin lähtökohtana on tutkimusprosessiin liittyvän datanhallinnan laadun parantaminen. Hyvää datanhallintaa vaatii niin Suomen Akatemia kuin EU, ja laadukas aineistonhallintasuunnitelma (data management plan, DMP) on se perusta, jonka päälle kaikki Mildred-palvelut rakentuvat. Ja toisinpäin, laadukkaat Mildred-palvelut antavat tutkijoille välineet toteuttaa aineistonhallintasuunnitelmaa käytännössä.

Mari Elisa Kuusniemi eli tutummin MEK.

Mildredin osaprojekti 5 keskittyy aineistonhallinnan suunnitteluun. Aineistonhallinnan suunnitteluun tarkoitettu työkalu DMPTuuli on se palanen, joka kytkee kaikki Mildred-palvelut yhteen.

“DMPTuuli markkinoi muita Mildredin palveluita, ja DMPTuuliin tulee linkki kaikkiin näihin palveluihin”, Mildred 5 -projektipäällikkö Mari Elisa Kuusniemi eli MEK sanoo.

DMPTuuli on ollut käytössä viime vuodesta lähtien. Tällä hetkellä Mildredin osaprojekti 5:ssä laaditaan tieteenalakohtaista ohjeistusta DMPTuulin käyttöön. Ohjeistusta tehdään yhteistyössä tutkijoiden kanssa.

DMPTuulin toteuttaminen ja käyttöönotto on tapahtunut yhteistyössä Suomen Akatemian kanssa. Vuosi sitten Helsingin yliopistosta lähti Akatemialle 1000 hakemusta, joista 800 oli käyttänyt DMPTuulia. Akatemian rahoituskierros teki aineistonhallintaa tunnetuksi tutkijoiden keskuudessa. Samalla se antoi DMPTuulin ylläpitäjille informaatiota palvelun kehittämiseen (mm. toive kirjautua palveluun HY-tunnuksilla ja esimerkillisten suunnitelmien julkaiseminen).

“Itse työkalu on helppokäyttöinen, siinä ei ole suuria kehitystarpeita. Haasteena on enemmän sisältö. Aineistonhallinta on kuitenkin isolle osalle tutkijoista uusi asia. Kyse on siitä, miten aineisto hallitaan, miten se kerätään, kuvataan ja järjestetään jo tutkimuksen aikana mahdollisimman fiksusti. Ja miten se parhaiten julkaistaan, kun tutkimustuloksia saadaan. Ja miten se säilytetään. Tähän liittyy kaikenlaisia prosesseja ja sopimuksia. Asia ei siis ole helppo, mutta työkalu on”, MEK sanoo.

Aineistonhallintasuunnittelun korostumisen taustalla on tutkimuskulttuurin muutosprosessi, jossa hyvä aineistonhallinta on yhä keskeisemmässä osassa.

Pälvi Kaiponen.

“On tärkeätä lisätä tutkijoiden ymmärrystä siitä, mitä aineistonhallintasuunnitelmilla tavoitellaan. Kyse on siitä, että suunnitelmaa ei tehdä vain Akatemiaa varten, vaan tutkijaa itseään varten, että hän voisi paremmin hallinnoida dataansa”, Mildred 5 -projektin omistaja Pälvi Kaiponen sanoo.

DMPTuuli soveltuu aineistosuunnitelman laadinnan ohella myös opetuskäyttöön. Tavoitteena on, että työkalua voitaisiin käyttää opetuksessa jo kanditasolta lähtien. Samalla luotaisiin pohjaa avoimen tieteen kulttuurille, jossa tutkimusaineiston hallinta on avainasioita.

“On ajateltu, että opettajat voisivat ottaa tämän helposti mukaan kurssille, vaikkapa tutkimusmenetelmäkurssille. Hyvät aineistonhallinnan taidot ovat myös tärkeitä perustyöelämätaitoja. On tiedettävä, minne kannattaa kopioida, on tiedettävä varmuuskopioinnin, versionhallinnan ja kuvailun tärkeys. Tällaisia perustaitoja tarvitaan kaikissa akateemisissa ammateissa”, MEK toteaa.

(Read more on Mildred 5 here.)