Konkretia ja käytännön ratkaisut valttia datanhallinnan suunnittelussa

Aineistonhallintasuunnitelmissa (data management plan, DMP) eniten ongelmia tutkijoille tuottavat eettiset ja lainsäädännölliset teemat, kuten yksityisyyden suojaan, datan omistajuuteen ja käyttöoikeuksiin liittyvät kysymykset. Tässä blogiartikkelissa aihetta käsitellään konkreettisten suunnitelmien kautta, tavanomaisia kompastuskohtia ja hyviä käytäntöjä esiin nostaen. Eettisiin ja juridisiin kysymyksiin liittyvät DMP:n kohdat kytkeytyvät kiinteästi suunnitelman muihin osiin ja tavoitteeseen tutkimusdatan avaamiseksi tai uudelleen käytettäväksi.

Teksti: Maija Paavolainen, Tuija Korhonen & Liisa Siipilehto (Helsingin yliopiston Datatuki)

Olemme vuosittain pyytäneet Suomen Akatemian rahoituspäätöksen saaneilta Helsingin yliopiston tutkijoilta heidän hakemuksensa liitteenä olevan aineistonhallintasuunnitelman (data management plan, DMP) luettavaksemme. Samalla olemme kertoneet, että suunnitelmia käytetään vain yliopiston Datatuen palvelujen kehittämiseen.

Valitsimme saamastamme 50 suunnitelmasta erityisen tarkastelun kohteeksi yksityisyyden suojaan ja datan omistajuuteen liittyviä kysymyksiä, koska juuri nämä asiat ovat aiempina vuosina tuottaneet ongelmia vastaajille. Eettiset kysymykset, omistus- ja käyttöoikeudet vaikuttavat merkittävästi siihen, miten ja missä dataa voi säilyttää, jakaa ja miten sitä voi avata. Nämä, tähän tarkasteluun valitut suunnitelman kohdat kytkeytyvät kiinteästi suunnitelman muihin osiin ja tavoitteeseen tutkimusdatan avaamiseksi tai uudelleen käytettäväksi.

Suunnittelun taso vaihtelee paljon

Vaikka Suomen Akatemia on edellyttänyt aineistonhallintasuunnitelmaa rahoitushaun yhteydessä, sen arvioijat eivät ole antaneet suunnitelmista yksityiskohtaista palautetta tutkijoille. Datan hallinnan käsittelyn taso vaihteli huomattavasti myös näissä Datatuelle lähetetyissä ja Akatemian rahoitusta saaneissa tutkimushankkeissa. Parhaissa suunnitelmissa ei pelkästään viitattu lainsäädäntöön tai poliittisiin linjauksiin, vaan esiteltiin käytännön ratkaisuja. Tällainen konkreettinen suunnitelma helpottaa aidosti hankkeen etenemistä ja tutkimusryhmän työtä aina aineiston keruusta sen arkistointiin tai avaamiseen asti.

Kaikilla tieteenaloilla käsitys siitä, mitä hankkeessa syntyvä tutkimusaineisto on, ei ole vieläkään täysin vakiintunut tai sitä voi osin pitää tulkinnanvaraisena. Toisilla aloilla taas yhteiset käytännöt suhteessa datan keräämiseen, säilyttämiseen ja lainsäädäntöön ovat jo olemassa, ja niihin on helppo viitata. Tulisi kuitenkin olla selvää, että tutkimusaineiston avaaminen on eri asia kuin tutkimustulosten julkaisu alan lehdissä tai kirjasarjoissa, vaikka julkaisuissa tuloksia esitelläänkin aineistoon perustuen. Tutkimusaineiston avaaminen aidosti mahdollistaa sen jatkokäytön ja yhdistelyn muihin aineistoihin tulevassa tutkimuksessa. Se ei ole siis sama asia kuin avoimien julkaisukanavien (Open Access) hyödyntäminen, jota tutkimusrahoittajat myös edellyttävät.

Mitä kysyttiin?

Lainsäädäntöön ja sensitiiviseen dataan liittyvät kysymykset löytyvät Suomen Akatemian antamassa DMP:n ohjeessa osiosta kaksi:

2.  Eettisten periaatteiden ja lainsäädännön noudattaminen
2.1 Mitä juridisia seikkoja liittyy aineiston hallintaan (esim. EU:n yleinen tietosuoja-asetus ja muu aineiston käsittelyyn liittyvä lainsäädäntö)?
2.2 Miten hallinnoit käyttämäsi, tuottamasi ja jakamasi aineiston oikeuksia?

Ensimmäinen haaste tutkijalle on kysyttyjen asioiden tunnistaminen omassa tutkimushankkeessa. Ihmisiin liittyvissä tutkimuksissa on selvää, että eettiset kysymykset ja yksityisyyden suojasta huolehtiminen ovat tärkeitä.

Jos taas humanistinen tai juridinen tutkimushanke perustuu lähinnä aiempaan kirjallisuuteen ja arkistoaineistoihin, voi olla vaikea mieltää tai motivoitua perusteellisesti ajattelemaan, mikä voisi olla ongelmallista lainsäädännön näkökulmasta. Arkistojen käyttöoikeuteen ja kirjallisuuden tekijänoikeuteen liittyvät kysymykset eivät ole olleet aiemminkaan merkityksettömiä, vaan ovat osa hyvää tieteellistä käytäntöä. Nämä kysymykset on kuitenkin syytä tunnistaa ja suunnitella tutkimusta aloittaessa, koska niillä voi olla vaikutusta tutkimukseen ja myös aineistojen avaamiseen tutkimuksen päättyessä. Hyvin harvoin on niin, että tutkimukseen liittyviä eettisiä tai tekijänoikeudellisia kysymyksiä ei olisi lainkaan ja jos olisikin, asian voi lyhyesti suunnitelmassa perustella ja avata.

Hyvin harvoin on niin, että tutkimukseen liittyviä eettisiä tai tekijänoikeudellisia kysymyksiä ei olisi lainkaan ja jos olisikin, asian voi lyhyesti suunnitelmassa perustella ja avata.

Mitä vastattiin?

Kaikilla tieteenaloilla vuonna 2020 Akatemian rahoitusta saaneiden hankkeiden suunnitelmissa kuvailtiin suhteellisen hyvin tutkimuksessa kerättävien henkilötietojen ja yksityisyydensuojaan liittyvät toimet. Toimenpiteistä useimmiten mainittiin haastatteluvastausten ja näytteiden pseudonymisointi tai anonymisointi joko henkilöiden uudelleennimeämisen avulla tai henkilötietojen poistamisella. Usein mainittiin myös, että tutkimukseen osallistuvilta pyydetään tietoon perustuva suostumus (informed consent) vastausten tai näytteiden käyttöön. Näiden suhteellisen yleisten käytäntöjen tunnistaminen luo pohjan hyvälle aineiston hallinnalle.

Sensitiivisen datan käsittely asianmukaisilla, Helsingin yliopiston tähän tarkoitukseen toteutetuilla suojatuilla palvelimilla oli tuotu hyvin esiin suunnitelmissa. Myös koodilistojen ja suostumuspapereiden säilyttäminen lukituissa kaapeissa mainittiin.

Vastauksena kysymykseen 2.2. kirjoitettiin hyvin usein, että datan omistajuudesta tulee ylipäätään sopia. Sopimuksiin viitattiin joko hyvin yleisellä tasolla hankkeen johtaja sopii tai tarkemmin niin, että oli tunnistettu ryhmän jäsenten ja mahdollisten kansallisten tai kansainvälisten kumppaneiden osuus sopijapuolina. Oman ongelmansa muodostaa tutkimusaineiston omistajuus yliopistoissa. Monissa suunnitelmissa Helsingin yliopisto mainitaan oikeuksien haltijana. Oikeuksiensiirtosopimuksella pyritään suojelemaan muun muassa hankkeen jatkuvuutta esimerkiksi tapauksessa, jossa tutkija lähtee pois kesken projektin.

Hyvissä suunnitelmissa tulivat esiin myös tieteenalojen erityispiirteet, kuten biopankkilaki, koe-eläinten oikeudet tai miten toimitaan kenttätöissä suhteessa maanomistajiin. Tämä oman alan kysymysten tunteminen ja standardien esiin nostaminen on juuri sitä konkreettista ymmärrystä, joka kertoo rahoittajille ja taustayhteisölle asiantuntemuksesta ja hyvistä käytännöistä, mutta samalla tekee suunnitelmasta hankkeen työtä ohjaavan ja helpottavan työkalun, jollaiseksi se on tarkoitettu.

Oman alan kysymysten tunteminen ja standardien esiin nostaminen on juuri sitä konkreettista ymmärrystä, joka kertoo rahoittajille ja taustayhteisölle asiantuntemuksesta ja hyvistä käytännöistä, mutta samalla tekee suunnitelmasta hankkeen työtä ohjaavan ja helpottavan työkalun, jollaiseksi se on tarkoitettu.

Aineistot auki?

Oman tieteenalan data-arkiston maininta tulevana tutkimusdatan säilytyspaikkana ja arkiston käytäntöihin viittaaminen suunnitelmassa esimerkiksi henkilötietojen anonymisointiin tai käyttöoikeuslisensseihin liittyen kertoo siitä, että tutkimusaineiston hallinnan hyvät käytännöt ovat hallussa.

Oman lukunsa muodostivat kuitenkin ne muutamat suunnitelmat, jossa aineiston avaamista ei edes harkittu. Aineistojen sanottiin olevan joko ryhmän sisäisessä käytössä tai kollegat saisivat ne käyttöönsä pyydettäessä. Näin voi toki tehdä, mutta aineiston keruussa tehty työ jää silloin kertaluontoiseksi ponnistukseksi eikä suunnittelun takana oleva ajatus jatkokäytöstä edisty lainkaan. Aineistoista, joita ei voi avata sensitiivisyyden vuoksi, voi lähes aina julkaista metadatan, jolloin tieto tutkimusaineiston olemassaolosta voi synnyttää esimerkiksi hedelmällistä yhteistyötä tutkijoiden kesken.

Miten toimintaamme kehitetään tämän selvityksen perusteella?

Tutkimusdatan ohjeistuksen, koulutuksen ja neuvonnan vaikutusta tutkijoiden aineistohallintasuunnitelmien tasoon on vaikea todentaa. Yleisesti näyttää kuitenkin siltä, että suunnitelmat ovat vuosi vuodelta parantuneet. Tutkijoiden tietoisuus ja ymmärrys ovat selvästi menossa hyvään suuntaan ja joissakin projekteissa kaikki asiat ovat datan osalta jo aivan kunnossa – ainakin suunnitelmat on kirjoitettu vakuuttavasti. On havaittavissa, että mitä paremmin ja mitä selkeämpiä ohjeita on saatavissa ja mitä parempia palvelujaesimerkiksi tallennuspalveluja yliopistolla on kehitetty, sitä helpompi niistä on kirjoittaa ja kuvata suunnitelmassa.

On havaittavissa, että mitä paremmin ja mitä selkeämpiä ohjeita on saatavissa ja mitä parempia palvelujaesimerkiksi tallennuspalveluja yliopistolla on kehitetty, sitä helpompi niistä on kirjoittaa ja kuvata suunnitelmassa.

Yliopistoon hankittu ja asennettu REDCap-ohjelmisto tulee täyttämään monen odotukset sensitiivisen datan käsittelyyn, erityisesti haastatteluaineiston ja kyselyaineistojen keräämiseen. Aineistonhallintasuunnitelmaan voi nyt kirjoittaa vakuuttavasti, että henkilötietoja sisältävä data kerätään tietoturvallisesti. Tarve REDCapohjelmistoon on tullut tutkijoilta ja sen tarve on voitu todentaa jatkuvien kysymysten tulvana ja huolena muun muassa suunnitelmien kirjoittamisen yhteydessä.

Yliopiston Datatuki aikoo jatkossakin tiivistää hyvää yhteistyöverkostoaan ja täydentää ohjeistustaan sen pohjalta, mistä tutkijat esittävät eniten kysymyksiä suunnitelmia kirjoittaessaan. Suunnitelmien puutteita yhdessä tutkijan kanssa pohtiessamme saamme arvokasta tietoa siitä, mitkä asiat koetaan vaikeaksi ja millä tieteenaloilla kaivataan mitäkin palvelua datanhallinnan helpottamiseksi.

Käytäntöjen muutokset jatkossa

Suomen Akatemia on muuttanut kesästä 2020 lähtien käytäntöään aineistonhallintasuunnitelman osalta rahoitushaussa. Hakemuksen yhteydessä kuvaillaan vain lyhyesti merkityksellisimmät seikat tutkimusdatan käsittelyyn liittyen. Rahoituspäätöksen saaneiden projektien tulee toimittaa tarkempi ja suorituspaikassa hyväksytty aineistonhallintasuunnitelma jo kahdeksan viikon kuluessa myönnöstä, ja se on edellytys projektin aloittamiselle.

Muutoksen tarkoituksena on motivoida tutkijaa suunnittelemaan aineistonhallinta huolellisesti ja toteuttamiskelpoisesti. Samalla tunnistetaan datan keräämiseen ja käsittelyyn liittyvät riskit. Tärkeänä tavoitteena on arvokkaan tutkimusdatan säilyminen ja avaaminen, johon vain huolellisesti ja ajoissa tehdyt toimet voivat johtaa.


Maija Paavolainen (TUHAT, ORCID, @mppaavol) työskentelee informaatikkona Helsingin yliopiston kirjastossa ja Datatuessa. Hän toimii kirjaston tieteenalayhdyshenkilönä digitaalisissa ihmistieteidessä.

Tuija Korhonen (TUHAT, ORCID, @TuijaKorhonen) työskentelee tietoasiantuntijana Helsingin yliopiston kirjastossa ja Datatuessa. Hän toimii kirjaston tieteenalayhdyshenkilönä englantilaisessa filologiassa, yleisessä kielitieteessä, kääntämisessä ja tulkkauksessa.

Liisa Siipilehto (TUHAT, ORCID, @siipiliisa) työskentelee tietoasiantuntijana Helsingin yliopiston kirjastossa ja Datatuessa. Hän toimii Matri-yhteistyön koordinoijana ja Hankehaavi-palvelun yhteyshenkilönä.