Missä lääketieteen alan tutkija säilyttää ja julkaisee aineistonsa?

Lääketieteellinen tiedekunta (LTDK) ja Helsingin yliopiston Datatuki teki alkuvuonna 2019 LTDK:n vastuullisille tutkijoille kyselyn, jossa selvitettiin aineistojen säilytysratkaisuja tutkimusprojektin aikana ja aineistojen julkaisupaikkoja projektin jälkeen. Kyselyyn vastasi lähes 50 vastuullista tutkijaa, joista yli puolet oli yliopiston puolelta ja noin neljäsosa sekä HUS:n että yliopiston palveluksessa.

(This post is also available in English.)

Aineiston säilytys projektin aikana

Kyselyssä selvisi se, mikä oli ennaltakin selvää: tutkijat tarvitsevat apua arkaluontoisen aineiston suojaamisessa projektin aikana. Arkaluontoinen ja luottamuksellinen tieto on sellaista, joka voi paljastuessaan aiheuttaa vahinkoa. Tällaisista tiedoista on mahdotonta tehdä kattavaa listausta, mutta näitä ovat esimerkiksi arkaluontoinen henkilötieto, kuten tiedot terveydestä, sairastumisriskeistä, seksuaalisesta suuntautumisesta, etnisestä alkuperästä tai uskonnollisesta vakaumuksesta. Henkilötiedon lisäksi luottamuksellista tietoa voi olla sensitiivinen lajitieto, patentit, maanpuolustukseen liittyvä tieto tai liikesalaisuudet. Tutkijan vastuulla on tunnistaa arkaluontoinen ja luottamuksellinen tieto, joka paljastuessaan olisi haitallista tutkittavalle tai muulle kohteelle.

Arkaluontoisen aineiston suojaaminen vaatii erityistä huomiota; tietoturvallisten tallennusratkaisujen lisäksi 85% tutkijoista kertoi arkaluontoisen aineiston olevan suojattu: aineisto oli joko kryptattu, pseudonymisoitu tai anonymisoitu. Anonymisointi on paras tapa tehdä arkaluontoisesta aineistosta tietoturvan ja tietosuojan näkökulmasta vaaraton, koska tällöin yksittäinen havainto (esimerkiksi henkilö) ei ole kohtuullisin keinoin tunnistettavissa. Tällöin henkilötietoaineistoissa myöskään EU:n tietosuoja-asetus (GDPR) ei enää koske tietoja. Lisätietoa tunnisteellisuudesta ja anonymisoinnista Aineistohallinnan käsikirjasta.

Arkaluontoisen aineiston suojaaminen helpottaa myös tallennusratkaisujen valintaa. Suojauksesta ja aineiston arkaluontoisuuden laadusta riippuen tutkija voi käyttää Helsingin yliopiston tarjoamia perustallennusratkaisuja, kuten ryhmälevyä. Ota kuitenkin aina yhteyttä HY:n IT-asiantuntijoihin, kun suunnittelet arkaluontoisen aineiston säilytystä (datasupport@helsinki.fi).

Yliopiston tarjoamia arkaluontoisen aineiston tallennusratkaisuja ovat muun muassa UMPIO sekä virtuaali- että fyysiset palvelimet. Lisäksi CSC tarjoaa tutkijoiden käyttöön ePoutaa. ePoudasta ja muista CSC:n tarjoamista tallennusratkaisuista voi lukea CSC:n sivuilta. Kun tutkimuksen rahoitusta suunnitellaan, budjettiin ei välttämättä osata varata resursseja aineiston säilytystä varten. Etenkin arkaluontoisen aineiston säilytys voi tulla kalliiksi, jos sitä ei ole mahdollista suojata tai anonymisoida, mistä johtuen aineistoa ei voi säilyttää niin sanottujen perus IT-ratkaisujen puitteissa.

Huomattavan moni käyttää myös ulkoisia kovalevyjä aineiston tallentamiseen. Sitä, onko kyseessä varmuuskopio vai aineiston ainoa tallennusratkaisu, emme selvittäneet. Yliopiston ITtuen tarjoamat tallennusratkaisut varmuuskopioidaan automaattisesti ja esimerkiksi ryhmälevylle saa lisää tilaa pyydettäessä. Yliopiston tallennusratkaisut löytyy Datatuen sivuilta ja lisätietoa saa ottamalla yhteyttä datasupport@helsinki.fi.

Aineiston avaaminen tulosten julkaisemisen jälkeen

Kysyimme tutkijoilta säilytysratkaisujen lisäksi aineistojen avaamisesta tulosten julkaisemisen jälkeen. Tapauksissa, joissa aineiston avaaminen ei ole sen arkaluontoisuuden vuoksi mahdollista, kysyimme, onko aineiston metadata eli sen kuvailutiedot julkaistu. Positiivista oli huomata, että noin puolet vastaajista olivat avanneet aineistoja. Käytettyjä paikkoja olivat muun muassa EMBL-EBI (EGA, ENA, Array Express), NCBI (GEO, bdGaP), NIH, Open Science Framework, Zenodo, ResearchGate, GitHub sekä Biopankit. Lisää julkaisuarkistoja erityisesti biomolekulaariselle aineistoille löytyy Elixirin sivuilta.

Huolestuttavasti kyselyssä kuitenkin ilmeni, että arkaluontoisen aineiston kuvailutietojen julkaiseminen ei ollut lähes kenellekään tuttua. Suomen Akatemia esimerkiksi edellyttää seuraavaa: ”Jos tutkimusaineistoa ei voi avata jatkokäytettäväksi, sen metadata (kuvailutiedot) on kuitenkin tallennettava kansalliseen tai kansainväliseen hakupalveluun.” Tällaisia hakupalveluita ovat esimerkiksi kansallinen Etsin tai kansainvälinen Zenodo. Avoimen tieteen periaatteet eivät pakota avaamaan kaikkea aineistoa, vaan avoimuuden aste voi vaihdella perustelluista syistä kaikille täysin avoimesta salassa pidettävään. Aineistojen avaaminen muiden käyttöön parantaa tutkimustulosten jatkokäyttöä, edistää uusien havaintojen löytymistä sekä edistää tutkimusyhteistyötä.

Tilannekatsaus tutkijoiden arkeen

Kyselymme osoitti mitä palveluita tutkijat käyttävät, mitkä palvelut eivät ole tunnettuja, ja missä tutkijat kaipaavat tukea. Näiden tekijöiden selvittäminen on tärkeää palvelukehitykselle ja hyödyttää sekä Datatukea että Lääketieteellistä tiedekuntaa. Tärkeimpinä kehitettävinä asioina esille nousi, että aineistojen avaaminen tulosten julkaisemisen jälkeen on monelle tutkijalle tuntematonta sekä tutkijoiden avuntarve arkaluonteisten aineistojen käsittelyssä. Erityisesti tallennusratkaisuihin kaivataan selkeyttä ja helppoja ratkaisuita. Lääketieteellinen tiedekunta pyrkii vastaamaan tähän toiveeseen yhdessä HY:n Tietotekniikkakeskuksen kanssa; arkaluontoiselle aineistolle on kehitteillä uusi tallennuspalvelu jo olemassa olevien ratkaisuiden rinnalle. Tulemme varmasti kuulemaan siitä lisää tuonnempana.

Tällaisten kyselyiden avulla on mahdollista saada hyvä käsitys siitä, miten tutkijat toimivat tällä hetkellä ja mitkä ovat päivänpolttavat kysymykset. Tutkimuksen uusiminen muutaman vuoden päästä voikin olla hyödyllistä, jotta tukipalvelut saavat arvokasta tietoa siitä, missä asioissa on edistytty ja mitä pitää lähteä kehittämään.