20 kysymystä ja vastausta sensitiivisestä datasta, datanhallinnasta ja palveluista Helsingin yliopistossa

Mitä tehdä sensitiiviselle datalle tutkimusprojektin jälkeen? Miksi Googlen pilvipalvelut puuttuvat yliopiston tallennusratkaisutaulukosta? Kuka on Datatuki-verkostossa se henkilö, joka hallitsee datanhallinnan ”viidakon” kokonaisuudessaan? Muun muassa tällaisia kysymyksiä nousi esiin kevään tapaamisissa ja webinaareissa uuteen tutkimusdatapolitiikkaan liittyen. Blogiartikkeli käy läpi kysymykset, ja tarjoaa niihin myös Datatuki-verkoston vastaukset.

Teksti: Helsingin yliopiston Datatuki-verkosto

Datapolitiikkaa esittelevä video löytyy Unitubesta.

Helsingin yliopiston Datatuki-verkosto järjesti keväällä useita kampustapaamisia ja webinaareja, joissa esiteltiin Helsingin yliopiston uutta tutkimusdatapolitiikkaa ja yliopistolaisten käytössä olevia palveluja. Webinaarit suomeksi ja englanniksi ovat katsottavissa Unitube-videopalvelussa.

Tilaisuuksissa käytiin keskustelua tutkimusaineiston hallinnan teemoihin liittyen. Tätä keskustelua on hyvä tuoda myös koko yliopistoyhteisön tietoisuuteen. Alla olevaan blogiartikkeliin on koottu tilaisuuksissa esitettyjä kysymyksiä ja kysymyksiin annettuja vastauksia, joita on täydennetty blogijulkaisua varten. Kysymykset jakautuvat seuraaviin teemoihin:

  1. Sensitiivinen data
  2. Datan omistajuus ja rekisterinpito
  3. Tutkimusaineiston tallennus ja säilytys
  4. Datan pitkäaikaissäilytys
  5. Datatuki-verkosto, tutkimuksen palvelut ja koulutus
  6. Datanhallinta yleisesti

Kysymyksiin ovat olleet vastaamassa Datatuki-verkoston asiantuntijat Iina Hepolehto, Tuija Korhonen, Tiina Käkelä, Katri Larmo, Marja Moisio, Mikko Mäkelä, Mikko Ojanen, Sebastian Porceddu, Liisa Siipilehto ja Lotta Ylä-Sulkava.

1. Sensitiivinen data

Jos data sisältää henkilötietoja, onko suositus, että tutkimuksen päätyttyä se anonymisoidaan, niin että data on muillakin käytettävissä?

Kyllä, lainsäädännön henki on tietojen minimointi (ks. tietosuojalaki 1050/2018).

Henkilötieto lakkaa olemasta henkilötieto sillä, että se tuhotaan. Onko suositus silti, että sitä ei tuhota, vaan anonymisoidaan tulevaa käyttöä varten?

Kyllä, jos on pienikin mahdollisuus, että tätä voisi hyödyntää tulevaisuudessa. Anonymisointia ja jatkokäyttöä kannattaa miettiä hyvissä ajoin projektin alussa. Aineiston käsittelyn perusteeksi kannattaa mainita yleishyödyllinen tieteellinen tutkimus – tämä mahdollistaa jatkotutkimuksen. Ei kannata sanoa, että data tuhotaan projektin päättyessä, sillä julkaisuja sen pohjalta tulee pitkänkin ajan kuluessa projektin päätyttyä.

Jos haastatteluja purkaessa käyttää litterointipalvelua, pitääkö ensin olla yhteydessä palveluntarjoajaan ja tehdä sopimus henkilötietojen käsittelystä?

Kyllä, jos haastattelut sisältävät henkilötietoja. Erityisen tärkeää tämä on silloin, kun kyseessä ei ole Helsingin yliopiston kilpailuttama palvelu. Hankintojen Flamma-intranetsivulta löytyy tieto kilpailutetuista palveluista. Litterointipalveluissa Helsingin yliopistolla on sopimus Lingsoftin kanssa (ks. uutinen Flamma-intranetissä).

Miten osoitusvelvoitetta valvotaan? (”Osoitusvelvollisuus tarkoittaa, että rekisterinpitäjän on myös pystyttävä osoittamaan noudattavansa tietosuojalainsäädäntöä.”)

Yliopiston sisäisessä tarkastuksessa on kiinnitetty huomiota siihen, miten henkilötietojen käsittely otetaan huomioon tutkimuksessa. Siinä vaiheessa, kun jokin menee pieleen, katsotaan dokumentit. Jo omaa turvaa varten on hyvä tehdä dokumentaatio, ja pitää dokumentit tallessa. Tutkittavatkin ovat usein hereillä, ja osaavat kiinnittää asiaan huomiota.

Tulossa on myös rekisteri, johon dokumentteja kerätään. Alkamassa olevaan tutkimusaineistorekisteri-hankkeessa kaikki tutkimukseen liittyvät dokumentit kootaan samaan paikkaan. Väliaikaisia ratkaisuja on mahdollista luoda ennen rekisterin valmistumista. Esimerkiksi tietosuojailmoitukset lähetetään tietosuojavastaava Lotta Ylä-Sulkavalle ja kootaan wikisivustolle.

Helsingin yliopistossa käytössä oleva REDCap-ohjelma solvetuu sensitiivisen kyselyaineiston keräämiseen.

2. Datan omistajuus ja rekisterinpito

Kuka omistaa datan, jos kyseessä on omalla rahoituksella työskentelevä Helsingin yliopiston väitöskirjatutkija?

Jos opiskelija tekee työtä itsenäisesti ja omalla rahalla, tietosuojan näkökulmasta opiskelija vastaa myös datasta ja omistaa datan. Hän työskentelee yksityishenkilönä, vaikka hän käyttäisi Helsingin yliopiston palveluita. Väitöskirjatutkijat voivat toimia omalla rahoituksella HY:n koulutusohjelmassa. Dataan liittyvät oikeudet voidaan siirtää yliopistolle, jos väitöskirjatutkija toimii osana tutkimusryhmää tai jos hänestä tulee yliopiston työntekijä.

Oli väitöskirjatutkijan status mikä tahansa, sopimusten tekeminen ja Helsingin yliopiston ohjeiden noudattaminen on suositeltavaa: Flamma-intranetistä löytyvät tutkimuksen tietosuojaohjeet ja sopimusohjeet. Näin on mahdollista ongelmatilanteissa osoittaa, että hyviä käytäntöjä on pyritty noudattamaan. Erittäin suositeltavaa on tehdä aineistonhallintasuunnitelma (data management plan, DMP), jonka Datatuki voi tarkistaa. Tämä kuuluu vastuulliseen tutkimusprosessiin.

Yhteistyö monen yliopiston välillä pitäisi aina ottaa huomioon ohjeissa. Jos useita yliopistoja mukana, olisiko helpointa, että yksi yliopisto on rekisterinpitäjä (henkilötietoa ja muuta informaatiota sisältävässä aineistossa)?

Tästä voidaan sopia tapauskohtaisesti, mutta harvoin yksi yliopisto haluaa ottaa yksin vastuuta. Ratkaisu voisi olla yhteisrekisterinpitäjyys, jossa kuitenkin sovitaan joku päävastuullinen organisaatio. (Ks. tietosuojasivut yliopiston verkkosivuilla ja Flamma-intranetissä.)

3. Tutkimusaineiston tallennus ja säilytys

Mikä on vastuullista säilyttämistä paperimuotoiselle datalle?

Paperiaineiston säilyttämiseen soveltuu lukittu kaappi ja lukittu työhuone yliopistolla. Samalla on hyvä arvioida, kenellä näihin dokumentteihin on pääsy. Lukollisista kaapeista ja säilytystiloista voi kysyä omalta laitokselta tai tarvittaessa tila- ja kiinteistöpalveluista. Arkistointiohjetta päivitetään, ja lisää ohjeita on tulossa.

Onko Helsingin yliopiston verkkolevy Z riittävän turvallinen säilytyspaikka digitaaliselle tutkimusaineistolle?

Taulukosta voi etsiä sopivan tallennusratkaisun omaan käyttöön tai ryhmätyöskentelyyn.

Riippuu aineistosta, mitä se sisältää. Usein Z- ja/tai P-verkkolevyt ovat riittävän turvallisia (ks. taulukko erilaisista tallennusratkaisuista digitaaliselle tutkimusaineistolle). Tätä voi vielä varmistaa kryptaamalla (suojaamalla salasanalla). Sensitiivisen datan kohdalla kannattaa konsultoida Datatukea (datasupport@helsinki.fi).

Helsingin yliopiston tallennusratkaisuja esittelevässä taulukossa ei mainita Amazonin tai Googlen pilvipalveluita. Miksi? Jos niitä ei tule käyttää, pitäisikö ne kuitenkin lisätä taulukkoon huomautuksella, että niitä ei pidä käyttää?

Helsingin yliopistolla ei ole näiden kanssa sopimusta eikä käyttötukea. On epäselvää, mihin data lähtee (esim. EU:n ulkopuolelle) ja mitä palveluntarjoaja voi tehdä datalla. Esimerkiksi Microsoftin kanssa HY:llä on sopimus, ja ehdot ovat erilaiset kuin normaalit kuluttajasopimukset. Silti pitää ottaa huomioon, mitä Microsoftinkin pilvipalveluihin voi tallentaa.

Taulukossa on mainittu vain palvelut, joita HY tukee. Jos mukana olisivat muutkin palvelut, tulisi pitkä lista palveluista, joita ei tulisi ehkä käyttää (ks. myös pilvipalvelujen tietosuoja- ja -turvaperiaatteet).

Miksi CSC – Tieteen tietotekniikan keskuksen palvelut ovat Helsingin yliopiston tallennusratkaisuja esittelevässä taulukossa?

CSC on yliopistojen omistama kansallinen palveluntarjoaja. Sitä kautta on käytettävissä tallennuspalveluita ja laskentakapasiteettia, jota Helsingin yliopisto yksin ei pysty tarjoamaan, esimerkiksi supertietokoneet.

Aloitan väitöskirjan tekemisen, ja teen sitä etänä. Alan kerätä aineistoa, mutta en tiedä, onko minulla pääsyä tallennusratkaisuihin. Miten pääsen esimerkiksi kotihakemistoon?

Jos sinulla on Helsingin yliopiston tunnukset, pääset kotihakemistoon: https://helpdesk.it.helsinki.fi/help/10630

Esimerkiksi ryhmähakemiston voit tilata itse ja Datatuesta (datasupport@helsinki.fi) voi kysyä lisää.

CSC – Tieteen tietotekniikan keskuksen palvelut on tarkoitettu vain projektinaikaiseen datan säilytykseen. Mitä datalle tapahtuu tutkimuksen jälkeen?

On suositeltavaa, että CSC:n IDA-säilytyspalvelun sijaan data avataan esimerkiksi EU:n rahoittamassa ja CERNin ylläpitämässä yleiskäyttöisessä Zenodossa, jos se on mahdollista. Zenodo-palvelu on sitoutunut säilyttämään aineistot vähintään 20 vuotta ja lisäksi aineisto saa Zenodossa pysyvän tunnisteen. CSC:n Allas-tallennuspalvelu ei ole tarkoitettu siihen, että dataa pidetään siellä pitkään. (Ks. myös Data management services from CSC are at your fingertips.)

4. Datan pitkäaikaissäilytys

Onko pitkäaikaissäilytykseen maksutonta palvelua, ja miten palvelun käyttöönotto tapahtuu?

On, opetus- ja kulttuuriministeriön rahoittamat palvelut. Ne edellyttävät Datatuen työpanosta, mutta tutkijoille palvelut ovat maksuttomia. Pitkäaikaissäilytykseen (PAS) tarjottaville aineistoille on olemassa oma prosessinsa, joka lyhyesti kuvattuna on seuraava:

  1. Ota yhteys Datatukeen (datasupport@helsinki.fi).
  2. Datatuen kanssa käydään alustava kartoitus siitä, onko ehdotettu data sopiva pitkäaikaissäilytykseen – yleensä on.
  3. Datatuki tarkistaa sopimukset ja metadatan, ja arvioi niihin liittyvät jatkotoimenpiteet.
  4. Päätös tallentamisesta tehdään tiedekunnan tutkimustoimikunnassa, jossa arvioidaan aineiston merkittävyyttä.

Pitkäaikaissäilytyksen prosessin raskaus ei liity arviointiin, vaan metatietojen tarkistukseen, jos dokumentointi on vajaata. Aineiston kuratointiin tarvitaan paljon ylimääräisistä työtä, varsinkin jos sitä ei ole tehty datan keräämisen aikana, vaan vasta jälkikäteen. Kun dataa on kerätty vuosien tai jopa vuosikymmenien ajan eri henkilöiden toimesta, jo lupien keräämiseen menee paljon aikaa. Tutkimusaineistojen pitkäaikaissäilytykseen liittyvää tietoa löytyy yliopiston verkkosivuilta ja Flamma-intranetistä.

CSC:n Fairdata-palveluiden kokonaisuus.

Mikä on tutkimusdatan säilytyspalveluun (IDA) ja pitkäaikaissäilytyspalveluun (Fairdata PAS) liittyvien prosessien ero?

PAS-palveluun laitetaan kansallisesti tärkeitä tutkimusdatoja. Data on paketoituna, eikä se ole tarkoitettu avaamiseen vaan arkistointiin. IDAssa aineistoja säilytetään, kun projekti on aktiivinen. IDAn aineistolla on oltava nimetty vastuuhenkilö. Jos vastuuhenkilö poistuu projektista, aineistolle on löydettävä uusi vastuuhenkilö, mikäli aineisto halutaan säilyttää IDAssa saatavilla.

Kommentti: Yliopiston toiminta perustuu lakiin, ja arkistolain perusteella osa asiakirjoista tallennetaan pysyvästi. Tutkimuksen kohdalla ei aina ole selvää mitkä tutkimuksen asiakirjoista luokitellaan yliopiston asiakirjoiksi ja mitkä ovat ikään kuin tutkijan omia aineistoja. Arkistonmuodostussuunnitelman pitäisi vastata tähän kysymykseen, mutta se on tutkimuksen osalta puutteellinen. Tätä kehitetään ja toivottavasti parempia ohjeita on tulossa, kun uusi tiedonhallintaohje valmistuu.

Tässä on syytä tehdä ero tutkimusprojektiin liittyvien hallinnollisten asiakirjojen ja tutkimusaineistojen (datasetit) välillä. Hallinnollisia asiakirjoja varten yliopistolla on arkistointiohjeet, joita ollaan parhaillaan uudistamassa. Tutkimusaineistoja sen sijaan voi olla arkistoituna kansallisiin tai kansainvälisiin repositorioihin, myös Euroopan ulkopuolelle.

5. Datatuki-verkosto, tutkimuksen palvelut ja koulutus

Tämä on aikamoinen viidakko. Tutkimuksen tuen henkilökunta on perehtynyt näihin (datanhallinnan) asioihin ja tutkijat taas ovat perehtyneet tutkimukseen. Löytyykö teiltä se yksi henkilö joka osaa nämä kaikki, kun tutkijan pitäisi hallita nämä kaikki?

Ratkomme ongelmia ja kysymyksiä yhdessä. Eri asiantuntijat osaavat eri asioita, sillä kokonaisuus on valtava. Datapolitiikassakin näkyy, että se on suunnattu kolmelle erilaiselle yleisölle: tutkijat (ja kaikki muut, jotka työskentelevät tutkimusdatan kanssa), akateemiset yksiköt (tiedekunnat) ja koko yliopisto. Tätäkin kautta näkyy, että kokonaisuus on iso, ja ainoa tapa hallita tätä on verkoston kautta käytettävissä oleva asiantuntemus. Tutkijalle tässä on paljon informaatiota kerralla, se on ymmärrettävää, mutta ohjeita, koulutusta ja palveluita aineistonhallintaan on saatavilla.

Onko jollain sivulla linkattu väitöskirjatutkijoille tarkoitetut palvelut?

Helsingin yliopiston Studies-sivulta löytyy kirjaston kaikki kurssit, myös ”Tutkijakoulun kurssit”. Kurssit löytyvät myös Sisusta (Tohtorikoulutettavien tiedonhallinta ja Managing Scientific Information). Väitöskirjatutkijoille on samat palvelut ja koulutukset kuin yleensä tutkijoille. (Ks. myös Meilahden tiedonhaun tohtorikurssi ja Aineistonhallinnan kurssit ja työpajat.)

6. Datanhallinta yleisesti

Onko opiskelijoille koulutusta datanhallinta-asioihin liittyen koulutusohjelmissa? Toteutukset voisivat olla geneerisiä siten, että samat toteutukset voisivat soveltua monelle eri koulutusohjelmalle. Onko tähän asiaan pohdittu mitään koordinaatiota, ettei tehtäisi eri koulutusohjelmille jokaiselle erikseen?

Tarkoitus olisi saada datanhallinnan perusteet opetussuunnitelmiin (OPS). Aineistonhallinta oli esillä yhdessä OPS-työpajassa helmikuussa, mutta valitettavasti yleisöä oli vähän. Maisteriohjelmien menetelmäopintoihin olisi hyvä sisältyä datanhallintakoulutusta. Jotta datanhallintakoulutus saataisiin leviämään laajemmalle, tarvitaan yhteistyötä koulutusohjelmien kanssa ja myös vetäjien koulutusta siihen, mitkä ovat nykyiset vaatimukset. Keskitetyt palvelut tarjoavat jo nyt koulutuksia, mutta opetuksen vieminen koulutusohjelmiin olisi tärkeää, sillä keskitetyt palvelut ei voi vastata kaikesta koulutuksesta. Tuotettava data on hyvin erilaista eri tieteenaloilla – erityispiirteet huomioitava myös koulutuksessa. Datanhallinta on myös työelämätaito ja yksi ammatillinen valmius yliopistosta valmistuttaessa. Farmasian tiedekunnassa suunnitellaan perustutkinto-opiskelijoille suunnattua pilottikoulutusta (syksylle 2022), jossa datanhallinta olisi mukana.

Mihin datanhallinnassa pitäisi kiinnittää huomiota?

Aineistonhallintasuunnitelma (data management plan, DMP) on hyödyksi tutkijalle, se tulisi nähdä sellaisena eikä vain byrokraattisena dokumenttina. Konkretia on alkanut näkyä suunnitelmissa, kun DMP tehdään projektin alussa. (Ks. myös: Suunnittelusta apua tehokkaaseen tutkimusaineistojen ja -datan hallintaan.)

Datatuen palveluiden dioissa esitetty kaavio tutkimuksen elinkaaresta puuttuu datan kerääminen, tallennus ja datan hallinta. Nämä pitäisi lisätä kuvaan ennen julkaisemispallukkaa. Kaavio erillistää datanhallinnan ja tutkimuksen toisistaan.

Tarkoituksena on ollut esittää, miten ne juuri kytkeytyvät toisiinsa, pyritään kuvaamaan, miten RDM:n suunnittelu sujuvoittaa ja pitää tutkimuksen rattaat pyörimässä. Jos joku osa datanhallinnan suunnittelun osassa tulee viiveitä tai puutteita, tutkimus voi hidastua tai jopa pysähtyä (ks. koko artikkeli, johon kaavio liittyy).