Tutkijan näkökulmia EU:n yleisen tietosuoja-asetuksen ja tutkimusaineistojen avoimen saatavuuden ristiriidasta

Heinäkuun alku 2020. Väitöskirjaansa valmisteleva tutkijani lähettää tutkimusryhmämme ensimmäinen käsikirjoituksen arvioitavaksi Genome Research -julkaisusarjaan. Olimme sekvensoineet ihmisen munasoluissa, hedelmöittyneissä munasoluissa ja alkioissa esiintyvät lyhyet, noin kahdenkymmenen nukleotidin pituiset RNA-molekyylit ja tehneet mielenkiintoisia havaintoja aineistostamme.

Tietääksemme ainoastaan yksi ryhmä oli vuotta aiemmin julkaissut joiltain osin vastaavanlaisen työn, mutta vain muutamasta varhaisesta ihmisen alkion kehityksen vaiheesta. Koska ihmisen alkioita tutkitaan nykyisin aiempaa paljon enemmän niin Euroopassa, Yhdysvalloissa kuin Kiinassakin, tiesimme aineistomme herättävän laajaa kiinnostusta joka puolella maailmaa.

Alkioiden asema on GDPR:n näkökulmasta epäselvä

Yleinen tietosuoja-asetus (General Data Protection Regulation; GDPR) astui voimaan Suomessa toukokuussa 2018. GDPR:n avulla säännellään henkilökohtaisten tietojen käsittelyä ja sen tarkoituksena on parantaa tietosuojaa. Samanaikaisesti tieteen – ja siis alkuperäisten tutkimusaineistojen – toivotaan tulevan yhä avoimemmin saataville, jotta kaikilla tutkijoilla olisi pääsy julkaistuissa tutkimusartikkeleissa raportoituihin aineistoihin.

Alkiotutkijan näkökulmasta tieteen avoimuuden turvaaminen on erityisen tärkeää, sillä näytteitä on saatavilla vain rajallisesti. Alkioiden asema GDPR:n näkökulmasta on puolestaan hieman epäselvä, koska GDPR koskee elävien henkilöiden henkilötietojen käsittelyä. Alkiolla ei ole nimeä, sosiaaliturvatunnusta eikä pankkitiliä, ja alkio on lain mukaankin tuhottava pakastussopimuksen tai tutkimuksen päätyttyä. Henkilöä ei alkiosta saa millään määritelmällä. Sekvensoinnilla saatu tieto vaikkapa lähetti-RNA:ista tai meidän tapauksessamme lyhyistä RNA:ista kuitenkin määritellään henkilötiedoksi. Teoriassa on mahdollista, että jos alkion luovuttaneen pariskunnan genomitietoa on saatavilla jossakin tietokannassa, voitaisiin alkiosta saatu genomitieto yhdistää tämän luovuttaneisiin vanhempiin. Ja alkiolla on mitä todennäköisimmin elossa olevat vanhemmat ja mahdollisesti myös sisaruksia tai serkuksia, joiden genomi on riittävän suurilta osin samanlainen kuin tutkimukseen luovutetulla alkiolla ja sukulaisuus todettavissa.

Tyypillisesti tutkijat arkistoivat julkaistun sekvensointiaineistonsa täysin avoimiin arkistoihin, kuten palveluihin Gene Expression Omnibus tai The European Nucleotide Archive. Tällaisissa arkistoissa aineisto on kenen tahansa saatavilla ilman erillistä lupaprosessia. Tyypillisesti tutkija lataa aineiston vaikkapa käyttämälleen serverille, ja aineistosta voi tehdä myös kopioita. Jos kyseessä ovat avoimet arkistot, aineistojen käyttöä on käytännössä mahdotonta kontrolloida. Tällaiset avoimet aineistojen tallentamiseen ja jatkokäyttöön tarkoitetut arkistot eivät sovellukaan GDPR:n alaisen aineiston säilyttämiseen.

CSC:n ja HUSin yhteistyö ratkaisi tutkimuksen julkaisemisen

Vuosi vaihtuu, ja olemme tutkijani kanssa lähettäneet käsikirjoituksestamme korjatun version Genome Research -lehteen. Saamme suhteellisen nopealla aikataululla hyväksymiskirjeen lehden toimitukselta sillä edellytyksellä, että saatamme datamme muiden tutkijoiden saataville. Laadin yhdysvaltalaislehden editorille selvityksen GDPR:stä ja aineistomme arkaluonteisuudesta. Samaan aikaan selvitän yhdessä HUSin juristien ja tutkimushallinnon kanssa, kuinka asiassa voitaisiin edetä ja huokaan helpotuksesta, ettei toisiolaki varsinaisesti taida koskea alkioita.

Keskusteltuani lukuisten eri tahojen kanssa ehdotan HUSin tutkimusjohdolle uudenlaisen aineistoarkiston perustamista. Siinä aineistot voitaisiin tallentaa tietoturvallisesti, ja arkistoon olisi pääsy vain erillisellä luvalla. Lisäksi järjestelmän tulisi olla sellainen, ettei aineistoa voitaisi tallentaa järjestelmästä pois vaikkapa omalle serverille, vaan analyysejä voisi tehdä ainoastaan järjestelmän sisällä. Tällainen ominaisuus mahdollistaisi kontrolloidun aineiston käyttämisen ja suojaisi aineistoa joutumasta kolmansille osapuolille. HUSin tutkimusjohdossa suhtaudutaan ehdotukseen myönteisesti, vaikka toteammekin yhdessä, ettei tällaisen systeemin perustaminen ole teknisesti kovin helppoa, saati edullista.

Samoihin aikoihin saan tietooni, että osittain korkeakouluomisteinen CSC Tieteen tietotekniikkakeskus on kehittämässä järjestelmää sensitiivisen datan hallitsemista ja käyttöä varten. CSC:hen perusteilla oleva järjestelmä tulee avautuessaan olemaan osa Federated European Genome-phenome Archive -arkistoa (FEGA). FEGA koostuu eri maiden noodeista, joita yhdistää keskusarkisto. Kuukausia kestäneiden neuvotteluiden jälkeen CSC:n ja HUSin välinen yhteistyö, jossa aineistollamme pilotoitaisiin uutta FEGA-järjestelmää, pääsi vihdoin käyntiin ja artikkelimmekin voitiin virallisesti hyväksyä julkaistavaksi.

Sensitiivisen datan hallinta kehittyy Suomessa pikkuhiljaa

Käsikirjoituksemme lähettämisestä on pian kulunut kaksi vuotta ja käsikirjoituksesta kehkeytyneen artikkelimme julkaisemisesta yhdeksän kuukautta. Julkaisun myötä aineistoomme on kohdistunut jo useita lupapyyntöjä, mutta yhtään lupaa ei ole vielä myönnetty.

Ennen kuin aineistoamme voi päästä tarkastelemaan – edes toinen suomalainen tutkimusryhmä, saati sitten joku eurooppalainen tai peräti EU:n ulkopuolinen ryhmä – tulee eri osapuolten, kuten rekisterinpitäjänä toimivan HUSin ja CSC:n, välille laatia erinäisiä sopimuksia. Lisäksi tulee tehdä tietosuojavaltuutetun vaatima riskianalyysi. Ja ehkä vielä muutamia selvityksiä tai sopimuksia, joista minulla ei vielä toistaiseksi ole tietoa?

Suomen FEGA-noodia isännöivä CSC on onnistunut hienosti kehittämään tekniset ratkaisut sensitiivisen datan hallinnointia varten. CSC:ssä ollaan selkeästi sitoutuneita auttamaan tutkijoita aineistojen turvallisessa hallinnassa. Toivon kovasti, että aineistoamme voi (lähi?)tulevaisuudessa päästä analysoimaan CSC:n pilvipalvelussa, jos on erillisen hakuprosessin tuloksena saanut datakomitealta myöntävän päätöksen. Lupa heltiää ehtojen täyttyessä datan tarkastelua, mutta ei datan tallentamista varten. Toinen toiveeni on, että tämän prosessin tuloksena valmistuisi hyvä kehys myös toisiolain piiriin kuuluvien aineistojen tallentamista ja käyttöä varten. Sehän olisi jo voitto kliiniselle tutkimukselle!

Sanna Vuoristo
FT, dosentti, tutkimusryhmän johtaja, Helsingin yliopisto