DNA:si ei ole sinun

Marraskuussa prof. Aarno Palotien Viikon jutussa käsiteltiin ainutlaatuista FinnGen-hanketta, jossa kerätään genomitietoa puolelta miljoonalta suomalaiselta. Tämänkaltaiset akateemisten instituutioiden tuottamat ja ylläpitämät genomitietokannat ovat tarkasti säädeltyjä, turvallisia, ja tutkimukselle kullanarvoisia. Miljoonien ihmisten genomitietoa löytyy kuitenkin myös ei-akateemisesta ympäristöstä: kaupallisten DNA-testifirmojen servereiltä. Tämä ympäristö ei olekaan niin selkeästi säädelty, ja turvallisuus riippuu pitkälti firmojen omista ratkaisuista.

”Kuluttajagenomiikka” ja sen niin kutsutut DTC-testit (”direct-to-consumer”) löivät itsensä todella läpi 2010-luvulla. Testejä on pääosin kahdentyyppisiä: ne kartoittavat joko terveyteen liittyviä geenimuunnoksia (vaihtelevalla menestyksellä, kts. YLE:n juttu, sekä myös Satu Kuuren ja Liisa Kaupin Viikon jutut) tai yksilön alkuperää, ”etnisyyttä”. Varsinkin jälkimmäiset tuntuvat kiinnostavan ihmisiä valtavasti. Neljällä suurimmalla testifirmalla (AncestryDNA, 23andMe, MyHeritage ja FamilyTree DNA) on ilmoitustensa mukaan tallennettuna genomitietoa noin 30 miljoonalta henkilöltä, näiden joukossa kymmeniä tuhansia suomalaisia. Jep, myönnetään: minäkin olen autosomini tyypityttänyt.

Firmojen tuottama genomidata sisältää tyypillisesti noin 700 000 autosomaalista SNP-merkkiä sekä vaihtelevan määrän X-/Y- ja mitokondrio-DNA-snippejä. Tällä datamäärällä pystytään tietysti yksilöimään henkilöt, mutta myös suhteellisen luotettavasti tunnistamaan sukulaiset aina 4. serkkuun saakka. Neljänsillä serkuilla on yhteisiä DNA-pätkiä, jotka periytyvät heidän isovanhempiensa isovanhempien vanhemmilta.

Minulla on DNA:n sukuselvityskapasiteetista omakohtaisia kokemuksia. Viime syksynä sain sähköpostin tuntemattomalta tamperelaisnaiselta: olin erään testifirman DNA-analyysien perusteella hänen miehensä 3. serkku. Hetken jouduimme haarukoimaan sukunimiä, ikiä ja syntymäpaikkoja, ennen kuin selvisi, että isoäitiemme isät olivat olleet veljeksiä. Olimme tosiaankin 3. serkkuja kuten DNA oli ehdottanut.

Oma tapaukseni oli kiva juttu kaikille asianosaisille, mutta tämänkaltaiset testit tuovat usein yllätyksiä. Suomen Kuvalehti kertoi äskettäin (SK 4/20) pääjutussaan Timo Ramun tarinan. Ramu oli tilannut itselleen ja vaimolleen joululahjaksi DNA-tyypityksen MyHeritage-yhtiöltä. Kuten minua, myös Ramua oli DNA-testissä kiinnostanut hänen oma etnisyytensä ja tuloksetkin olivat hauskoja: Ramussa oli 1% inuiittia.

Tähän yhteyteen on pakko liittää pari sivuhuomautusta. DNA-testifirmat ja heidän asiakkaansa puhuvat yleisesti ”etnisyydestä” silloin kun tarkoitetaan aluetta tai ihmisryhmää, jossa on havaittu samankaltaisia DNA-merkkien yhdistelmiä. Etnisyyden l.  johonkin ihmisryhmään kuulumisen kriteerinä pidetään kuitenkin yhteistä kulttuuria (mm. kieli, uskomukset, tarinat alkuperästä) eikä DNA tietenkään voi näistä kertoa. Ilmeisesti näppärämpää termiä ei ole löytynyt. Toisaalta tuntuu, että kulttuuria ei ihan oikeasti osata erottaa geeneistä, esimerkiksi Spotifyssa voi räätälöidä itselleen henkilökohtaisen soittolistan vain antamalla tietyssä firmassa tuotetun DNA-datan (mitähän suomalaisille… kulmakivinä varmaan Toton Africa, Juhamatin Volga ja Eppujen Murheellisten laulujen maa?). Tuntuu myös siltä, että näiden etnisyysarvioiden kohdalla ihmiset pähkivät suhteettoman paljon juuri niitä muutaman prosentin eksoottisia osuuksia perimässään. Usein nämä hajaprosentit ovat kuitenkin kohinaa l. perimän osasia, jotka ovat suhteellisen samankaltaisia kaikissa ihmisryhmissä. Ilmeisesti algoritmit sijoittavat sen johonkin, näennäisesti läheisimpään, ryhmään, vaikka tilastollista eroa muihin tuskin on. Mutta ihmiset innostuvat näistä kovasti (kts. esim. Ilta-Sanomat 7.6.2018).

Palataan Ramun tapaukseen. Inuiittijuuret (joihin Ramu tuntui suhtautuvan sopivan ironisesti) eivät jääneet testin päätulokseksi. DNA:n alkoi paljastaa tuntemattomia sukulaisia, ensimmäisenä henkilön, jonka perimästä oli 23,4% samaa kuin Ramulla. Velipuoli siis. Ja lisää sisaruspuolia: toinen ja kolmas ja… kymmenes. Jäljet johtivat 1970-luvun lapsettomuushoitoihin; helsinkiläisklinikalla oli käytetty yhden luovuttajan siittiöitä usean lapsettoman parin hoitoihin.

Ramun tapaus on hyvä esimerkki, jossa henkilökohtainen ja hyvin yksityiseksi mielletty kiinnostus omaa perimää ja omia juuria kohtaan johtaa useiden henkilöiden elämän mullistumiseen. Ramun kohdalla tämä koski myös henkilöitä, joita ei oltu testattu ja joilla yhteistä DNA:ta ei edes ollut (mm. Ramun ja hänen sisaruspuoltensa sosiaaliset isät). Se uniikki perimä, joka muokkaa meistä yksilöitä, ei olekaan ihan niin yksityisasia kuin helposti ajattelisi.

Vaikka Ramu ja hänen sisaruspuolensa olivat lopulta innoissaan löytyneistä uusista sukulaisista, on yksityisyys, ”genetic privacy”, noussut vakavaksi huolenaiheeksi DTC-testien kohdalla. Yksityishenkilöiden kustantamasta genomitiedosta on kiinnostunut moni taho lääketeollisuudesta vakuutusyhtiöihin. Osittain kiinnostus on ollut kahdensuuntaista ja mm. sellaisten firmojen kuin Genos, Nebula Genomics ja EncrypGen kautta DNA-testin teettäneet yksityishenkilöt voivat myydä oikeuksia omaan genomitietoonsa lääkeyhtiöille ja muille kiinnostuneille.

Yksityisyyskysymykset nousivat kuitenkin toden teolla otsikoihin sen jälkeen kun poliisi saapui paikalle. Poliisiviranomaiset nimittäin hoksasivat valjastaa kaupallisten DNA-testifirmojen genomitiedon yksilöntunnistuskapasiteetin. Alkupisteenä oli huhtikuu 2018 ja ”Kalifornian tappajan” (Golden State Killer) henkilöllisyyden selvittäminen ja pidätys. Vuosina 1974-1986 mellastaneen yhden Amerikan pahimman sarjamurhaajan kontolla oli vähintään 13 murhaa, 50 raiskausta ja toistasataa murtoa. Rikospaikoilta taltioitujen näytteiden DNA-analyysit olivat jo aiemmin paljastaneet, että lukuisten rikosten takana oli yksi mies. DNA siis tunnettiin, mutta miestä ei – henkilöllisyys pysyi mysteerinä yli 30 vuotta. Poliisin heureka oli ”kolmas osapuoli” GEDMatch, kahden taitavan harrastelijan Rogers & Olsen värkkäämä nettipalvelu, jonne kaikenlaista DNA-dataa voi ladata vertailtavaksi.  Varsinaiset DNA-testifirmat, sellaiset kuin AncestryDNA, MyHeritage tai FamilyTreeDNA, päästävät tietokantoihinsa vain dataa, jonka ne ovat itse tuottaneet, mutta GEDMatchiin voi tallentaa mitä tahansa (ja kenen tahansa) DNA-dataa. Sukututkijat, alusta lähtien DTC-testien evoluutiovoima, käyttävät palvelua innokkaasti.

GEDMatchin voima on vapaasti käytettävissä analysointityökaluissa, joilla voi surffata sutjakkaasti genomitiedoissa. Triangulaatio-työkalulla voi verrata mitä tahansa DNA-tunnistetta kaikkiin tietokannan tunnisteisiin. Tämä nykypäivän Struven linja pystyy, kolmea genomia kerrallaan vertailemalla, identifioimaan henkilöt, jotka jakavat yhteiseltä esivanhemmalta periytyviä perimän segmenttejä. Yhteisen DNA:n osuus kertoo henkilöiden sukulaisuussuhteen. Sivustolta löytyy myös Lasarus-työkalu, jolla kuka tahansa ihmisen poika (tai tyttö) voi herättää henkiin perimän henkilölle, jonka DNA-tiedot eivät palvelussa ole (nimi todellakin on Lazarus tool!). Tämä tietysti vaatii, että tietokannassa on henkilön sukulaisia, jotka algoritmille osoitetaan. Ymmärrettävästi rekonstruktion paikkaansapitävyys on sitä parempi mitä enemmän sukulaisia tietokannasta löytyy.

Golden State Killerin tapauksessa poliisi latasi rikospaikkanäytteistä tuotetut DNA-tiedot GEDMatch-palvelimelle ja löysi hetkessä rikospaikalle solujaan jättäneen miehen 3. serkun. Tälle varttiserkulle laadittiin sitten sukupuu, josta pystyttiin päättelemään, että murhaaja oli v. 1945 syntynyt kolmen tytön isä Joseph James DeAngelo.

Golden State Killerin tapaus oli paukku, jonka rekyyli on tuntunut laajalti. Kahdeksan vuotta toimineesta GEDMatchistä, jossa 2018 oli tallennettuna alle miljoonan henkilön genomitiedot, saatiin paljon enemmän irti kuin 28 vuotta pyörineestä viranomaisten CODIS-rekisteristä, jossa oli 16 miljoonan rikollisen tunnisteet. Ero juontuu tietysti datan määrästä: CODIS-rekisterin 13-20 DNA-merkin tunnisteella löytää kyllä rikollisen luotettavasti, mutta vain jos rekisteriin on taltioitu hänen itsensä tai hänen vanhempansa/lapsensa DNA-tunniste. Tällä merkkimäärällä jo sisaruuden osoittaminen on arpapeliä.

DeAngelon pidätyksen jälkeen on alettu puhua ”forensisesta geneettisestä genealogiasta” (l. FGG, keksikääpä tälle suomenkielinen termi!). Sitä on jo tituleerattu ”suurimmaksi rikostutkimuksen keksinnöksi sitten DNA:n”. Vuoden 2019 loppuun mennessä, siis vain reilussa puolessatoista vuodessa, oli Yhdysvalloissa ratkaistu yli 50 pimeänä ollutta tapausta, mm. vuonna 1973 murhatun Leslie Marie Perlovin tapaus. Tässä on kuitenkin vain jo tuomion saaneet: viime vuoden lopulla Parabon Nanolabs –yhtiön FGG-osastolta kerrottiin, että tutkittavana on ollut 300 tapausta, joista 100 on ratkaistu. Kaiken järjen mukaan vauhti vielä kiihtyy huimasti tietokantojen kasvaessa ja tekniikan levitessä laajemmalle. Esimerkiksi Ruotsissa  lakimuutos toi nämä tekniikat virallisesti poliisin työkalupakkiin vuoden 2019 alussa.

Kuluttajagenomiikan tarjoamat mahdollisuudet ovat rikostutkinnalle jättipotti, mutta mukana on se syvä huoli yksityisyydestä. Uhat ovat moninaisia. Ongelmalliseksi asian tekee se, että uhkiin kuuluu perinteisten tietokantamurtojen ja hakkerointien ohella myös keinot, joilla henkilöistä saadaan uutettua tietoa näennäisen laillisesti. Tietyssä mielessä DeAngelon nappaaminenkin oli tämmöinen teko (GEDMatch-herrat Rogers ja Olsen kuulivat asiasta uutisista, heillä ei ollut hajuakaan mitä poliisi heidän työkaluillaan teki). Geneettisen yksityisyyden murtamisen ja suojaamisen tekniikoita on pohdittu kattavasti NatRevGen-artikkelissa jo vuonna 2014 (Erlich & Narayanan 2014).

Mikäli testifirmojen asiakaskanta kasvaa samaa tahtia kuin tähän asti, ollaan jossain päin maailmaa piakkoin siinä tilanteessa, että kaikki kansalaiset voidaan tunnistaa DNA:n avulla. Vuonna 2018 Erlich et al. arvioivat Science-artikkelissaan, että n. 60% USA:n eurooppalaistaustaisesta väestöstä voitiin tunnistaa DTC-genomitiedon perusteella. Yhden mallin mukaan n. 2% satunnaisotos väestöstä DNA-tietokannoissa riittää kenen tahansa tunnistamiseen. Suomessa tämä tarkoittaisi reilua sataatuhatta ihmistä – tosin Suomen väestöhistorian vuoksi veikkaan, että vähempikin riittää. Mikäli genomidatan yhteydessä on minkäänlaista metadataa – ikä, postinumero ym. vähäpätöiseltä tuntuva tieto – tunnistus helpottuu merkittävästi. Tuntuu vähän ristiriitaiselta, että ihmiset ovat huolissaan orwellilaisuudesta poliisin DNA-rekisterien kohdalla, mutta maksavat siitä, että saavat antaa genomitietonsa heikommin säädeltyyn ja valvottuun kaupalliseen tietopankkiin. Joissain jutuissa on maalailtu jopa kansainvälispoliittisia uhkakuvia: kun piakkoin ollaan tilanteessa, että kuka tahansa voidaan tunnistaa solunäytteestä nettiä hyödyntäen, ovat tulevaisuuden jamesbondit uuden edessä. En hämmästy, jos tämänkaltaisia juonenkäänteitä löytyy jo/pian ilkkaremesmäisestä jännityskirjallisuudesta.

Yksityisyyshuolet ovat jo muuttaneet joidenkin firmojen politiikkaa. GEDMatchissä voi nykyään valita, saavatko lainvalvojat nähdä lataamasi profiilin (Yhdysvalloissa oletusarvona on ”sallittu”, Euroopassa ”ei sallittu”) ja FamilyTree on suoraan ilmoittanut, että FBI:llä on pääsy heidän tietokantaansa. Asian yllä vellova keskustelu on vaikuttanut kuluttajiin: lähes kaikilla firmoilla tulovirran kasvu on tasaantunut – ja käännekohtana on ollut Golden State Killer -tapaus huhtikuussa 2018.

En, suoraan sanottuna, tiedä mitä tästä pitäisi ajatella. Tekniikoissa on paljon hyvää: rikosten uhrien tai heidän omaistensa kannalta on todella tärkeää, että asiat ratkeavat. Tsunamin kaltaisen katastrofin uhrien tunnistus nopeutuisi DNA-tietokantoja hyödyntämällä. DNA-testit ovat arvokkaita  sukututkimukselle, joka nykyajan juurettomassa maailmassa kiehtoo monia.

Kuten kaiken tiedon kohdalla, keskeisen periaatteen pitäisi varmaan olla, että ihminen saa itse päättää omasta datastaan ja sen käytöstä. Perimän kyseessä ollessa ”oma” on kuitenkin vaikea määritellä. DNA:si kun ei ole yksin sinun: suostumuksesi genomitietosi käyttöön koskee ainakin joiltain osin kaikkia sukulaisiasi kolmanteen tai neljänteen serkkuun saakka. Horisontaalisesti ajatellen näitä sukulaisia on joidenkin arvioiden mukaan jokaisella länsimaisella keskimäärin 850. Ja vertikaalisesti ajatellen päätöksesi kantaa satoja vuosia – esim. tunnistettavia 3. serkkuja erottaa 8 meioosia ja noin 200 vuotta. Kuka pystyy muotoilemaan pätevän informed consent-lomakkeen tässä tilanteessa?

No, ehkä tässä tilanteessa – kun sitä omaakin dataa siellä on – voi vain todeta, että tekniikat ovat vielä uusia ja toivoa, että pelisäännöt vielä selkiytyvät. Näissä oloissa kuitenkin FinnGenin kaltaiset akateemiset genomitietopankit tuntuvat entistäkin arvokkaammilta.

Jukka Palo

jukka.palo@helsinki.fi

Oikeusgenetiikan dosentti, HY/THL

 

 

3 vastausta artikkeliin “DNA:si ei ole sinun”

  1. Taas erinomaista tekstiä. Kysyit suomenkielistä vastinetta forensisesta geneettisestä genealogiasta.
    Miltä tuntuisi oikeusgeneettinen sukututkimus?

  2. Kirmo ja Hannu, kiitos!! Lämmittää kovasti.
    Hyvä ehdotus FGG:n suomennokseksi. Vähän kuitenkin vielä viilaisin: ”oikeusgeneettinen sukuselvitys”. Sukututkimus on sen verran vakiintunut käsite, että johtaa helposti vääriin mielikuviin.

Kommentit on suljettu.