Humanisti datamaailmassa: Täydellisen anonymisoinnin mahdottomuus

Tieteellisen tutkimuksen kohteena olevien ihmisten yksityisyyden suojeleminen on tutkimusdatanhallinnan eli RDM:n (research data management) avainasioita, jonka huomioimiseen myös lainsäädäntö velvoittaa. Tutkijan näkökulmasta tehtävä on usein haastava: ”Anonymisointi on tehtävä tarkasti, huolellisesti, kokonaisvaltaisesti ja kuitenkin niin, että lopputuloksesta on jotain hyötyä tutkimuksellekin – eli mitä käytännössä pitäisi tehdä?” Kirjoitussarjansa neljännessä osassa Aleksi Peura syventyy sensitiivisen datan ja anonymisoinnin perimmäisiin kysymyksiin.

Teksti: Aleksi Peura

*Aleksi Peuran kirjoitussarjan aiemmat osat löytyvät täältä.*

Yksityisyys on kuollut, F-Securen Mikko Hyppönen julisti äskettäin ilmestyneessä tietokirjassaan Internet (2021). Tämä ei ole enää 2020-luvun alkupuolella mikään shokeeraava tai foliohattuinen heitto, sillä tietomme meitä koskevaa dataa kerryttävistä tahoista ovat kasvaneet vuosikymmenen aikana merkittävästi. Nykyään tiedämme, että esimerkiksi (muttei rajoittuen) sosiaalisen median palvelut, internetsivustot, kännykkämme ja ennemmin tai myöhemmin internetiin kytkettävät kodinkoneemme tarkkailevat meitä, välittävät kerätyn datan eteenpäin ja kauppaavat niitä mainostajille. Nykyisen keskustelun alun voi, tietyissä määrin, aloittaa Edward Snowdenin vuonna 2013 tekemistä paljastuksista, joiden perusteella selvisi, että yhdysvaltalaiset valtiolliset virastot – nimellisesti, NSA (National Security Agency) – keräsivät jättimäistä data-arkistoa, johon haravoitiin kaikki mahdollinen data, ihmisten yksityisyydestä vähät välittäen. Snowdenin paljastuksia on helppo tituleerata orwellilaisiksi, vaikka Snowden itse on sanonut koneiston olevan paljon kokonaisvaltaisempi kuin sen verrokki George Orwellin romaanissa Vuonna 1984 (1949).

Meistä tiedetään valtavasti, koska dataa kerätään valtavasti. (Datan määrän kasvusta kirjoittamani blogiteksti on luettavissa täällä.) Intiimeimmätkin tietomme ovat kaupan. Kasvontunnistusteknologialla höystetyt valvontakamerat ovat arkipäivää monissa maailman kolkissa. Deep Fake- sekä äänenmuokkaus- ja -tunnistusohjelmien kehittyessä päädytään kyberversioon Harry Potter -kirjojen monijuomaliemestä, kun kuka vain voi omaksua toisen henkilön naaman ja äänen, joita hyödyntämällä kusettaminen ja yksityisyyden loukkaaminen helpottuvat ja tehostuvat äärimmilleen.

Tässä dystopistisessa vyörytyksessä on lohdullista huomata, että edelleen on olemassa tahoja, joissa ihmisen yksityisyyden turvaaminen otetaan tosissaan. Yksi noista tahoista on tiedeyhteisö.

Tutkija-Pentti ja peruskäsitteet

Tieteellisessä tutkimuksessa tutkimuskohteina olevien ihmisten tunnistettavuuden häivyttäminen otetaan vakavasti. Tiivistäen, tutkimuskohteina olevia eläviä ihmisyksilöitä ei pitäisi pystyä tunnistamaan tutkimusdatasta kuin poikkeustapauksissa. Tutkimusjulkaisun tapauksessa tämä on periaatteessa suhteellisen helppoa: senkus poistelee esimerkiksi haastatteluista poimittavista lainauksista nimet sekä muut tunnistettavaksi tekevät tiedot, kuten puhelinnumerot tai sosiaaliturvatunnukset. Kun aletaan puhua koko tutkimusdatan julkaisemisesta data-arkistossa – mikä on erittäin suositeltavaa mm. oman tutkimuksen läpinäkyvyyden takaamiseksi tai suorastaan välttämätöntä esim. rahoittajan vaatimuksen takia – anonymisointi eli ihmisyksilöiden tunnistettavuuden kätkeminen ei olekaan enää niin välittömästi selvää ja kaukana helposta.

Otetaan kohta esimerkki, mutta ennen sitä käydään läpi pari termiä: henkilötieto (lontooksi personal data) ja sensitiivinen data (sensitive data). Nämä molemmat pilkahtelevat esiin säännöllisesti RDM- eli tutkimusdatanhallinta-aiheiden (research data management) äärellä ja ympärillä eli niiden ymmärtäminen on tärkeää, kun omaa tutkimusta alkaa tehdä tai suunnitella.

Henkilötieto on informaatiota, josta yksilö on tunnistettavissa: kokonimi, kotiosoite, puhelinnumero, mielipide, pärstäkerroin… Voiko tiedon yhdistää johonkin yksilöön? Silloin se on henkilötietoa.

Yksinkertaistaen, sensitiivinen data on henkilötietojen alakäsite, GDPR:n (eli EU:n yleisen tietosuojalainsäädännön, General Data Protection Regulation) mukaiselta virallisemmalta nimeltään ”erityiset henkilötietoryhmät”. Tällaisia ovat muun muassa seksuaalinen suuntautuminen, etnisyys, poliittiset mielipiteet, uskonnollinen vakaumus, ammattiliiton jäsenyys… Karrikoiden voisi sanoa, että kaikki se, jonka perusteella ihmisiä voidaan sortaa tai joka on yhteiskunnallisesti tai yhteisöllisesti tabu, on määritelty sensitiiviseksi dataksi.

Karrikoiden voisi sanoa, että kaikki se, jonka perusteella ihmisiä voidaan sortaa tai joka on yhteiskunnallisesti tai yhteisöllisesti tabu, on määritelty sensitiiviseksi dataksi.

(Sivuhuomio: on olemassa sensitiivistä dataa, joka ei kuulu GDPR:n erityisiin henkilötietoryhmiin tai edes henkilötietoihin – esimerkiksi uhanalaisten eläinlajien paikkatiedot ovat luonteeltaan sensitiivisiä. Käytän tässä tekstissä näennäisen selkeyden vuoksi sensitiivistä tietoa käsitteenä vain viittaamaan GDPR:n erityisiin henkilötietoryhmiin, mutta on kuitenkin hyvä pitää mielessä, että tämä on yksinkertaistus. Jos spesifisti nämä poikkeukset tai poikkeukset ylipäänsä kiinnostavat, RDM:n saralta löytyy enemmän kuin riittävästi päräyttävää materiaalia tutustuttavaksi. Kiinnostuneille vinkattakoon, että Think Open -blogista löytyy juttu uhanalaisten eläinlajien paikkatiedoista.)

*Helsingin yliopistossa on käytössä REDCap-ohjelma, joka on kehitetty erityisesti sensitiivisen tutkimusdatan keräämiseen – lue lisää Think Open -blogiartikkelista.*

Lupaamani, täysin hatusta heitetty esimerkki: kuvitellaan, että tutkija-Pentti tekee tutkimusta äärimetallia kuuntelevien suomalaisten henkilöiden uskonnollisuudesta. Hän kerää tutkimusaineiston haastatellen eli istuen saman pöydän ääreen tutkimuskohteiden kanssa ja äänittämällä keskustelut sanelimella. Pentti siirtää äänitiedostot Umpioon ja litteroi keskustelut voidakseen viitata niihin tutkimuksessa helpommin (lue lisää Umpiosta blogiartikkelista). Hän on kuitenkin tietoinen henkilötietojen ja sensitiivisen datan ongelmista, minkä takia hän poistaa kaikki suorat (kokonimet, sotut ja niin edelleen) ja vahvat epäsuorat (puhelinnumerot, kotiosoitteet ja niin edelleen) tunnisteet ja korvaa ne satunnaisilla numerosarjoilla, jotka selittävän tiedoston hän pitää visusti erillään litteroinneista. Tutkimuksen valmistuttua Pentti lähettää litteroidut ja nimettömät haastattelut data-arkistoon julkaistavaksi, mutta niitä ei kelpuuteta sellaisenaan, vaan ne pitäisi vielä anonymisoida. (Tämä ei todellakaan ole poikkeustapaus, vaan pikemminkin sääntö: Tietoarkisto eli tuttavallisemmin FSD (Finnish Social Science Data Archive) on kertonut, että heidän täytyy lisäanonymisoida noin 70 % kaikista saamistaan tutkimusdatapaketeista, jotka ovat tutkijoiden itsensä mielestä jo anonyymejä.)

Kun 666 ei riitä

Seuraa uusi termipari: pseudonymisointi ja anonymisointi. Näillä termeillä saattaa olla muitakin merkityksiä tiedeyhteisön sisällä ja ulkopuolella, mutta RDM:n kontekstissa niiden merkitykset ovat selkeät. Tai ainakin vakiintuneet.

Pseudonymisoitu data tarkoittaa sitä, että suorat tunnisteet on otettu pois – eli kuten Pentti teki esimerkkitutkimustapauksessani. Tällöin ihmisiä ei voi välttämättä välittömästi tunnistaa datasta, mutta jos on olemassa asiakirja, jossa ihmisten nimet ja heistä käytetyt valenimet (esimerkkitapauksessa numerosarjat) on yhdistetty toisiinsa, käsillä on edelleen henkilötietoa, joka esimerkkitutkimuksen tapauksessa on vieläpä luonteeltaan sensitiivistä, koska haastatteluissa ihmiset kertovat uskonnollisuudestaan. Anonymisointia – eli ihmisten yksilöinnin mahdottomaksi tekemistä – varten mahdollisuus yhdistää numerosarjat ihmisyksilöihin olisi hukattava kokonaan. Ensimmäinen askel monista olisi tuhota tiedosto, jossa numerosarjat ja oikeat tiedot on yhdistetty toisiinsa.

Mutta (olo on kuin ostos-tv-juontajalla) eikä siinä vielä kaikki: ihmiset voi tunnistaa melkoisella varmuudella ilman heidän nimiään ja sotujaankin. Päästäänkin siis anonymisoinnin syvimpään, vaikeimpaan ja tapauskohtaisimpaan ytimeen: epäsuoraan tunnistamiseen.

Jatkokehitetään esimerkkiäni kuvittelemalla yksi tutkimuskohde, jolle Pentti on antanut numerotunnisteeksi (tietenkin) 666. Tunnistenumero 666 kertoo eri kohdissa haastatteluaan olevansa 31-vuotias mies, asuvansa Helsingissä, kuuntelevansa päivittäin black ja death metallia, kirjoittavansa levyarvosteluja ja työskentelevänsä kirjastossa. Mikään näistä tiedoista ei yksinään mahdollista hänen tunnistamistaan: Suomen kokoiseen maahan mahtuu paljon 31-vuotiaita, miehiä, helsinkiläisiä, äärimetallidiggareita, rokkipoliiseja ja kirjastolaisia. Kun nämä tiedot kuitenkin yhdistetään, jäljelle ei kuitenkaan jää montaa ihmistä, joihin kaikki mainituista piirteistä sopisivat. (Jos sitä joku miettii, kyllä, minä itse olen 666. Edellistä lausetta ei sitten oteta pois asiayhteydestä.)

Ja jälleen ollaan henkilötietojen äärellä, koska ihminen on yksilöitävissä.

Lue lisää: Käsitteletkö tutkimuksessasi henkilötietoja? Tietoturvaryhmältä voit pyytää apua riskien arviointiin (Think Open -blogi)

Mahdottomuus, kohtuullisuus ja niskaan valuva paska

Jos ja kun anonymisointia tehdään, epäsuorakin tunnistaminen pitäisi tehdä mahdottomaksi. Valitettavasti täydellinen anonymisointi on mahdotonta: ihmisen voi tunnistaa pelkän puhetyylin tai käytetyn fraasin perusteella, eikä niitä voi häivyttää täydellisesti pois deletoimatta (esimerkkitapauksessa) koko haastattelua. Jos esimerkiksi Donald Trumpin puheesta poistaisi kaikki suorat ja epäsuorat tunnisteet, uskon, että lähes kuka vain mattimeikäläinen voisi tunnistaa hänet pelkkien puhemaanerien perusteella suhteellisella varmuudella.

Tämän lisäksi todella taitava tiedonhakija voi yhdistää melkein minkä tahansa puheenvuoron oikeaan henkilöön, vaikka tunnisteet olisikin siistitty pois. Siksi RDM:n saralla anonymisoinnissa puhutaankin kohtuullisesta ja suhteellisesta tunnistamattomuudesta: jos NSA tai joku muu liki äärettömän määrän rahaa ja laskentatehoa omaava taho haluaa murtaa anonymisoinnin, he luultavasti siihen pystyvät joka tapauksessa, mutta kovin todennäköisenä tai kohtuullisena moista ei voi pitää, eikä tutkijarukan voi odottaa varautuvan moiseen. Aina on olemassa riski, että anonymisoitu data onkin mahdollista yhdistää johonkin henkilöön, mikä on kaikkea muuta kuin mielenrauhaa tarjoava ajatus – tärkeää onkin tehdä tuosta riskistä niin teoreettinen kuin mahdollista. Anonymisointia ei voi näin ollen pitää binäärisenä joko-tai-valintana tai -toimenpiteenä, vaan se tehdään aina pohjimmiltaan suhteellisesti, tapauskohtaisesti arvioiden ja toimeenpannen.

Aina on olemassa riski, että anonymisoitu data onkin mahdollista yhdistää johonkin henkilöön, mikä on kaikkea muuta kuin mielenrauhaa tarjoava ajatus – tärkeää onkin tehdä tuosta riskistä niin teoreettinen kuin mahdollista.

Tämä kaikki tekee anonymisoinnista, mielestäni, RDM:n kenties haasteellisimmin toteutettavan alueen, koska mitään oikotietä onneen ei ole. Anonymisointi on tehtävä tarkasti, huolellisesti, kokonaisvaltaisesti ja kuitenkin niin, että lopputuloksesta on jotain hyötyä tutkimuksellekin – eli mitä käytännössä pitäisi tehdä? Jos totta puhutaan, en ole täysin varma; enkä edes tiedä olisinko oikea ihminen vastaamaankaan tuohon kysymykseen, vaikka tietäisinkin täydellisen anonymisointiproseduurin, koska natsani eivät riitä metodologiasta ohjeistamiseen. Avustavia tahoja kuitenkin löytyy ja esimerkiksi humanistit ja yhteiskuntatieteilijät voivat harkita yhteydenottoa HSSH-instituuttiin (eli Hessuun, näin tuttujen kesken; Helsingin yliopiston humanistis-yhteiskuntatieteellinen instituutti), josta löytyy erikseen metodologinen yksikkö, jolla on epäilemättä minua paremmat natsat metodologiasta keskustelemiseen. Hessun metodologinen yksikkö järjestää myös joka tiistai matalan kynnyksen Brown Bag -(etä)seminaaria, jossa tutkijat esittelevät omia tutkimuksiaan metodologia edellä – kenties sieltä löytyisi myös vinkkejä ja ideoita tai ainakin vertaistukea?

Kuumottavinta on tietenkin se, että tutkimuksesta vastuussa on aina loppupeleissä tutkija. Jos jossain kohdassa datansuojelua luistaa – vaikkapa tallennusratkaisuna on Umpion sijasta salaamaton muistitikku – ja henkilötietoja sisältävää dataa päätyy vääriin käsiin, paska valuu loppupeleissä tutkijan niskaan. Kaikki tämä saattaa yllättää varomattoman tutkijan sekä tuntua tutkijapoloisen kiusaamiselta, mutta kaikkeen tähän on mahdollista varautua niin hyvin kuin odottamattomaan ylipäänsä voi varautua, turvautumalla meidän datatiimiläisten suosikkijippoon eli kirjoittamalla DMP:n (datanhallintasuunnitelman, data management plan) kunnolla, huolellisesti ja konkreettisesti. Jälleen kerran on sanottava, että DMP:n kirjoittamisella tutkija säästää itseltään pitkässä juoksussa aikaa, rahaa ja mielenterveyttä, vaikka sen tekeminen kunnolla ei olisikaan niitä imponoivimpia mahdollisia hommia.

Tutkijapoloisten kiusaamista tai ei, minusta kaikki anonymisointiin liittyvät henkisesti saksalaiset vaatimukset ovat pohjimmiltaan lohdullista käsitettävää: ainakin joku ottaa yksityisyyden suojaamisen tosissaan. Voisikin siis sanoa, että puheet yksityisyyden kuolemasta ovat liioiteltuja, ainakin tutkimusdatasta puhuttaessa. RDM:n maailmassa yksityisyys on kovempaa valuttaa kuin sosiaalisessa mediassa tai muissa tarkkailukapitalismin (surveillance capitalism) rattaissa.

Humanisti datamaailmassa -kirjoitussarja:

Humanisti datamaailmassa: Mitä mä (täällä) teen? (2.2.2022)
Humanisti datamaailmassa: Datan pökerryttävä määrä (1.3.2022)
Humanisti datamaailmassa: Metadatan tarpeettoman vaikea nimi (5.4.2022)
Humanisti datamaailmassa: Täydellisen anonymisoinnin mahdottomuus (4.5.2022)