Avoimuus voi vahvistaa päätöksenteon tieteellistä pohjaa

Tarve laskennan läpinäkyvyyteen korostuu, kun datasta tulkitaan tietoa tutkimuksen ja päätöksenteon tueksi. Algoritmien avoimuus vahvistaisi päätöksenteon luotettavuutta ja tieteellistä pohjaa, mutta muutos voi vaatia julkisuuslain päivittämistä. Datatieteen tutkija Leo Lahti tarkastelee artikkelissaan algoritmien avoimuuden toteuttamista sekä periaatteellisella että käytännöllisellä tasolla.

Teksti: Leo Lahti

Kysymys algoritmien avoimuudesta päätöksenteossa tuli jälleen ajankohtaiseksi Terveyden ja hyvinvoinnin laitoksen (THL) salattua päätöksenteon tueksi laaditut epidemialaskelmat vastoin hallituksen aiempaa periaatepäätöstä. Laskelmien yksityiskohtien salaamisen on mahdollistanut lähdekoodin epäselvä asema julkisuuslaissa muihin asiakirjoihin verrattuna. Avoimuuden yhteiskunnallinen merkitys tulee kasvamaan lisää, kun päätöksentekoa automatisoidaan. Tutkimustyössä algoritmien avoimuus on kohentunut viime vuosina. Asiantuntijatyössä asian merkitykseen ollaan sen sijaan vasta havahtumassa, vaikka päätöksenteolta voitaisiin edellyttää tutkimukseen verrattuna jopa suurempaa avoimuutta. Tämä kirjoitus pohtii, mitä algoritmien avoimuus tarkoittaa ja miten sitä voitaisiin edistää julkisen päätöksenteon tueksi tehtävässä asiantuntijatyössä.

Avoimuus on luottamuksen ja yhteistyön perusta

Läpinäkyvyyden puute voi johtaa vakaviin ongelmiin tutkimuksessa ja päätöksenteossa. Vuoden 2013 Reinhart-Rogoff-kohu syntyi opiskelijan havaittua virheen Harvardin taloustieteen professorien laatimissa ja päätöksentekijöiden käyttämissä laskelmissa. Keväällä 2020 vertaisarvioidun Nature Medicinen julkaisemissa koronaepidemiaan liittyvissä laskelmissa havaittiin kriittinen virhe. Suomessa on kesällä keskusteltu maskitutkimuksen metodologiasta.

Läpinäkyvyyden puute voi johtaa vakaviin ongelmiin tutkimuksessa ja päätöksenteossa.

Kaikissa edellä mainituissa tapauksissa puutteet havaittiin, koska menetelmät olivat muidenkin saatavilla ja arvioitavissa. Tutkimuksen avoimuus kohtaa kuitenkin yhteiskunnan muuttuessa uusia haasteita, joihin perinteinen tiedejärjestelmä ei ole valmistautunut vastaamaan; on puhuttu jopa tieteen toistettavuuskriisistä (esim. Reijula & Ylikoski 2020). Samalla informaatioteknologia on luonut ennennäkemättömiä mahdollisuuksia digitaalisten resurssien jakamiseen vahvistaen läpinäkyvyyttä, luoden uusia yhteistyön muotoja ja kiihdyttäen tieteen kehitystä. Tutkimusorganisaatiot ovat ryhtyneet edistämään avoimen tieteen käytäntöjä, mistä tuore esimerkki on kansallinen avoimen tieteen ja tutkimuksen julistus.

Julkisessa päätöksenteossa menetelmien avoimuuteen on kiinnitetty vähemmän huomiota (Kuva 1). Päätöksentekoa koskee laaja julkisuusperiaate ja asiantuntijat työskentelevät usein avoimen tieteen edistämiseen sitoutuneissa organisaatioissa. Uusien toimintamallien omaksuminen julkishallinnossa vie kuitenkin oman aikansa. Ministeri Krista Kiuru puolusteli epidemialaskelmien salaamista vetoamalla tarkemmin määrittelemättömiin tieteellisiin käytäntöihin, vaikka lähdekoodin avoimuus sisältyy jo hallituksenkin suosittamiin avoimen tieteen periaatteisiin. Useat tutkijat ovat viime aikoina ottaneet kantaa asian yhteiskunnalliseen merkitykseen (Lahti, Wallgren & Kulmala HS 3.5.2020; Luoma HS 3.5.2020; Ala-Nissilä HS 17.5.2020; Kantola HS 26.5.2020; Kuorikoski & Reijula 26.5.2020; Hakkarainen, Koulu & Markkanen 12.6.2020). Laskelmien avoimuus on tutkimuksessa nykyisin suositeltua ja verraten tavanomaista. Sen avulla voitaisiin tukea nykyistä enemmän myös julkista keskustelua ja vahvistaa päätöksenteon tieteellistä pohjaa.

Kuva 1: Datasta jalostetaan tietoa tutkimuksen ja päätöksenteon raportteihin laskennallisten työvirtojen avulla. Tutkimuksessa on kiinnitetty huomiota koko päättelyketjun avoimuuteen, mutta julkisessa päätöksenteossa datan tulkinta muodostaa harmaan laatikon. Harmaan laatikon menetelmät kuvataan yleisellä tasolla ja lähdekoodiin sisältyvät keskeiset yksityiskohdat salataan.

Menetelmien avoimuus käytännössä

Hallitus linjasi toukokuussa, että päätöksenteon epidemialaskelmia koskevat taustatiedot ja laskelmat oletuksineen ja parametreineen tulee julkaista noudattaen avoimen tieteen periaatteita. Mitä se tarkoittaa? Avoimuus on käsitteenä vakiintunut. Avoimen tieteen kansallisen koordinaation mukaan tavoitteena on tutkimustuotosten, mukaan lukien lähdekoodin, avoin saatavuus, joka voidaan varmistaa avoimella lisenssillä. Avoimet lisenssit kiinnittävät saatavuuden lisäksi huomiota myös käyttöoikeuksiin. Avoimuus on siis käsitteenä julkisuutta laajempi, ja siihen liittyy hyvin määriteltyjä teknisiä ulottuvuuksia. Tavoitteena on koko tutkimuskulttuurin muutos, joka voi tarkoittaa esimerkiksi avoimempaa arviointia tai laajempaa osallistamista. Lähdekoodin avoimuus on liitetty avoimen tieteen käsitteeseen myös kansainvälisessä keskustelussa (mm. Becher & Friesike 2015). Sen on katsottu vahvistavan tutkimuksen laatua, luotettavuutta, tehokkuutta ja yhteistyötä (Wald 2010; Jiménez ym. 2017). Tieteen tai päätöksenteon julkisuus ei edellytä avoimuutta, mutta esimerkiksi laskelmien julkisuus on usein käytännössä yksinkertaisinta varmistaa avoimin toimintamallein.

Avoimet lisenssit kiinnittävät saatavuuden lisäksi huomiota myös käyttöoikeuksiin. Avoimuus on siis käsitteenä julkisuutta laajempi, ja siihen liittyy hyvin määriteltyjä teknisiä ulottuvuuksia.

Lähdekoodin salaaminen hankaloittaa tarpeettomasti asiantuntijatyön julkista arviointia. Datan jalostaminen tiedoksi vaatii monivaiheisen työvirran (Kuva 2). Toisinaan on esitetty, ettei lähdekoodi toisi tieteellisen mallin arviointiin uutta sisältöä. Koodin virheillä ja yksityiskohdilla voi kuitenkin olla yhtä suuri merkitys tulosten arvioinnille kuin työvirran ytimestä löytyvillä malleilla. Datan tulkinta on yksittäistä työvirran sisältä löytyvää mallia laajempi kokonaisuus. Tutkimustyössä on nimenomaan näistä syistä jo pitkään kiinnitetty huomiota lähdekoodin avoimuuteen. THL:n tietoylijohtaja Pekka Rissanen ehdotti, että julkisen päätöksenteon tueksi tehdyt laskelmat pitäisi varmistaa tieteellisellä vertaisarvioinnilla ennen niiden julkaisemista. Poliittisen päätöksenteon mallit tulisi kuitenkin kyetä erottamaan tieteellisestä tutkimuksesta. Kevään laskelmien tulokset on jo julkaistu hallituksen raportissa, eikä jopa vuosia myöhemmin tapahtuva tieteellinen vertaisarviointi tue tämän hetken julkista keskustelua ja päätöksentekoa. Tutkijat ovat itse ehdottaneet, että viranomaisten laskelmien tulisi olla avoimesti ja viiveettä saatavilla täydentävää mallinnusta varten (HS 17.5.2020).

Kuva 2: Valmis työvirta kuvaa prosessin, jolla data tulkitaan raportoitavaksi tiedoksi. Tulkinnan toteuttava työvirta sisältää monia vaiheita. Vakiintuneen määritelmän mukaan työvirta on avoin, kun se on jaettu julkisesti avoimella lisenssillä. Toimintaperiaatteiden tai yksittäisten mallien yleinen kuvailu ei tee työvirrasta avointa. Tulkinnan jokainen vaihe ja virhe vaikuttaa lopullisiin johtopäätöksiin. Valmistelun aikana syntyy keskeneräisiä luonnoksia (harmaa laatikko), mutta lopullinen työvirta lähdekoodeineen (valkea laatikko) on yhtä valmis kuin sen avulla laadittu raportti.

Avoimuus mahdollistaa julkisen arvioinnin. Tutkimuksessa on perinteisesti korostettu päättelyprosessin kuvaamista, ei niinkään yksityiskohtien, kuten lähdekoodin jakamista. Vanhat käytännöt eivät kuitenkaan pysty täysin vastaamaan tämän päivän haasteisiin. Laskelmia on usein käytännössä mahdotonta arvioida kattavasti ilman lähdekoodia. THL on itsekin todennut koodin vaatineen vuosien kehitystyön, ja oikeuskanslerin selvityspyynnössä huomautettiin, ettei laskelmia ollut mahdollista toisintaa tai arvioida annettujen kuvausten perusteella. Sittemmin julkaistu esimerkkikoodi ei edelleenkään sisällä päätöksenteon laskelmia eikä kaikilta osin vastaa julkaistua viestintämateriaalia, kuten koodiin perehtynyt tutkijatohtori Tuomas Aivelo huomautti. Yksi syy eroihin on se, että malleista on kehitetty useita versioita päätöksenteon tueksi. Versionhallinnan avulla lähdekoodi voitaisiin julkaista samalla kun sitä kehitetään, ja esimerkiksi Norjan terveysviranomainen FHI jo tekee näin. Avoimesta versionhallinnasta on jo tullut tutkimustyön perusväline, jolla malleihin tehdyt muutokset voidaan tehdä läpinäkyviksi ja tuoda viiveittä julkisen ennakkoarvioinnin piiriin.

Versionhallinnan avulla lähdekoodi voitaisiin julkaista samalla kun sitä kehitetään, ja esimerkiksi Norjan terveysviranomainen FHI jo tekee näin. Avoimesta versionhallinnasta on jo tullut tutkimustyön perusväline, jolla malleihin tehdyt muutokset voidaan tehdä läpinäkyviksi.

Avoimuuden pullonkaulat

Lähdekoodin muokattavuus ei tee siitä keskeneräistä. Korkein hallinto-oikeus tulkitsi vuonna 2015, että Työ- ja elinkeinoministeriön (TEM) energiankulutuksen ja kasvihuonekaasupäästöjen laskentamalli oli keskeneräinen luonnos, koska sitä muokataan jatkuvasti. Keskeneräiset luonnokset eivät ole julkisia. Teollisuusneuvos Petteri Kuuva luonnehti tuolloin, että malli on ajattelun apuväline, jolla oleva tieto ei tule valmiiksi. Keskeneräisyys salaamisperusteena on ongelmallinen, sillä lähdekoodi on perusluonteeltaan muuntuvaa. Jokainen julkisen raportin kuvaaja perustuu silti yksikäsitteisesti määritellyn ajanhetken versioon, joka voidaan osoittaa versionumerolla. Tutkimusraporttien lähdekoodi on tavanomaisesti ainakin pyydettäessä saatavilla, mutta viranomaisten julkisiin raportteihin ei vielä sovelleta samaa käytäntöä.

Salaamisella haluttiin myös estää taitamaton käyttö. Kuuvan sanoin: ”Jos sitä käyttää sellainen henkilö, joka ei tiedä kaikkia riippuvuuksia, saadaan aivan vääriä tuloksia. Sitä ei pysty käyttämään kuin sellainen henkilö, joka tietää kaikki riippuvuudet.” Turun yliopiston valtio-opin professori Matti Wiberg piti laskelmien puutteellista julkisuutta vakavana ongelmana: ”Poliittisia uudistuksia perustellaan usein ministeriöissä tehdyillä laskelmilla, joita ei kuitenkaan yleensä julkisteta” (YLE 29.1.2013). Myös ministeri Kiuru totesi, että ”THL ei ole julkaissut keskeneräisiä mallinnuksia niiden sisältämän epävarmuuden ja tarkistamattomien tulosten takia, jotka voisivat johtaa tarkastelijoita harhaan”. Vastaavalla perusteella voitaisiin pyrkiä salaamaan itse asiassa kaikki päätöksenteon perusteena käytetty tieto. Viestinnän professori Anu Kantola kirjoittikin, että ”on vanhentunutta ajatella, että asiantuntijoiden kannattaa istua tiedon päällä, jottei syntyisi sekaannusta” (HS 26.5.2020). Myös asiantuntijat tekevät virheitä, ja sen vuoksi tutkimustyössä on yleensä katsottu, että avoimuus ja toistettavuus auttavat takaamaan laskelmien luotettavuuden.

Lähdekoodin salaamista on perusteltu tutkijoille aiheutuvalla haitalla (OKF 15.6.2020). Viranomaisten edustajat ovat virheellisesti arvioineet, etteivät tutkijat olisi valmiita julkaisemaan koodia, koska tieteelliset julkaisusarjat eivät julkaise aiemmin julkaistuja tuloksia. Tieteelliset sarjat eivät kuitenkaan tosiasiassa pidä koodin avointa kehitystä julkaisun esteenä, eikä koodi ole yleensä tieteellinen tulos. Monet tutkijat, allekirjoittanut mukaan lukien, kehittävät lähdekoodia avoimessa versionhallinnassa jo vuosia ennen siihen perustuvien tutkimusten julkaisemista. Salaamisen tueksi esitetty väite on siten virheellinen ja asettaa yksittäisen tutkijan julkaisusuunnitelmat kansalaisten tiedonsaantioikeuden edelle. Haitta ja keskeneräisyys salaamisperusteena poistuisivat viimeistään julkaisun ilmestyessä, mutta tämäkin jää ilmaan, sillä viranomaisella ei ole velvollisuutta esittää sitovaa julkaisusuunnitelmaa. Julkishallinnon aineistojen hyödyntämistä selvittävä työryhmä totesi tuoreessa raportissaan, että julkisuuslain tietyt pykälät ja niiden nykytulkinta saattavat vaikeuttaa asiakirjojen avaamista. Työryhmä ehdotti julkisuuslain päivittämistä erityisesti THL:n salaamispäätökselle keskeisen vahinkoedellytyslausekkeen osalta.

Vaikka suosituksia ja hyviä käytäntöjä tarvitaan, päätöksenteon laskelmien julkisuus ei voi perustua vapaaehtoisuuteen. Päätöksenteon avoimuus on poliittinen valinta. Päätöksenteolta voitaisiin edellyttää jopa suurempaa avoimuutta kuin tutkimukselta.

Lähdekoodin epäselvä asema julkisuuslaissa heikentää päätöksenteon julkisuutta. Kaikki päätöksenteon perusteena olevat tilastot, tallenteet, raportit ja niihin rinnastettava materiaali ovat julkisia, mutta lähdekoodi on katsottu oikeuden päätöksissä aina keskeneräiseksi ja sille on muodostunut julkisuuslain tulkinnassa erityisasema. Myös tekoälyn etiikkasertifiointihankkeen puheenjohtaja Meeri Haataja käsitteli algoritmien asemaa julkisuuslaissa tuoreessa kirjoituksessaan (HS 21.7.2020). Mahdollisuus laskelmien salaamiseen ei luultavasti ollut lainsäätäjän alkuperäisenä tarkoituksena. Päätöksenteon tueksi tehtävien laskelmien julkisuutta tulisikin selkeyttää lainsäädännössä. Julkisuusperiaatteen toteutumista voitaisiin lisäksi tukea laatimalla päätöksenteon avoimuutta koskevat suositukset, ja avoimesta kehitystyöstä voitaisiin sopia avoimen tieteen edistämiseen sitoutuneiden tutkimuslaitosten kanssa jo valmisteluvaiheessa. Asia on ajankohtainen, sillä hallitusohjelmassa tiedon avoimuudesta on luvattu tehdä tietopolitiikan kantava periaate. Vaikka suosituksia ja hyviä käytäntöjä tarvitaan, päätöksenteon julkisuus ei voi keskeisiltä osin perustua vapaaehtoisuuteen. Päätöksenteon avoimuus on poliittinen valinta. Päätöksenteolta voitaisiin edellyttää jopa suurempaa avoimuutta kuin tutkimukselta.

Leo Lahti (ORCID, @antagomir) on laskennallisen tieteen tutkija, joka on pitkään toiminut avoimen tieteen parissa. Hän työskentelee datatieteen apulaisprofessorina Turun yliopistossa ja johtaa Turku Data Science Group -tutkimusryhmää. Lahti oli keväällä 2020 laatimassa Open Knowledge Finlandin tietopyyntöä koronaepidemialaskelmien lähdekoodeista.