Eurostatin data tutkijoiden käyttöön – miksi aineiston käyttöä rajoitetaan ja mitä Eurostatin datalla voi tehdä?

Helsingin yliopiston tutkijoilla on ollut keväästä lähtien mahdollisuus anoa EU:n tilastotoimiston Eurostatin mikrodatoja käyttöön. Yhteiskuntatieteiden tutkijat Reijo Sund, Antti Kaihovaara ja Ville-Veikko Pulkka kertovat tutkimusluvallisten aineistojen – ”suljettujen avointen aineistojen” – erityispiirteistä ja Eurostatin datan käyttömahdollisuuksista.

Helsingin yliopiston tutkijat Reijo Sund (Yhteiskuntatieteiden menetelmäkeskuksen johtaja), Antti Kaihovaara (talous- ja sosiaalihistoria) ja Ville-Veikko Pulkka (yhteiskuntapolitiikka) kirjoittavat tässä blogiartikkelissa luvanvaraisista avoimista tutkimusaineistoista. Taustalla se, että Eurostat tunnusti keväällä Helsingin yliopiston aseman tutkimusentiteettinä, mikä antaa HY-tutkijoille mahdollisuuden anoa Eurostatin mikrodatoja käyttöön.

Sund kirjoittaa aluksi yleisesti tutkimusluvallisista datoista. Kaihovaara jatkaa Eurostatin mikrodatojen esittelyllä. Lopuksi Pulkka kertoo omasta esimerkin Eurostatin datan hyödyntämisestä tutkimuksessa.

Avoimet suljetut aineistot ja niiden hyödyntäminen (Sund)

Siitä huolimatta, että datojen avaaminen ja avoimien datojen käyttö on yleistynyt tutkimuksessa, ei moisten sekundaaristen datojen (alunperin toiseen tarkoitukseen tuotetun datan) käyttö ole aina helppoa. Kaikkia datoja ei voida esimerkiksi tietosuojasyistä koskaan avata kokonaan. Avoimeen tieteeseen liittyy myös vähemmän esillä ollut uhkakuva siitä, että tieteellisen tiedon asema luotettavimpana tiedon lähteenä voi pikkuhiljaa murentua, kun aineistojen ja menetelmien avoimuudella mahdollistetaan myös näennäisesti tieteellisten tulosten tuottaminen varsin olemattomalla teknisellä osaamisella ja ilman tutkijoiden kriittistä asiantuntemusta tutkittavasta ilmiöstä ja aineistoihin potentiaalisesti liittyvistä ongelmista.

Vaikka tilastoviranomaiset periaatteessa tarjoavat aineistojaan varsin auliisti tutkijoiden käyttöön ainakin maksua vastaan, niin ensisijaisesti tietosuojasyihin vedoten yksityiskohtaisimpien aineistojen käyttöä perustellusti kontrolloidaan tutkimuslupamenettelyin. Viime vuosina aineistojen käyttöä on rajoitettu myös tutkijoiden keskuudessa närää herättäneillä vaatimuksilla käyttää aineistoja vain viranomaisten omissa tietoturvallisissa käyttöympäristöissä, joiden käytöstä koituu tutkijoille ylimääräisiä kustannuksia.

Aineistojen varsinaisten omistajien kannalta rajoitteissa on kiistatta omat etunsa. Raaka-aineistoista ei esimerkiksi synny tahattomia kopioita, kun niitä ei saa siirtää tarjotusta turvallisesta käyttöympäristöstä vaikkapa muistitikuille tai kannettaville tietokoneille hukattavaksi potentiaalisten väärinkäyttäjien käsiin. Jos käyttölupien saaminen on joustavaa ja tarjotut ympäristöt riittävän tehokkaita ja monipuolisia, ja jos tällaiset uudenlaiset datainfrastruktuurikustannukset katetaan muualta kuin tutkijoiden omasta pussista, niin ei tutkijoillakaan pitäisi olla ihmeemmin nokan koputtamista.

Tieteen avoimuushan ei täysin toteudu, jos aineistot ovat käyttölupien takana. Periaatteessa tämänkään ei pitäisi olla ongelma, jos alkuperäisen tutkimushankkeen päätyttyä ja tutkimusryhmän ulkopuolisena on mahdollista saada käyttölupa täsmälleen samaan aineistoon. Tällöin avoimina julkaistujen analyysiskriptien avulla on mahdollista täsmällisesti toistaa tutkimuksen analyysit. Käytännössä ilman toimivaa versionhallintaa aineistoille ja ohjelmistoille tähän ihanteeseen ei kovin helposti päästä, vaikka suunta onkin oikea.

Helsingin yliopistossa Yhteiskuntatieteiden menetelmäkeskus on ollut mukana erinäisissä datainfrastruktuureihin liittyvissä hankkeissa ja pyrkinyt omalta osaltaan edesauttamaan tutkijoiden pääsyä myös edellä kuvattuihin avoimiin suljettuihin aineistoihin.

Esimerkiksi Tilastokeskuksen etäkäyttöjärjestelmän osalta on saatu järjesteltyä yliopiston kaltaisen ison ja monihaaraisen toimijan kannalta toimivampi sopimusmenettely. Lisäksi on otettu käyttöön yliopiston verkon sisälle palvelin, jonka kautta ohjataan liikenne etäkäyttöjärjestelmään niin, että jokaisen tutkijan koneelle ei tarvitse erikseen tehdä etäkäyttöohjelmiston asennusta eikä palomuuriasetusten räätälöintiä. Toisena esimerkkinä on Suomi24 -keskustelupalstan paketointi johdettuja tietoja sisältäväksi tutkimusaineistoksi ja sen analysointiin sopivan perustyökalupaketin kehittäminen. Tähän liittyen on nyt syksyllä kurssikin, Analysis of Discussion Forum Data.

Kolmantena esimerkkinä on toimiminen yhteystahona Eurostatin mikrodatojen tutkimuskäytön osalta Helsingin yliopistossa, josta seuraavaksi enemmän.

Eurostatin mikrodatat tutkijoiden käyttöön (Kaihovaara)

Kansainvälinen yhteistyö tiedonkeruussa sekä tilastoaineistojen ja menetelmien harmonisoinnissa tarjoaa tutkijoille erinomaisia mahdollisuuksia vertailevan tutkimuksen tekoon. Yksi alikäytetty tietokanta on Euroopan unionin tilastotoimisto Eurostatin mikrodata, joka avautui tänä keväänä vihdoin Helsingin yliopiston tutkijoiden käyttöön.

Euroopan unionin tilastotoimiston Eurostatin pääasiallinen tarkoitus on harmonisoida EU:n jäsenmaiden tilastointikäytäntöjä sekä tarjota vertailukelpoista Eurooppa-tason tilastotietoa instituutioiden ja kansalaisten käyttöön. Eurostat ei kerää dataa itse vaan hyödyntää toiminnassaan jäsenmaiden kansallisia tilastotoimistoja. Eurostatin tuottamat tilastot kattavat laajan paletin teemoja talousindikaattoreista elinolosuhteisiin ja liikenteestä ympäristöön.

Eurostatin julkisia tilastoja hyödynnetään laajalti erilaisissa tutkimuksissa ja selvityksissä, mutta erityisen herkullisia mahdollisuuksia tilastotietoa hyödyntäville tutkijoille tarjoaa ainoastaan tutkimustarkoitukseen tarkoitettu mikrodata, joka sisältää tietoa yksittäisistä henkilöistä, kotitalouksista ja talousyksiköistä. Yksityisyyden suojan turvaamiseksi pääsy mikrodataan edellyttää yksityiskohtaista tutkimussuunnitelmaa ja luotettavaa taustaorganisaatiota.

Suuri osa Eurostatin mikrodatasta perustuu kansallisiin kysely- ja kotitaloustutkimuksiin. Yhteiskuntatieteellisessä tutkimuksessa mikrodatan käytetyimmät aineistot ovat eurooppalainen työvoimatutkimus (Labor Force Survey, LFS), aikuiskoulutustutkimus (Adult Education Survey, AES) ja tulo- ja elinolotilastot (EU-SILC). Aineistojen kattavuus ja keruutavat vaihtelevat. Esimerkiksi työvoimatutkimus kerätään vuosittain kvartaalitasolla, mutta aikuiskoulutustutkimus toteutetaan muutaman vuoden välein. Tulo- ja elinolotutkimus soveltuu aineistoista parhaiten kausaalisten yhteyksien tarkasteluun, sillä se sisältää yksilötason pitkittäisaineistoja neljän vuoden periodeissa.

Monet mikrodataa hyödyntävät tutkimukset yhdistelevät sitä muihin Eurooppa-tason aineistoihin kuten European Social Surveyhyn. Tällöin mikrodata voi toimia myös ”benchmarkkina” tai laadun varmistajana, jonka kautta tarkastellaan erilaisten ryhmien yli- tai aliedustusta vertailtavassa aineistossa. Mikrodataa hyödyntäviin tutkimuksiin voit tutustua muun muassa täällä (Publications from Eurostat microdata). Yksi käyttökohde aineistoille on mikrosimulointi, josta seuraavaksi tarkemmin.

Eurostat-aineistot mikrosimuloinnissa (Pulkka)

Mikroaineistoihin perustuvista simulointilaskelmista on tullut yleisesti käytetty työkalu politiikkatoimenpiteiden ennakkoarvioinneissa niin Suomessa kuin kansainvälisestikin. Suomessa yleisin käytössä oleva simulointimalli on Tilastokeskuksen kehittämä ja ylläpitämä, Suomen henkilövero- ja sosiaaliturvajärjestelmää mallintava SISU-mikrosimulointimalli. Eurooppalaisella tasolla tehtyjen vertailevien tutkimusten taustalta löytyy kuitenkin useimmiten EUROMOD-mikrosimulointimalli

Essexin yliopiston Institute for Social and Economic Research (ISER) -yksikön ylläpitämää EUROMOD-mallia on kehitetty vuodesta 1996 alkaen, ja sen käyttäjiä löytyy ympäri maailmaa. Vertailevan tutkimuksen lisäksi mallin etuna voi pitää sen ympärille rakennettua graafista ohjelmaa, joka on toiminnaltaan varsin intuitiivinen. Tämä helpottaa tutkimusmetodin yleisempää hyödyntämistä, sillä ensimmäiset simuloinnit onnistuvat varsin vaivattomasti mallin sisäänrakennettua harjoitteludataa ja EUROMOD-organisaation tuottamia harjoitustehtäviä hyödyntämällä – myös ilman aikaisempaa mikrosimulointikokemusta. EUROMOD-organisaatio järjestää myös pari kertaa vuodessa koulutusta uusille mallin käyttäjille.

Intuitiivisen käyttöliittymän lisäksi EUROMODin etuna voi pitää simuloinneissa käytettävän European Union Statistics on Income and Living Conditions -aineiston (EU-SILC) maksuttomuutta. Eurostat lupaa aineistonhakuprosessin kestävän noin 8 viikkoa, mutta tätä pidempäänkin käsittelyaikaan on kokemusten mukaan syytä varautua tutkimusprojekteja suunniteltaessa. Mallin lataaminen omalle tietokoneelle onnistuu kuitenkin selvästi tätä nopeamman hakemusprosessin kautta.

Syksyllä 2018 käynnistyvä Helsingin yliopiston ja Kelan tutkimuksen yhteishanke Taxation in the Digital Economy tutkii EUROMOD-mallin avulla tutkimuskirjallisuudessa esitettyjen verouudistusten vaikutuksia köyhyysmittareihin, eriarvoisuuteen ja valtioiden tuloihin. Kokonaan uusien veroparametrien simuloinnin ohella hankkeen yhteydessä tutkitaan esimerkiksi erilaisia mahdollisuuksia uudistaa pääomatuloverotusta vastaamaan työn murroksen synnyttämiä haasteita. Policy swapping -strategian avulla puolestaan tutkitaan, löytyykö Euroopan unionin maista jo olemassaolevia verojärjestelmiä, jotka olisi syytä toteuttaa koko EU:n alueella. EUROMOD-mallilla tehtyihin aikaisempiin tutkimuksiin on mahdollista tutustua EUROMODin Working Paper -julkaisusarjan kautta.

Reijo Sund
Ville-Veikko Pulkka
Antti Kaihovaara