Montako tutkimusaineistoa yliopisto tuottaa vuodessa?

Nykyinen meritoitumisjärjestelmä ei juuri palkitse tutkimusaineistojen tuottajia. Voisiko ratkaisuna olla tutkimusaineistojen nostaminen samanlaiseksi mittariksi kuin mitä tutkimusjulkaisut ovat, kuten kansallisessa avoimen tieteen seurannassa parasta aikaa pohditaan. Mutta miten tutkimusaineistoja lasketaan? Ja mikä oikeastaan lasketaan tutkimusaineistoksi? Tässä blogiartikkelissa tarkastellaan, mitä tutkimusaineistot ovat ja miksi niitä on vaikea mitata. Samalla esitetään vaihtoehtoisia tapoja edistää tutkimusaineistojen tuottamista ja lisätä niiden arvoa tieteellisen työn tuotoksena.

Teksti: Mari Elisa Kuusniemi (Helsingin yliopiston kirjasto & Datatuki)

Kuvalähde: Flickr, CC BY-SA

Avoimen tieteen edistäjien piirissä on mietitty jo pitkään erilaisia tapoja kannustaa avoimen tieteen periaatteiden noudattamiseen. On tunnistettu, että avoimen tieteen periaatteiden noudattamisen pitäisi olla tutkijoille kannattavaa. Perinteiset kannustimet eivät kata kaikkia tutkimustuotoksia, kuten tutkimusaineistoja (data-aineistoja), koodeja tai menetelmiä. Usein kannustimet ja mittarit käyvät käsikädessä. Siksipä avoimen tieteen piirissä on kehitetty mittareita, joiden toivotaan toimivan myös eräänlaisina kannustimina. Kansallinen avoimen tieteen koordinaatio tekee joka toinen vuosi selvityksen avoimen tieteen tilasta. Selvitysten tausta-ajatus on tukea organisaatioiden kehitystyötä.

Erilaisten tutkimustuotosten mittaaminen ei ole aivan yksinkertaista. On esitetty, että jatkossa Avoimen tieteen seurannassa seurattaisiin muun muassa sitä, kuinka monta tutkimusaineistoa tutkimusorganisaatio tuottaa vuodessa. Ja kuinka moni niistä on julkaistu avoimena. Ajatus saattaa kuulostaa ensi alkuun järkevältä, mutta mietitäänpä aihetta pieni hetki. Mikä on tutkimusaineisto? Mistä se alkaa ja mihin päättyy? Milloin se syntyy?

Kuinka monta tutkimusaineistoa ja kenen toimesta?

Tieteen termipankki määrittelee tutkimusaineiston seuraavasti:

”tutkijan tuottama tai tutkimusprosessin aikana käyttämä resurssi eli digitaalisessa, analogisessa tai fyysisessä muodossa oleva tieteellisen tutkimuksen perusaineisto tai perusaineistosta jalostettu aineisto, johon tutkimuksen löydökset ja tulokset perustuvat.”

Onko määritelmästä apua, jos vaikkapa yritämme tulkita montako tutkimusaineistoa Helsingin yliopisto tuottaa vuodessa?

Otetaan esimerkiksi Helsingin yliopiston piirissä toimiva Laji.fi (Suomen Lajitietokeskus). Se on hyvä esimerkki, koska sen etusivulla kerrotaan selkeästi määristä. Tästä Lajitietokeskuksen tutkijoiden ja teknisten osaajien yhdessä luomasta tietovarannosta löytyy reilut 40 miljoonaa havaintoa, yli 45 000 lajia ja 495 aineistoa. Onko vastaus kysymykseemme siis 495? Ei. Aineistoilla tässä kohdassa viitataan näytteisiin, jotka ovat toki tutkimusaineistoja, mutta niin voivat olla myös nuo muut etusivulla mainitut tietotuotteet.

Ovatko kaikki Laji.fi:n havainnot tutkijoiden tuottamia? Laji.fi hyödyntää kansalaistiedettä, jolloin lintuja ja muita eliöitä havaitsevat ja raportoivat eivät usein ole tutkijoita. Tutkijat ovat kuitenkin luoneet järjestelmän, jolla havaintoja kerätään ja kuratoidaan (= havainnon luotettavuuden tarkistaminen). Havaintoja siis kerätään vähän samaan tapaan kuin kyselyaineistoja. Eivät tutkijat kyselyn vastauksia tuota, he tekevät vain kyselylomakkeen. Kyselytutkimuksen tulokset mielletään usein yhdeksi tutkimusaineistoksi. Onko Laji.fi vastaavasti vain yksi tutkimusaineisto?

Milloin aineisto luotiin?

Jos kyselytutkimus on laaja ja siitä kirjoitetaan useita artikkeleita eri näkökulmista, jokainen tutkija koostaa lähtöaineistoista osa-aineiston, jota käyttää kyseisessä tutkimuksessaan. Tutkimusaineiston määritelmän mukaan tällainen jalostettu aineisto voi myös olla tutkimusaineisto. Mistä saamme tietää montako jalostettua tutkimusaineistoa Laji.fi:stä on syntynyt? Palvelusta löytyy sivu, jolle on kerätty viimeisimmät lehtiartikkelit, kirjan luvut ja muut julkaisut, joissa käytetään tai viitataan Lajitietokeskuksen kautta jaettuihin tietoihin ja Lajitietokeskuksen työkaluihin tai palveluihin. Voisiko näitä laskemalla saada selville tänä vuonna tuotettujen tutkimusaineistojen määrän? Ehkä, jos tutkijat muistaisivat luotettavasti raportoida Laji.fin käytöstä. Tänä vuonna kerättyjä havaintoja saattaa joku käyttää vasta ensi vuonna. Onko tutkimusaineisto silloin luotu tänä vai ensi vuonna? Jos aineistoa täydennetään, milloin se oikeastaan luotiin?

Avoin vai suljettu?

Laji.fi kerää myös aineistoja, joita ei löydy avoimesti portaalista. Näitä ovat esimerkiksi havainnot uhanalaisista eliöistä. Viranomaiset ja tutkijat voivat käyttää tietoja selvityksissään ja tutkimuksessaan.  Huhuttu avoimen tieteen seurannan mittaristo haluaa erottaa suljetut ja avatut aineistot. Miksi? Jotta avoimuudesta palkittaisiin? Vai jotta suljetusta saisi lisäpisteitä, koska arkaluonteisen tiedon säilyttäminen vaatii lisäponnistuksia? Vai lasketaanko sellainen rajoitettu aineisto avoimeksi, johon tutkijoilla on asianmukaisella hakemuksella pääsy?

Tutkimusaineistojen laskemisen vaikeus

Tutkimusaineistojen määrällinen laskeminen on hankalaa. On vaikea sanoa, milloin aineisto syntyi ja on vaikea sanoa mistä yksi aineisto alkaa ja toinen loppuu. Yksi laaja aineisto voidaan pilkkoa pienempiin kokonaisuuksiin. Yhdestä aineistosta voi joskus tulla kolme, joskus kolmetuhatta osa-aineistoa. Mitä kerättyä aineistoa on käytetty tutkimuksessa? Sitä on vaikea tietää, koska esimerkiksi tutkimusinfrastruktuurien keräämiin aineistoihin ei luotettavasti viitata (ks. blogiartikkeli dataviittaamisesta). Jos päätämme laskea tutkimusaineistojen määrään, saamme siihen varmasti käytettyä paljon aikaa. Helsingin yliopiston kokoisessa organisaatiossa se vaatisi ehkä kaksi henkilötyövuotta. Kun saamme jonkun arvion aikaiseksi, mitä hyötyä siitä on? Olisiko sama vertailutulos saatu helpommin ja luotettavammin, vaikkapa yliopistossa toimivien tutkijoiden lukumäärän perusteella?

Mitä kerättyä aineistoa on käytetty tutkimuksessa? Sitä on vaikea tietää, koska esimerkiksi tutkimusinfrastruktuurien keräämiin aineistoihin ei luotettavasti viitata.

Mielestäni emme ole vielä valmiita laskemaan montako tutkimusaineistoa yliopisto tuottaa vuodessa. Tuskin olemme koskaan valmiita vastaamaan siihen kysymykseen, koska kysymys on alun alkaenkin väärä. On kuitenkin muita hyviä kysymyksiä, joita voisimme lähteä selvittämään. Kysymyksiä, joihin vastauksia etsimällä tulemme tukeneeksi avointa tiedettä. Voisimme esimerkiksi selvittää, missä tutkimusaineistoja, koodeja yms. tutkimustuotoksia tällä hetkellä julkaistaan. Voisimme selvittää ovatko nämä paikat vakaalla pohjalla vai onko niiden tulevaisuus uhattuna. Voisimme selvittää mikä estää tutkimusaineistojen julkaisemisen eri aloilla ja mitä voisimme tehdä esteiden raivaamiseksi. Tärkeää on myös tutkimusaineistojen kuratoiminen, laadun kehittäminen, metatietojen kerääminen sekä näkyvyyden ja löytyvyyden parantaminen.

Ovatko nämä tärkeitä jatkoselvityksen aiheita? Vai onko sittenkin parempi käyttää ensi vuonna aikaa tutkimusaineistojen määrän selvittämiseen, ja jättää varsinaisen tutkimuksen tukeminen vähemmälle?

Voisimme esimerkiksi selvittää, missä tutkimusaineistoja, koodeja yms. tutkimustuotoksia tällä hetkellä julkaistaan. Voisimme selvittää ovatko nämä paikat vakaalla pohjalla vai onko niiden tulevaisuus uhattuna. Voisimme selvittää mikä estää tutkimusaineistojen julkaisemisen eri aloilla ja mitä voisimme tehdä esteiden raivaamiseksi. Tärkeää on myös tutkimusaineistojen kuratoiminen, laadun kehittäminen, metatietojen kerääminen sekä näkyvyyden ja löytyvyyden parantaminen.


Mari Elisa ”MEK” Kuusniemi (TUHAT, ORCID, @MEKTerkko) työskentelee tietoasiantuntijana Helsingin yliopiston kirjastossa ja Datatuessa.