Tutkimusdatan hallintaa Kööpenhaminassa

Kööpenhaminassa on meneillään Nordbibin* järjestämä konferenssi “Structural Frameworks for Open, Digital Research – Strategy, Policy, Infrastructure.” Allekirjoittaneen tilaisuuteen vei ennen kaikkea Tutkimuksen tietoaineistot -hanke, josta pian toivottavasti lisää.

Tutkimusdatan hyödyt ja kustannukset

Päivä alkoi Knowledge Exchangen seminaarilla, jossa käsiteltiin “aihetta, joita kaikki vihaavat”: tutkimusdatan kustannus- ja hyötylaskentaa. Viime aikoina asian parissa kylläkin on työskennelty vireästi. Kätevä lähtökohta eri projekteihin on täällä: wiki.opf-labs.org/display/CDP. Itse asiassa nyt heräisikin kysymys, onko erilaisia hankkeita jo liikaa – Kööpenhaminan lisäksi parin viikon sisällä on kaksikin muuta asiaa käsittelevää kokousta. 

Seminaarissa esiteltiin eri laitoksissa tehtyä kustannuslaskentaa; esitykset toivottavasti saadaan esille pian. Haasteet ovat varmasti jokseenkin samantapaisia kuin muussakin kustannuslaksennassa; pitkän aikavälin kustannuksiet ja hyödyt ovat säilyttämisessä tietenkin keskeisiä ja hankalasti edes arvattavissa. Toisaalta rahoittajat ovat kiinnostuneita ennen kaikkea hyvin nopeista tuotoista investoinneille. Esimerkkejä tutkimusdatan säilyttämisen ja jakamisen arvosta on – esimerkiksi datasta tuotettavien artikkelien määrän moninkertaistuminen, mutta lisää “menestystarinoita” täytyisi kerätä. Voidaan sanoa, että datan avaaminen auttaa löytämään virheitä; luo uusia mahdollisuuksia opetukselle; väehntää päällekkäistä tutkimusta – mutta näitä väitteitä pitäisi voida tukea jämpteillä laskelmilla.

EU ja OA

Konferenssin suuressa salissa Carl-Christian Buhr tietoyhteiskunta-asioista vastaavan EU-komissaari Neelie Kroesin esikunnasta esitteli EU:n komission suunnitelmia avoimen saatavuuden suhteen. Sekä Kroes että tiedekomissaari Máire Geoghegan-Quinn ovat nähdäkseni varsin tarmokkaasti pitäneet avointa saatavuutta esillä. Tällä hetkellä FP7-kehysohjelman piirissä on rinnakkkaisjulkaisumandaatti, joskaan ei aivan raudanluja. Suunnitelmissa on vahvistaa velvoitetta saattaa julkista rahoitusta saaneen tutkimuksen julkaisut avoimesti saataville. Sen lisäksi avoimuusvaatimus laajennetaan tutkimusdataan. Molemmat periaatteet ovat mukana Horizon 2020 -suunnitelmissa. Horizon 2020 eli  tutkimuksen ja innovaation kehysohjelma kattaa vuodet 2014 – 2020, ja siihen tullaan investoimaan noin 80 miljardia euroa.

Buhr mainitsi erityisenä lähivuosien kehityskohteena “big datan” eli niin suuret tietoaineistot, että niiden säilyttäminen ja käsittely vaatii uudenlaisia työkaluja.

Europeana – myös tutkijoille

Buhrkin nosti esiin myös kulttuuriaineistojen merkityksen; ja niitähän EU:n tasolla edustaa ennen kaikkea Europeana. Jill Cousins esitteli Europeanaa varsinkin yhteensopivuuden näkökulmasta ja
huomautti, että olemme investoineet suuresti aggregointiin, metadataan ja standradointiin. Hänen mielestään on korkea aika katsoa, mitä asiakkaat todella haluavat. (Tehty taustatyö ei tietenkään ole ollut turhaa.) Europeana haluaakin rakentaa palveluita määritellyille kohderyhmille – tutkijoista toimittajiin ja opiskelijoista kulttuurimatkailijoihin. Eri asiakkaat tarvitsevat erilaisia työvälineitä; toiset haluavat analysoida suuria datamääriä, toiset taas jakaa kuvia Facebookissa – toisin sanoen arvoketjut ovat erilaisia. Samalla kuitenkin taustalla olevat perusratkaisut voivat olla yhteisiä. Se edellyttää Europeanalta sisäistä yhteentoimivuutta, mutta myös yhteentoimivuutta ulospin. Cousins esitti päämääräänä, että eri sisällöntuottajien tulisi olla hyvin yksinkertaista lisätä aineistoja “Europeana-pilveen”, jossa ne olisivat paitsi Europeanan myös muiden aggregaattoreiden käytettävissä. – (Joku toinen Europeanan edustaja joskus kärjisti, että Europeana-portaali on vain savuverho, jonka takana tapahtuu todellinen mullistus, taustajärjestelmien avoimuuden lisääminen.)

Europeanassa on kehitetty tietomallia, joka tukee näitä päämääriä. Cousinsin sanojen mukaan “tieto itsessään on infrastruktuuri. Kysymys on siis linkitetytsä datasta, jota Europeana esittelee myös videon avulla.

Jill Cousins puhui myös (meta)tiedon avoimuudesta ja Europeanan sitä koskevasta sopimusapparaatista.

Tutkimuksen neljäs paradigma

Microsoft Researchin Tony Hey kertoi ajatuksistaan, joita hän on käsitellyt kirjassaan The Fourth Paradigm: Data-Intensive Scientific Discovery. Tieteen kolme tuttua paradigmaa ovat havainnollinen, teoreettinen ja laskennallinen; uusi, neljäs, on dataintensiivinen. Sen mahdollistaa hyvin suurten datamäärien luominen ja säilyttäminen sekä datan uudenlaiset analysointimahdollisuudet. Dataperustaisen tutkimuksen ainakin pitäisi Heyn mukaan vaikuttaa myös tieteellisen viestintään ja julkaisemiseen – datan jakamisen pitäisi olla lähtökohta; dataa pitäisi käsitellä standardeilla tavoilla; julkaisemisen pitäisi olla joustavampaa, nopeampaa ja yhteistoimnnallisempaa; tutkimusinfrastruktuurien pitäisi mukautua uusiin olosuhteisiin; ja tutkimuksen rahoittajien pitäisi ymmärtää tutkimusdatan hallinnan merktiys tieteelle.

* (Sananen Nordbibista. Se on nyt päättymässä oleva rahoitusohjelma, joka on tukenut yhteispohjoismaisia aloitteita, jotka liittyvät digitaalisen tieteellisen tiedon tuottamiseen, pohjoismaiseen tieteelliseen julkaisemiseen sekä julkaisualan yhteistyön kehittämiseen. Kansalliskirjasto on aiemmin olllut mukana ainakin open accessiin liittyneessä Nordbibin tukemassa hankkeessa. Nordbib on osa Nordforskia, joka taas on Pohjoismaisen ministerineuvoston alaisuudessa toimiva organisaatio. Se rahoittaa pohjoismaista tutkimusyhteistyötä ja toimii pohjoismaisen tiedepolitiikan neuvonantajana ja aloitteentekijänä.)