Arkistot kuukauden mukaan: June 2017

Mikä on tutkimusdatainfrastruktuuri?

Tutkimusdataninfrastruktuurilla ei ole yhtä ja yleisesti hyväksyttyä määritelmää, joten on ehkä syytä tarkastella muutamia. Otetaan alkuun datainfrastruktuurin määritelmä Wikipediasta:

“A data infrastructure is a digital infrastructure promoting data sharing and consumption.”
(Lähde: https://en.wikipedia.org/wiki/Data_infrastructure)

Tämän mukaan datainfrastruktuuri on datan jakamiseen ja käyttämiseen tarkoitettu digitaalinen infrastruktuuri. Tällainen määritelmä on käytännöllinen, mutta jossain määrin suppea. Tuohan tarkoittaisi suunnilleen minkä tahansa datan jakamiseen tai tallentamiseen tarkoitetun järjestelmän sisältymistä infrastruktuurin määritelmän sisälle.

* * *

Open data instituten määritelmää mukaillen datainfrastruktuuriin yleisesti ja samalla myös tutkimusdatainfrastruktuuriin liitetään yleensä teknologian lisäksi prosessit ja organisaatio, mutta myös yhteisön vaatimukset.

“Trustworthy data infrastructure is sustainably funded and has oversight that provides direction to maximise data use and value by meeting the needs of society. Data infrastructure includes technology, processes and organisation.”
(Lähde: https://theodi.org/what-is-data-infrastructure)

Se onkin tarpeen, sillä käytännössä luottamus ja riittävät pitkäjänteinen infrastruktuurin rahoitus asettaa vaatimuksia myös toimintatavoille ja organisaation rakenteelle.

Tutkimusdatainfrastruktuuri ei ole pop-up -toimintaa.

Näin ihan siksi, että datan merkitys ei välttämättä tule esille kvartaaleittain vaan pitkien aikasarjojen avulla. Sillä siis on merkitystä kuka omistaa datan ja sen infrastruktuurin.

Oma huomionsa on sekin, että datainfrastruktuurilla pyritään maksimoimaan datan käyttö ja arvo.

* * *

RDA:n entinen pääsihteeri Mark Parsons ja RDA:n TAB:n puheenjohtaja Francoise Genova ovat kuvailleet tutkimusdatainfrastruktuuria teknologian ja sosiaalisten ratkaisujen vuorovaikutuksen kautta niin, että meillä ei ole välttämättä ennalta tiedossa miten tuo ihmisen ja koneen vuorovaikutus lopulta ilmenee.

“It is well understood that infrastructure must consider both technical and social issues and solutions and how they interact, but research also shows that one cannot pre-define how all those interactions will occur.”
(Lähde: https://www.rd-alliance.org/group/council-strategy-subcommittee/outcomes/building-infrastructure-through-strategies)

He siteeraavat myös Michiganin yliopiston Paul Edwardsia et al., jotka ovat todenneet, että kestävä kyberinfrastruktuuri – jollainen tutkimusdatainfrastruktuurikin on – voidaan kehittää vain silloin kun sosiaaliset, organisaatioon liittyvät ja kulttuuriset kysymykset voidaan ratkaista samassa tahdissa teknologiapohjaisten palveluiden tuottamisen kanssa.

“Robust cyberinfrastructure will develop only when social, organizational, and cultural issues are resolved in tandem with the creation of technology-based services.”
(Lähde: http://hdl.handle.net/2027.42/49353)

Tutkimusdatainfrastruktuuri edellyttää organisaatiota, toimintakulttuuria ja pitkäjänteisesti toimivia sosiaalisia verkostoja, joiden varaan tekniset ratkaisut voidaan toteuttaa. Huomattavaa on se, että ilman toista ei ole toistakaan.

Tässä on myös vahva poikkihallinnollisuuden maku. Jos tutkimusdatainfrastruktuuri sidotaan liian tiukasti johonkin olemassa olevaan organisaation traditioon, voidaan päätyä toistamaan tapoja, jotka eivät tue riittävästi näitä verkostoja tai ovat liian kaukana teknologisesta kehityksestä.

* * *

Data näkyy myös taloudellisissa tai toiminnallisissa arvoissa.

“The world’s most valuable resource is no longer oil, but data”
(Lähde: http://www.economist.com/news/leaders/21721656-data-economy-demands-new-approach-antitrust-rules-worlds-most-valuable-resource)

Siinä missä data on syrjäyttänyt öljyn maailman arvokkaimpana resurssina, datan merkitys tutkimukselle kasvaa koko ajan samaa tahtia datan määrän kanssa. Monelle tutkimukselle tai tutkimusalalle data voi olla tärkeämpää kuin itse datan kohde tai tai lähde, vaikka näitä ei voikaan irroittaa toisistaan.

Tästä seuraa myös se, että tutkimusdatainfrastruktuuria voi pitää myös tutkimusinfrastruktuurina siinä missä jotain hiukkaskiihdyntintäkin. Ilman sitä joidenkin asioiden tutkimus ei olisi yksinkertaisesti mahdollista.

* * *

Edellä kuvatun mukaisesti tutkijoiden rooli suhteessa tutkimusdatainfrastruktuuriin on varsin aktiivinen. Ilman tutkijoita ja heidän osallistumistaan ei tutkimusdatainfrastruktuuria oikeastaan ole olemassa.

Tutkimuksessa ja tieteen tekemisessä on pitkä traditio siinä, että tutkijat tuottavat omat työvälineensä osin ihan siksi, että se tuottaa myös uutta tiedettä.

Toisaalta voidaan sanoa, että varsin harvan tutkijan tehtävänä on – tai pitäisi olla – tutkimusdatainfrastruktuurin tekninen rakentaminen, toteuttaminen tai ylläpito. Se ei ole ajankäytöllisesti järkevää enää siinä mittakaavassa missä nämä infrastruktuurit jo nykyisellään ovat. Lisäksi näiden infrastruktuurien toteuttaminen vaatii usein erikoistunutta osaamista.

Vähän samaan tapaan kuin harvempi polkupyöräilijä, autoilija tai julkisen liikenteen käyttäjä on rakentamassa maanteitä tai kevyen liikenteen väyliä. Toki käyttäjillä on ja pitää olla mielipide infrastruktuurin ominaisuuksista, mutta lapion varteen tarttuvatkin sitten määrittelyiden jälkeen ihan muut.

* * *

Tähän liittyy kiinteästi myös toimintatapojen muutos, jota myös digitalisaatioksi voidaan kutsua. IT:ssä se on kehityksen kolmas aikakausi käsityöläisyyden sekä teollisen toimintatavan jälkeen. IT:lle se on paradigman muutos siinä missä tieteellekin.

Digitalisaation aikakaudella keskitytään liiketoimintamalleihin kun IT-teollisuus kiinnitti erityistä huomiota tuotantoon ja IT-käsityöläisyys painotti teknologiaa.

Tutkimusdatainfrastruktuurille tämä tarkoittaa toisaalta valmiimpia palveluiden komponentteja, mutta myös niiden sujuvampaa yhteentoimivuutta.

Tutkimuksen infrastruktuureissa käsityöläisyydellä on pitkät perinteet ja valoisa tulevaisuus, mutta myös tutkimusdatainfrastruktuurit kokevat oman digitalisaationsa, joka muuttaa ne ja niillä tuotettavat palvelut entistä automaattisemmiksi, modulaarisemmiksi ja käyttäjälähtöisemmiksi.

* * *

Yle Radio 1:n haastattelussa 18.4.2017 akateemikko Markku Kulmala mukaili toisen akateemikon eli Olli V. Lounasmaan ajatusta todeten, että huippututkimusta syntyy, jos sitä ei estetä.

Tutkimusdatainfrastruktuurille tuo ajatus tarkoittaa sitä, että sen pitäisi siis toimia resrussina ilman, että se jäykistää varsinaisen tutkimuksen tekemistä. Eli tarvittavien resurssien pitäisi olla olemassa ja käytettävissä, ilman että siihen sidotaan turhaa tekemistä ja byrokratiaa. Tutkimusdatainfrastruktuurin ei pitäisi olla tutkijoille liian niukka resurssi.

Perinteinen infrastruktuuri sopii tässäkin esimerkiksi. Me maksamme veroja ja niillä varoilla teitä ylläpidetään.

Kuluttajat käyttävät näitä väyliä kuten haluavat löytäen uusia paikkoja, pidentäen tai lyhentäen työmatkojaan, mutta joka tapauksessa toteuttaen itseään. Se on kokonaan toinen tarina, ovatko ylläpidon varat riittäviä, mutta on varsin ilmeistä, että jos jokaisesta väylän käytöstä pitäisi erikseen ilmoittaa – automaattisesti tai manuaalisesti – ja sillä olisi esimerkiksi taloudellisia vaikutuksia, se vaikuttaisi suoraan myös käyttäytymiseen. Sitä saa mitä mittaa.

Tietenkin on niin, että jotta infrastruktuuri voisi tarjota riittävän laajasti mahdollisuuksia erilaisten tarpeiden ja ideoiden täyttämiseen, syntyy hukkaa eli resursseja, jotka eivät ole koko ajan käytössä.

Näin käy joka tapauksessa myös tutkimusdatainfrastruktuureissa, vaikka ne olisikin rakennettu joustavilla tuotantomalleilla tai muuten kuinka tehokkaasti tahansa. Tuo hukka on se hinta, joka joudutaan maksamaan siitä, että infrastruktuuri tekee omaa tehtäväänsä mahdollistajana.

Ovat ne tietkin olemassa, käytettiin niitä tai ei.

Tutkimusdatainfrastruktuurin tehtävänä on toimia mahdollistajana. Väylänä uusiin paikkoihin ja maisemiin.

* * *

Pari esimerkkiä tutkimusdatainfrastruktuureista.

ATT-hankkeessa on työstetty palvelukarttaa, jossa on määritelty palveluita, joilla voidaan toteuttaa avoimen tieteen ja tutkimuksen prosessia. Prosessin keskeiset osat ovat tutkimuksen valmistelu, tutkimuksen toteutus, tutkimustuotosten tuottaminen, julkaisu ja levittäminen, tulosten arvottaminen, tutkimuksen hyödyntäminen.

Nämä prosessin vaiheet eivät vääjäämättä seuraa toisiaan tässä järjestyksessä, vaan nopeampisyklisessä tutkimuksessa kukin prosessin vaiheista voi synnyttää uusia tutkimusideoita ja tutkimusprosesseja vaikka edellinen sykli ei olisikaan vielä valmis. Siihen tietty pyritäänkin tällä kiihdyttimeksikin ristityllä syklillä.

Tutkimusprosessin toteuttamiseen on kuvattu viisi palvelua, joilla kokonaisuus saadaan katettua. Ne ovat tutkimuksen hallintapalvelut, tutkimuksen tekemisen ja avaamisen palvelut, tutkimuksen julkaisemisen palvelut, tutkimuksen saatavuuspalvelut sekä tutkimuksen arvioinnin ja hyödyntämisen palvelut.

Näistä yleisen tason palveluista päästäänkin sitten yksityiskohtaisempiin kuvauksiin kuten osapalveluihin, ne toteuttaviin tietojärjestelmäpalveluihin, teknologiatoteutuksiin sekä tietovarantoihin.

Tällaisilla kuvauksilla ei ole tarkoitus kertoa, että esimerkiksi avoimen tieteen arkkitehtuuri olisi juuri tällainen tai siihen liittyvä tutkimusdatainfrastruktuuri juuri tuollainen, vaan tarjota työvälineitä kokonaisuuden hallintaan ja sen hahmottamiseen, miten mikäkin osa sopii omaan organisaatioon tai omalle tutkimusalalle.

Helsingin yliopistossa tutkimusdatainfrastruktuuria on hahmotettu MILDRED-hankkeessa palveluiden ja sovellusten kautta osin soveltaen edellä esitettyä yleisempää prosessia. Osin sovittaen tekemistä omaan organisaatioon.

* * *

Lopuksi.

Mikä tutkimusdatainfrastruktuuri oikeastaan on?

Tutkimusdatainfrastruktuuri on tutkimusorganisaatiolle yksi kyvykkyyksistä henkilöstö osaamisen, strategioiden, erilaisten muiden resurssien yms. rinnalla. Se on yksi osanen siinä miten hyvin organisaatio pystyy toteuttamaan omaa strategiaansa nykyisessä dataintensiivisessä ja digitalisoituvassa maailmassa.

Kyvykkyyksien kehittäminen mahdollistaa aiemmin mainittujen sosiaalisten, organisaatioon liittyvien ja kulttuuristen kysymysten ratkaisemiseen samassa tahdissa teknologiapohjaisten palveluiden tuottamisen kanssa.

(Teksti oli pohjatan FCRD:n keskustelutilaisuudessa 10.5.2017 pidetylle puheenvuorolle “Mikä on tutkimusdatainfrastruktuuri?”)