Aihearkisto: Tutkimusdata

Mikä on tutkimusdatainfrastruktuuri?

Tutkimusdataninfrastruktuurilla ei ole yhtä ja yleisesti hyväksyttyä määritelmää, joten on ehkä syytä tarkastella muutamia. Otetaan alkuun datainfrastruktuurin määritelmä Wikipediasta:

“A data infrastructure is a digital infrastructure promoting data sharing and consumption.”
(Lähde: https://en.wikipedia.org/wiki/Data_infrastructure)

Tämän mukaan datainfrastruktuuri on datan jakamiseen ja käyttämiseen tarkoitettu digitaalinen infrastruktuuri. Tällainen määritelmä on käytännöllinen, mutta jossain määrin suppea. Tuohan tarkoittaisi suunnilleen minkä tahansa datan jakamiseen tai tallentamiseen tarkoitetun järjestelmän sisältymistä infrastruktuurin määritelmän sisälle.

* * *

Open data instituten määritelmää mukaillen datainfrastruktuuriin yleisesti ja samalla myös tutkimusdatainfrastruktuuriin liitetään yleensä teknologian lisäksi prosessit ja organisaatio, mutta myös yhteisön vaatimukset.

“Trustworthy data infrastructure is sustainably funded and has oversight that provides direction to maximise data use and value by meeting the needs of society. Data infrastructure includes technology, processes and organisation.”
(Lähde: https://theodi.org/what-is-data-infrastructure)

Se onkin tarpeen, sillä käytännössä luottamus ja riittävät pitkäjänteinen infrastruktuurin rahoitus asettaa vaatimuksia myös toimintatavoille ja organisaation rakenteelle.

Tutkimusdatainfrastruktuuri ei ole pop-up -toimintaa.

Näin ihan siksi, että datan merkitys ei välttämättä tule esille kvartaaleittain vaan pitkien aikasarjojen avulla. Sillä siis on merkitystä kuka omistaa datan ja sen infrastruktuurin.

Oma huomionsa on sekin, että datainfrastruktuurilla pyritään maksimoimaan datan käyttö ja arvo.

* * *

RDA:n entinen pääsihteeri Mark Parsons ja RDA:n TAB:n puheenjohtaja Francoise Genova ovat kuvailleet tutkimusdatainfrastruktuuria teknologian ja sosiaalisten ratkaisujen vuorovaikutuksen kautta niin, että meillä ei ole välttämättä ennalta tiedossa miten tuo ihmisen ja koneen vuorovaikutus lopulta ilmenee.

“It is well understood that infrastructure must consider both technical and social issues and solutions and how they interact, but research also shows that one cannot pre-define how all those interactions will occur.”
(Lähde: https://www.rd-alliance.org/group/council-strategy-subcommittee/outcomes/building-infrastructure-through-strategies)

He siteeraavat myös Michiganin yliopiston Paul Edwardsia et al., jotka ovat todenneet, että kestävä kyberinfrastruktuuri – jollainen tutkimusdatainfrastruktuurikin on – voidaan kehittää vain silloin kun sosiaaliset, organisaatioon liittyvät ja kulttuuriset kysymykset voidaan ratkaista samassa tahdissa teknologiapohjaisten palveluiden tuottamisen kanssa.

“Robust cyberinfrastructure will develop only when social, organizational, and cultural issues are resolved in tandem with the creation of technology-based services.”
(Lähde: http://hdl.handle.net/2027.42/49353)

Tutkimusdatainfrastruktuuri edellyttää organisaatiota, toimintakulttuuria ja pitkäjänteisesti toimivia sosiaalisia verkostoja, joiden varaan tekniset ratkaisut voidaan toteuttaa. Huomattavaa on se, että ilman toista ei ole toistakaan.

Tässä on myös vahva poikkihallinnollisuuden maku. Jos tutkimusdatainfrastruktuuri sidotaan liian tiukasti johonkin olemassa olevaan organisaation traditioon, voidaan päätyä toistamaan tapoja, jotka eivät tue riittävästi näitä verkostoja tai ovat liian kaukana teknologisesta kehityksestä.

* * *

Data näkyy myös taloudellisissa tai toiminnallisissa arvoissa.

“The world’s most valuable resource is no longer oil, but data”
(Lähde: http://www.economist.com/news/leaders/21721656-data-economy-demands-new-approach-antitrust-rules-worlds-most-valuable-resource)

Siinä missä data on syrjäyttänyt öljyn maailman arvokkaimpana resurssina, datan merkitys tutkimukselle kasvaa koko ajan samaa tahtia datan määrän kanssa. Monelle tutkimukselle tai tutkimusalalle data voi olla tärkeämpää kuin itse datan kohde tai tai lähde, vaikka näitä ei voikaan irroittaa toisistaan.

Tästä seuraa myös se, että tutkimusdatainfrastruktuuria voi pitää myös tutkimusinfrastruktuurina siinä missä jotain hiukkaskiihdyntintäkin. Ilman sitä joidenkin asioiden tutkimus ei olisi yksinkertaisesti mahdollista.

* * *

Edellä kuvatun mukaisesti tutkijoiden rooli suhteessa tutkimusdatainfrastruktuuriin on varsin aktiivinen. Ilman tutkijoita ja heidän osallistumistaan ei tutkimusdatainfrastruktuuria oikeastaan ole olemassa.

Tutkimuksessa ja tieteen tekemisessä on pitkä traditio siinä, että tutkijat tuottavat omat työvälineensä osin ihan siksi, että se tuottaa myös uutta tiedettä.

Toisaalta voidaan sanoa, että varsin harvan tutkijan tehtävänä on – tai pitäisi olla – tutkimusdatainfrastruktuurin tekninen rakentaminen, toteuttaminen tai ylläpito. Se ei ole ajankäytöllisesti järkevää enää siinä mittakaavassa missä nämä infrastruktuurit jo nykyisellään ovat. Lisäksi näiden infrastruktuurien toteuttaminen vaatii usein erikoistunutta osaamista.

Vähän samaan tapaan kuin harvempi polkupyöräilijä, autoilija tai julkisen liikenteen käyttäjä on rakentamassa maanteitä tai kevyen liikenteen väyliä. Toki käyttäjillä on ja pitää olla mielipide infrastruktuurin ominaisuuksista, mutta lapion varteen tarttuvatkin sitten määrittelyiden jälkeen ihan muut.

* * *

Tähän liittyy kiinteästi myös toimintatapojen muutos, jota myös digitalisaatioksi voidaan kutsua. IT:ssä se on kehityksen kolmas aikakausi käsityöläisyyden sekä teollisen toimintatavan jälkeen. IT:lle se on paradigman muutos siinä missä tieteellekin.

Digitalisaation aikakaudella keskitytään liiketoimintamalleihin kun IT-teollisuus kiinnitti erityistä huomiota tuotantoon ja IT-käsityöläisyys painotti teknologiaa.

Tutkimusdatainfrastruktuurille tämä tarkoittaa toisaalta valmiimpia palveluiden komponentteja, mutta myös niiden sujuvampaa yhteentoimivuutta.

Tutkimuksen infrastruktuureissa käsityöläisyydellä on pitkät perinteet ja valoisa tulevaisuus, mutta myös tutkimusdatainfrastruktuurit kokevat oman digitalisaationsa, joka muuttaa ne ja niillä tuotettavat palvelut entistä automaattisemmiksi, modulaarisemmiksi ja käyttäjälähtöisemmiksi.

* * *

Yle Radio 1:n haastattelussa 18.4.2017 akateemikko Markku Kulmala mukaili toisen akateemikon eli Olli V. Lounasmaan ajatusta todeten, että huippututkimusta syntyy, jos sitä ei estetä.

Tutkimusdatainfrastruktuurille tuo ajatus tarkoittaa sitä, että sen pitäisi siis toimia resrussina ilman, että se jäykistää varsinaisen tutkimuksen tekemistä. Eli tarvittavien resurssien pitäisi olla olemassa ja käytettävissä, ilman että siihen sidotaan turhaa tekemistä ja byrokratiaa. Tutkimusdatainfrastruktuurin ei pitäisi olla tutkijoille liian niukka resurssi.

Perinteinen infrastruktuuri sopii tässäkin esimerkiksi. Me maksamme veroja ja niillä varoilla teitä ylläpidetään.

Kuluttajat käyttävät näitä väyliä kuten haluavat löytäen uusia paikkoja, pidentäen tai lyhentäen työmatkojaan, mutta joka tapauksessa toteuttaen itseään. Se on kokonaan toinen tarina, ovatko ylläpidon varat riittäviä, mutta on varsin ilmeistä, että jos jokaisesta väylän käytöstä pitäisi erikseen ilmoittaa – automaattisesti tai manuaalisesti – ja sillä olisi esimerkiksi taloudellisia vaikutuksia, se vaikuttaisi suoraan myös käyttäytymiseen. Sitä saa mitä mittaa.

Tietenkin on niin, että jotta infrastruktuuri voisi tarjota riittävän laajasti mahdollisuuksia erilaisten tarpeiden ja ideoiden täyttämiseen, syntyy hukkaa eli resursseja, jotka eivät ole koko ajan käytössä.

Näin käy joka tapauksessa myös tutkimusdatainfrastruktuureissa, vaikka ne olisikin rakennettu joustavilla tuotantomalleilla tai muuten kuinka tehokkaasti tahansa. Tuo hukka on se hinta, joka joudutaan maksamaan siitä, että infrastruktuuri tekee omaa tehtäväänsä mahdollistajana.

Ovat ne tietkin olemassa, käytettiin niitä tai ei.

Tutkimusdatainfrastruktuurin tehtävänä on toimia mahdollistajana. Väylänä uusiin paikkoihin ja maisemiin.

* * *

Pari esimerkkiä tutkimusdatainfrastruktuureista.

ATT-hankkeessa on työstetty palvelukarttaa, jossa on määritelty palveluita, joilla voidaan toteuttaa avoimen tieteen ja tutkimuksen prosessia. Prosessin keskeiset osat ovat tutkimuksen valmistelu, tutkimuksen toteutus, tutkimustuotosten tuottaminen, julkaisu ja levittäminen, tulosten arvottaminen, tutkimuksen hyödyntäminen.

Nämä prosessin vaiheet eivät vääjäämättä seuraa toisiaan tässä järjestyksessä, vaan nopeampisyklisessä tutkimuksessa kukin prosessin vaiheista voi synnyttää uusia tutkimusideoita ja tutkimusprosesseja vaikka edellinen sykli ei olisikaan vielä valmis. Siihen tietty pyritäänkin tällä kiihdyttimeksikin ristityllä syklillä.

Tutkimusprosessin toteuttamiseen on kuvattu viisi palvelua, joilla kokonaisuus saadaan katettua. Ne ovat tutkimuksen hallintapalvelut, tutkimuksen tekemisen ja avaamisen palvelut, tutkimuksen julkaisemisen palvelut, tutkimuksen saatavuuspalvelut sekä tutkimuksen arvioinnin ja hyödyntämisen palvelut.

Näistä yleisen tason palveluista päästäänkin sitten yksityiskohtaisempiin kuvauksiin kuten osapalveluihin, ne toteuttaviin tietojärjestelmäpalveluihin, teknologiatoteutuksiin sekä tietovarantoihin.

Tällaisilla kuvauksilla ei ole tarkoitus kertoa, että esimerkiksi avoimen tieteen arkkitehtuuri olisi juuri tällainen tai siihen liittyvä tutkimusdatainfrastruktuuri juuri tuollainen, vaan tarjota työvälineitä kokonaisuuden hallintaan ja sen hahmottamiseen, miten mikäkin osa sopii omaan organisaatioon tai omalle tutkimusalalle.

Helsingin yliopistossa tutkimusdatainfrastruktuuria on hahmotettu MILDRED-hankkeessa palveluiden ja sovellusten kautta osin soveltaen edellä esitettyä yleisempää prosessia. Osin sovittaen tekemistä omaan organisaatioon.

* * *

Lopuksi.

Mikä tutkimusdatainfrastruktuuri oikeastaan on?

Tutkimusdatainfrastruktuuri on tutkimusorganisaatiolle yksi kyvykkyyksistä henkilöstö osaamisen, strategioiden, erilaisten muiden resurssien yms. rinnalla. Se on yksi osanen siinä miten hyvin organisaatio pystyy toteuttamaan omaa strategiaansa nykyisessä dataintensiivisessä ja digitalisoituvassa maailmassa.

Kyvykkyyksien kehittäminen mahdollistaa aiemmin mainittujen sosiaalisten, organisaatioon liittyvien ja kulttuuristen kysymysten ratkaisemiseen samassa tahdissa teknologiapohjaisten palveluiden tuottamisen kanssa.

(Teksti oli pohjatan FCRD:n keskustelutilaisuudessa 10.5.2017 pidetylle puheenvuorolle “Mikä on tutkimusdatainfrastruktuuri?”)

Muistiinpanoja RDA:n 9. plenarystä

Koska sitä on kysytty, niin julkaisenpas matkaraporttini hieman lyhennetyn ja muokatun version täällä blogissa. Teksti on aiemmin julkaistu HY:n tietotekniikkakeskuksen sisäisessä Tietoset-palvelussa 13.4.2017.

Research Data Alliancen järjestyksessään 9. plenary järjestettiin oheistapahtumineen 4.-7.4.2017 Barcelonassa, Kataloniassa Espanjassa. Yksi kokouksen havainnoista oli se, että yhä useammin dataa käytetään jonkun sovelluksen tai ohjelmallisen rajapinnan läpi eikä perinteisesti tiedostoina.

Plenaryn ohjelmassa oli perinteisen kaavan mukaan joitakin keynoteja, mutta pääosa työskentelystä tehtiin erilaisten työryhmien kokouksissa.

Kokouksen pääpuhuja oli Euroopan komission eInfrastructure & Science Cloud -yksikön päällikkö  Augusto Burgueño Arjona. Hän herätti keskustelua siitä, miten RDA voisi kasvattaa toimintaansa ja ottaa yhä isomman roolin EU-rahoitteisissa projekteissa. Omalla tavallaan villi ehdotus oli se, että EU-hankkeista tehtäisiin RDA-työryhmiä.

Se tarkoittaisi yli 6000 työryhmää, mikä on tietenkin varsin mahdoton yhtälö pitkälti vapaaehtoisuuteen perustuvalle organisaatiolle.

Tiedostoista datakeskeiseen ajatteluun

Big data -työryhmässä keskusteltiin erilaisista tulevaisuuden arkkitehtuureista. NASA Goddard Flight Centerin Kwo-Sen Kuo esitteli vaatimuksia tulevaisuuden järjestelmille, kuten datan avoin julkaiseminen, toisiinsa liittymättömien tietokantojen käytön vähentäminen, yhteistoiminnan tuki, parempi analysointisovellusten laatu ja uudelleenkäytettävyys, tieteellisen toistettavuuden tuki ja ROI:n maksimointi.

Vaatimuksiin voidaan suhtautua kahdella tavalla, joko tiedostokeskeisesti tai datakeskeisesti. Näistä ensimmäisessä asiat hoidetaan tiedostoina kuten usein nykyäänkin. Jälkimmäisessä taas data tallennetaan indeksoituihin tiedostoihin, joista dataa käsitellään, hallitaan ja analysoidaan tarkoitukseen sopivilla sovelluksilla.

Näistä jälkimmäinen vastaa Kuon mukaan paremmin tulevaisuuden haasteisiin ja vaatimuksiin. Kun datakeskeiset toimintatavat yleistyvät, niin tiedostokeskeisen ajattelun merkitys vähenee, vaikka perinteisemmästä mallista ei päästäne kokonaan eroon. Tosin, tiedostojen käytöstä tulee siitäkin nykyistä dynaamisempaa erilaisten cache-ratkaisujen jne. avulla.

Internetistä datanetiin

Kansallisten palveluiden intressiryhmässä oli esillä useammankin maan projekteja, joista moni on vielä alkutekijöissään tai vasta suunnitteluasteella kuten Espanjan projekti.

Yhdysvalloissa on jokin aika sitten käynnistetty kansallisen datapalvelun toteutus, mutta projekti on vasta alkuvaiheessaan. Projektilla pyritään tukemaan datan julkaisemista, löydettävyyttä ja uudelleen käytettävyyttä, eli siirtymään internetistä “datanetiin”. Tähän liittyy datapalveluiden yhteentoimivuuden toteuttaminen laajasti esimerkiksi hajauttamalla datan ja laskennan pilveen. Samalla kansallinen datapalvelu toimii projektien ja pilottien hautomona, jotta ne pääsevät mahdollisimman nopeasti liikkeelle ilman laajoja infrojen rakentamisia.

Projektin perustajiin kuuluu koko joukko yhdysvaltalaisia yliopistoja kuten Harvard, CU Boulder, Johns Hopkins, UC San Diego, Indiana, Purdue sekä muita organisaatioita kuten IEEE, Nature- ja Science -lehdet, Elsevier, NCSA, iRods, DataOne jne.

Suomen avoimen tieteen ATT-hanke oli esillä kyseisen ryhmän edellisessä kokouksessa Denverissä. Yleisesti kansallisista datapalveluista voi todeta, että Suomi on jo varsin pitkällä ja selkeästi edelläkävijän roolissa moniin maihin, kuten vaikkapa Ruotsiin, nähden. Toisaalta, muissa maissa pyritään uudet projektit tekemään – muilta opiksi ottaen – ketterämmin, joten Suomessakaan ei ole syytä laiskotteluun.

QoS ja DataLC

Helsingin yliopiston Mildred -hanketta esiteltiin QoS and DataLC Definitions -työryhmässä lähinnä siksi, että sen tiimoilta on jossain määrin kuvattu arkkitehtuuria ja niiden välisiä suhteita, mikä toimi ihan hyvin keskustelun pohjana. Lisäksi ryhmässä oli yleistä kiinnostusta hanketta kohtaan ruotsalaisten taholta.

Työryhmän nimi kuvaa kieltämättä hieman huonosti sitä, että työryhmän ideana on kuvata myös koneluettavassa muodossa palvelinarkkitehtuureihin ja teknologiaan liittyviä palveluiden laatuvaatimuksia (QoS) tutkimusdatan elinkaaren (DataLC) erilaisissa vaiheissa.

Lopuksi

Yhteenvetona plenaryn sisällöllisestä annista voi sanoa sen verran, että maailma ei ole valmistumassa, vaan maali liikkuu.

Data on jo sen verran laajalti tunnistettu voimavara, että suuren innostuksen vaiheesta ollaan siirtymässä jo erilaisten tulosten ja tehokkuuden vaatimiseen. Pelkkiä perustarpeita tyydyttämällä ei enää pysy kehityksen vauhdissa. Yhteentoimivuus ja yhteistyö erilaisten yhteisöjen sisällä ja niiden välillä ovat tärkeitä tekijöitä tulevaisuuden palveluille.

Kokoukseen osallistui 620 osanottajaa yhteensä 45 maasta. Osallistujia oli kaikilta mantereilta Antarktista lukuunottamatta, joskin 67 % osallistujista tuli Euroopasta. Osallistujista 38 % oli naisia ja 62 % miehiä.

Raportti RDA:n 6. plenarystä: Tutkimusdata kohti ekosysteemejä

CNAM

(Matkaraportti on julkaistu 8.10.2015 jotakuinkin samassa muodossa HY:n tietotekniikkakeskuksen Tietoset-henkilökuntajulkaisussa)

Research Data Alliancen 6. plenary ja sitä edeltänyt dataintensiivisen tutkimuksen ja e-infrastruktuurien työpaja Pariisissa 22.-25.9.2015 tarjosi jälleen koko joukon projekteja ja edistysaskelia tutkimusdatan parissa.

Kokouksen teemana oli yritykset ja ilmastonmuutos, järjestetäänhän joulukuussa Pariisissa kansainväliseen ilmastoisopimukseen tähtäävä kokous COP21.

Projektien ilotulitus

Varsinaista plenaryä edeltävänä päivänä järjestettiin dataintensiivisen tutkimuksen ja e-infrastruktuurien työpaja, joka oli yhtä projektien ja infrastruktuurien esittelyn ilotulitusta.

Yhdysvaltalaisen NCSA:n johtaja Ed Seidel esitteli kuvaa modernista tutkimus- ja opetusinfrastruktuurista, joka vaati varsin paljon verkkoa ja kapasiteettia. Hän puhui myös siitä, että innovaatiota vaativat sekä datan pitkää häntää eli niitä pienempiä datasettejä että big dataa.

Pre-päivän lyhyissä esityksissä olivat tieteen laskentapalveluista esillä mm. suurteholaskennan PRACE-infrastruktuuri, eurooppalainen korkean suosituskyvyn laskentapalvelu ETP4HPC, pilvipalvelu Helix Nebula, European Grid Infrastructure EGI, INDIGO-DataCloud, yhdysvaltalainen suurtehoympäristö XSEDE, kandalainen ComputeCanada ja brasilialainen RNP.

Datapalveluista esillä olivat eurooppalaiset EUDAT ja OpenAIRE, lääketieteeseen tarkoitettu brittiläinen PhenoMeNal, Australian kansalliset datapalvelut ANDS , yhdysvaltalaiset DataOne ja NDS sekä Japanin ROIS.

Autentikointiin ja auktorisointiin on kehitteillä uusia ratkaisuja AARC-hankkeen myötä. Myös CSC on AARC:ssa mukana edustamassa life science -sektoria.

Yksi varsin paljon esillä ollut projekti on THOR. Projektin visiona on rakentaa saumaton integraatio artikkeleiden, data ja tutkijoiden välille koko tutkimuksen elinkaaren ajaksi. Käytännössä projekti liittyy ORCID:n, Zenodon ja DataCiten hyödyntämiseen integraatioiden toteuttamisessa. Yksityiskohtana mainittakoon, että projektin tiimoilta on olemassa myös R-paketti, jolla voi käsitellä DataCiten avoimessa rajapinnassa jaossa olevaa metadataa.

ORCID on tulossa lähiaikoina mukaan hollantilaisen SURFNetin käyttäjäfederaatioon ja myöhemmin myös HY:lläkin käytössä olevaan eduGAINiin.

Päivän hengästyttävän laajan annin yhteenvetona Max Planck Instituten senior advisor Peter Wittenberg nosti esiin lukuisat erilaiset ratkaisut, joita datan kanssa nykyisellään on. Hän kysyi, miten voimme vähentää ratkaisujen määrää, jotta tilanne olisi hieman hallittavampi. Hän on ollut kehittelemässä myös Data Fabric -konseptia, joka kokoaa datan hallinnan eri vaiheet samaan arkkitehtuuriin.

Luottamus, hybridi ja ekosysteemit

Eräs teema, joka tuli esiin varsin monessa esityksessä oli hybridiratkaisut datan käsittelyssä sen elinkaaren eri vaiheissa. Hybridillä tarkoitetaan yhdistelmään pilvipalveluista ja paikallisista palveluista. Muita puheenvuorojen iskusanoja olivat mm. ketteryyden puute, saumaton integrointi, palvelusuuntautuneisuus ja ekosysteemit.

EU:n komission e-infrastruktuuriyksikön päällikkö Augusto Burgueño-Arjona puhui siitä, että EU:ssa on tavoitteena saada aikaiseksi yhtenäinen digitaalinen markkina aikaiseksi. Hän luetteli tämän hetkisiä trendejä kuten maailmanluokan e-infrastruktuuri, konvergoidut verkot, big data, suurteholaskenta, co-design, datavetoinen tiede ja palvelusuuntautuneisuus (sisältää myös pilvet). Hän kuitenkin muistutti, että todellisuudessa tekeminen on hajaantunut niin maantieteellisesti, teknologisesti kuin käyttäjäryhmittäinkin.

RDA:n tehtäväksi hän hahmotteli innovatiivisten e-infrastruktuuripalveluiden ja alustojen kehittelyn ja testaamisen.

RDA:n pääsihteeri Mark Parsons linjasi, että tutkimusinfrastruktuuri on myös e-infrastruktuuri. Hän sanataiteili, että datan tallentaminen on joskus hankalaa, mutta datan jakaminen vielä hankalampaa. Hän puhui myös siitä, että luottamus on keskeisessä osassa datan kanssa toimittaessa.

Dataa tulee lisää ja lisää

EU:n käyttää Horizon 2020 -ohjelmaan 80 miljardia euroa ja sillä syntyy varsin paljon uutta dataa. EU:n digitaalisesta taloudesta ja yhteisöistä vastaava komissaari Günther H. Oettinger totesi videoviestissään, että datan ja sen käsittelyn merkitystä taloudelle ei voi yliarvioida.

Ranskan digitaaliasioista vastaava ministeri Axelle Lemaire muistutti, että dataa pitää jakaa, jotta siitä saadaan lisää arvoa. Ranska onkin pärjännyt kohtuullisen hyvin datan avoimuuteen liittyvissä asioissa. Ranskan hallituksella on erikseen nimettynä data-asioihin keskittyvä Chief Data Officer ja hallitus on pyytänyt eri virastoilta strategiat siitä miten dataa aiotaan käyttää. Asia otetaan mitä ilmeisimmin vakavasti ja kunnianhimon taso on varsin korkealla.

Keynote-puhujana oli Barbara J. Ryan Group on Earth Observations (GEO) -organisaatiosta. Hän kuvaili ilmastonmuutoksen tilannetta (jäätiköt sulaa, hiilidioksidi ilmakehässä lisääntyy ja maapallon lämpötila nousee). Hän kertoi avoimuuden vaikutuksista eli ennen avoimen datan politiikkaa GEO:n palveluista ladattiin 53 Landsat-satelliitin kuvaa päivässä, mutta datan avaamisen jälkeen lukema on n. 5700 kuvaa päivässä. Ryan kertoi, että Landsat-datan avaamisesta on saatu globaalisti 2,1 miljardin dollarin hyödyt.

Rahaan liittyen australialainen Simon Cox kertoi, että Australiassa on arvioitu, että rannikon tulvat, rajut tuulet ja sisämaan vedenpinnan nousu aiheuttavat vuoteen 2100 pelkästään asumisessa n. 210 miljardin dollarin kustannukset. Hän totesi myös, että proaktiivisella toimilla verrattuna reaktiiviseen “business as usual”-toimintaan voidaan säästää n. 99 miljardia dollaria. Tuo proaktiivinen toiminta taas edellyttää dataa, johon päätökset perustetaan.

Ilmastoasioiden ympärillä onkin koko joukko erilaisia portaaleja ja palveluita kuten esimerkiksi ranskalainen Drias. Saksan ilmastoasioiden laskentakeskus DKRZ tarjoaa myös datapalveluita esim. hallitusten väliselle ilmastopaneeli IPCC:lle. Siellä on n. 5 petatavua pitkäaikaistallennettua dataa, joka  dokumentoitu, metadatoitettu, saatavilla, käytettävissä ja viitattu DataCiten DOI:lla. DKRZ:n Merret Buurman kuvaili prosessia raakadatasta pitkäaikaistallennettavaksi prosessina, johon mahtuu myös useampikin sotku.

Big Data -palveluista esillä olivat esimerkiksi EarthServer globaalin geodatan jakeluun sekä virtuaalinen 3D API HTML5:lle and JavaScriptille Web World Wind.

Keynote-puheenvuorossaan Orangen Jean-Paul Leroux puhui siitä, että datan saatavuus on usein seurausta yhteiskunnan digitalisaatiosta. Hänen mukaansa datan määrä jatkaa kasvuaan, se on yhä useammin mobiilia ja yhä useammin koneiden välistä.

Tuloksia työryhmistä

Datan ympärillä sidosryhmien ja repositoryihin tallennetun datan määrä kasvaa nopeasti, mutta rahoitus ei seuraa. Moni repositoryjen ylläpitäjä ei pidä nykyistä rahoitusmallia ja lähdettä stabiilina, joten ovat etsimässä uusia rahoitustapoja. Nykyään repositoryjen rahoitus hoidetaan organisaatioiden toimesta eikä esimerkiksi projektirahoituksena. Projektirahoitusta ei pidetä kovinkaan hyvänä ratkaisuna sellaisessa tilanteessa, jossa dataa pitää säilyttää kymmeniä vuosia.

RDA:n datakeskusten rahoitusta pohtiva työryhmä on julkaisemassa ensi vuonna raporttia, jossa kuvataan data repositoryjen rahoituksen nykytilaa ja tulevaisuuden näkökohtia.

RDA:n työryhmien tuloksia ja tulosten käyttökohteita esiteltiin niitäkin. Esimerkkinä hyödyntämiskohteesta kelpaa australialainen RD-switchboard, jonka avulla voi etsiä datasettejä useista rekistereistä kerralla.

Experiment day

Plenaryn yhteydessä pidettiin experiment day, jossa 18 aloittelevaa yritystä esittelivät ratkaisujaan erilaisiin ilmastoasioihin tavalla tai toisella liittyviin kysymyksiin. Näistä osallistujat äänestivät kaksi ratkaisua, jotka palkittiin päivän päätteeksi.

Yritysten ratkaisut vaihtelivat satelliittitiedon hyödyntämisestä, graafien tuottamiseen datasta ja rakennusautomaatioon. Palkituiksi tulivat ilmanlaatutietoa jalostava ja jakava Plume Labs sekä Defab, jonka ratkaisussa tietokoneiden tuottamaa lämpöä käytetään veden lämmitykseen.

Data packages BoF pohti sitä miten data pitäisi pakata, jotta siitä saadaan paremmin käsiteltävää ja yhteen toimivaa. keskustelu kävi lähinnä Open Knowledge Foundationin Data Package -formaatin ympärillä. Tässä varsin yksinkertaisessa toteutuksessa on datan paketointiin tarvitaan vain yksi pakollinen tiedosto eli nk. deskriptori, joka on JSON-tiedosto. Tuossa tiedostossa kerrotaan datan metadata ja muut vastaavat tiedot. Itse data voi olla mitä tahansa.

Datan paketoimisessa jakelua varten yksinkertaisuus, avoimuus ja riippumattomuus sovelluksista on on tyypillisesti hyödyllistä. BoF-keskustelussa CSV-formaatti nauttikin jonkinlaista suosiota. Muitakin datan paketoimisen tekniikoita löytyy (esim. http://dataprotocols.org/) eri tarkoituksiin.

Hieman myöhemmin ADHO:n (The Alliance of Digital Humanities Organizations) Candice Lanius puhui samasta asiasta todeten, että datan veistämisen (data carpentry) olevan ihmisten vakuuttamista luopumaan Excel-taulukoiden käytöstä.

Suuret tutkimusjärjestelmät ja datapolitiikat

Neutroni- ja fotonifyysikoiden tapaamisessa pohdittiin perustavaa laatua olevia kysymyksiä, kuten sitä onko RDA edes oikea paikka näiden tieteiden harjoittajille.

Hieman varttuneemmat tutkijat olivat tehneet ansiokkaat selvitykset sekä eurooppalaisista että yhdysvaltalaisista avoimen datan politiikoista kuten Royal Societyn suositukset sekä Digital Data Management of U.S. Department of Energy.

Institut Laue-Langevinin Jean-Francois Perrin kertoi siitä mitä avoin tiede on käytännössä ja samalla esitteli PaN-datan politiikat (PDF-tiedosto). Hänen mukaansa avoimen tieteen haasteita ovat tutkijoiden tiedostaminen, kokeellisen datan hyödyntämistä käsittelevien artikkeleiden keräämisen hankaluus, avoimen data puute sekä ajan puute.

Yksityiskohtana mainittakoon, että kiihdyttimen tuottaman datan tallentamiseen menee n. 1 % kiihdyttimen hinnasta. Kuten tunnettua ne kiihdyttimet eivät ole kovinkaan halpoja.

Lopputulema alunperin epäilevien fyysikoiden palaverista oli se, että ryhmä jatkaa RDA:n piirissä ja yrittää pitää palavereja verkossa kuukausittain (mikä on RDA:n piirissä varsin tiivis tahti).

Laatu ja elinkaari

Yksi hyödyllisimmistä BoF:sta käsitteli tallennusjärjestelmien laadun ja datan elinkaaren määritelmien yhtenäistämistä sekä siinä sivussa hieman tutkijoiden näille järjestelmille asettamien odotusten hallintaa. Kyse on siis siitä, että saataisiin yhteinen käsitys siitä, millä käsitteillä ja määritteillä tallennuspalveluiden ja -järjestelmien laatua kuvataan missäkin tilanteessa. Yhteinen ymmärrys näistä auttaa hallinnoimaan myös budjetteja hieman paremmin, kun tutkijoilla on selkeämpi käsitys siitä mitä voi valita ja miten.

Kansallisia palveluita pohtiva intressiryhmä kokoontui alkuun aivan liian pienessä salissa, mutta vaihtoi varsin nopeasti suurempaan. Ryhmän tehtävän on keskustella esimerkiksi siitä miten kansalliset ratkaisut voivat keskustella keskenään, koska tiede ei ole enää kansallista, vaan hyvinkin globaalia. Toisaalta ryhmä voisi tukea niitä maita, jotka eivät vielä ole kansallisia dataratkaisuja tehneet, mutta ovat tekemässä.

Joissain maissa tutkimusdata ja kansallinen data (governmental data) pyöritellään samoissa systeemeissä, mutta joissakin taas hallinnon data hoidetaan arkistoissa kuten esim. Hollannissa tai Suomessa.

Plenaryn viimeinen työryhmäsessio oli tutkimuksen toistettavuutta käsittelevä intressiryhmä. Koska kukaan osallistujista (n. 15 kpl) ei ollut ryhmän aiemmissa kokoontumisissa, oli ryhmällä hienoista epäselvyyttä siitä mitä ryhmässä pitäisi tehdä. Siispä ryhmä kävi keskustelua mm. niistä työvälineistä, joita eri puolilla käytetään tutkimuksen toistettavuuden (reproducibility) tukena.

Tutkimuksen toistettavuuden työvälineitä löytyy esimerkiksi Reproducible Research-saitilta. Softia on myös esitelty osaksi datan provenienssin seurantaa. Lisäksi sessiossa oli esillä mm. Pegasus, MyExperiment, YesWorkflow.org, Sumatra, recipy, CDE, Process Migration Framework, ReproZip, Docker, noWorkflow, Recomputation, Umbrella ja git2PROV. Aiheesta järjestetään myös koulutusta. Kokonaisuutena ajatellen, tämä osa-alue ei vielä ole kovinkaan kypsynyt, mutta jatkossa saamme kuulla tästä lisää.

Lopuksi

Tutkimusdataan liittyvä toiminta ja tekeminen on kehittynyt varsin nopeasti. Sen sijaan,  että pohdittaisiin yksittäisen datasetin tallennusta ja jakelua, keskustelu kohdistuu siihen miten dataa ja sen tietoja voidaan integroida, millaisia ekosysteemejä näin luodaan ja millä palveluilla tämä kaikki saadaan aikaiseksi.

RDA:n plenary oli jälleen täynnä innostusta ja uusiakin asioita. Hiljalleen yhteisön piiristä alkaa tulla erilaisia tuotoksia kuten suosituksia ja niiden implementaatioita. Projekteja datan ympärillä on jo niin paljon, että yksittäinen globaali organisaatio ei niitä oikein ehdi sulatella. Plenaryn ohjelma olikin laadittu e-infrastruktuuripäivä mukaan lukien 4:lle noin 10 tuntiselle työpäivälle, jonka jälkeen ohjelmassa oli vielä verkostoitumiset yms.

Vuonna 1794 perustetun Conservatoire national des arts et métiers (CNAM) -instituutin kampuksella järjestettyyn kokoukseen osallistui noin 700 osallistujaa, jotka työskentelivät yhteisten kokousten lisäksi 25 työryhmäsessiossa, 21 intressiryhmän kokouksessa sekä 25 BoF:ssa. Kokouksesta singottiin kokouksen aikana maailmalle n. 2500 tweettiä hashtagilla #RDAPlenary.