Aihearkisto: RDA

Muistiinpanoja RDA:n 9. plenarystä

Koska sitä on kysytty, niin julkaisenpas matkaraporttini hieman lyhennetyn ja muokatun version täällä blogissa. Teksti on aiemmin julkaistu HY:n tietotekniikkakeskuksen sisäisessä Tietoset-palvelussa 13.4.2017.

Research Data Alliancen järjestyksessään 9. plenary järjestettiin oheistapahtumineen 4.-7.4.2017 Barcelonassa, Kataloniassa Espanjassa. Yksi kokouksen havainnoista oli se, että yhä useammin dataa käytetään jonkun sovelluksen tai ohjelmallisen rajapinnan läpi eikä perinteisesti tiedostoina.

Plenaryn ohjelmassa oli perinteisen kaavan mukaan joitakin keynoteja, mutta pääosa työskentelystä tehtiin erilaisten työryhmien kokouksissa.

Kokouksen pääpuhuja oli Euroopan komission eInfrastructure & Science Cloud -yksikön päällikkö  Augusto Burgueño Arjona. Hän herätti keskustelua siitä, miten RDA voisi kasvattaa toimintaansa ja ottaa yhä isomman roolin EU-rahoitteisissa projekteissa. Omalla tavallaan villi ehdotus oli se, että EU-hankkeista tehtäisiin RDA-työryhmiä.

Se tarkoittaisi yli 6000 työryhmää, mikä on tietenkin varsin mahdoton yhtälö pitkälti vapaaehtoisuuteen perustuvalle organisaatiolle.

Tiedostoista datakeskeiseen ajatteluun

Big data -työryhmässä keskusteltiin erilaisista tulevaisuuden arkkitehtuureista. NASA Goddard Flight Centerin Kwo-Sen Kuo esitteli vaatimuksia tulevaisuuden järjestelmille, kuten datan avoin julkaiseminen, toisiinsa liittymättömien tietokantojen käytön vähentäminen, yhteistoiminnan tuki, parempi analysointisovellusten laatu ja uudelleenkäytettävyys, tieteellisen toistettavuuden tuki ja ROI:n maksimointi.

Vaatimuksiin voidaan suhtautua kahdella tavalla, joko tiedostokeskeisesti tai datakeskeisesti. Näistä ensimmäisessä asiat hoidetaan tiedostoina kuten usein nykyäänkin. Jälkimmäisessä taas data tallennetaan indeksoituihin tiedostoihin, joista dataa käsitellään, hallitaan ja analysoidaan tarkoitukseen sopivilla sovelluksilla.

Näistä jälkimmäinen vastaa Kuon mukaan paremmin tulevaisuuden haasteisiin ja vaatimuksiin. Kun datakeskeiset toimintatavat yleistyvät, niin tiedostokeskeisen ajattelun merkitys vähenee, vaikka perinteisemmästä mallista ei päästäne kokonaan eroon. Tosin, tiedostojen käytöstä tulee siitäkin nykyistä dynaamisempaa erilaisten cache-ratkaisujen jne. avulla.

Internetistä datanetiin

Kansallisten palveluiden intressiryhmässä oli esillä useammankin maan projekteja, joista moni on vielä alkutekijöissään tai vasta suunnitteluasteella kuten Espanjan projekti.

Yhdysvalloissa on jokin aika sitten käynnistetty kansallisen datapalvelun toteutus, mutta projekti on vasta alkuvaiheessaan. Projektilla pyritään tukemaan datan julkaisemista, löydettävyyttä ja uudelleen käytettävyyttä, eli siirtymään internetistä “datanetiin”. Tähän liittyy datapalveluiden yhteentoimivuuden toteuttaminen laajasti esimerkiksi hajauttamalla datan ja laskennan pilveen. Samalla kansallinen datapalvelu toimii projektien ja pilottien hautomona, jotta ne pääsevät mahdollisimman nopeasti liikkeelle ilman laajoja infrojen rakentamisia.

Projektin perustajiin kuuluu koko joukko yhdysvaltalaisia yliopistoja kuten Harvard, CU Boulder, Johns Hopkins, UC San Diego, Indiana, Purdue sekä muita organisaatioita kuten IEEE, Nature- ja Science -lehdet, Elsevier, NCSA, iRods, DataOne jne.

Suomen avoimen tieteen ATT-hanke oli esillä kyseisen ryhmän edellisessä kokouksessa Denverissä. Yleisesti kansallisista datapalveluista voi todeta, että Suomi on jo varsin pitkällä ja selkeästi edelläkävijän roolissa moniin maihin, kuten vaikkapa Ruotsiin, nähden. Toisaalta, muissa maissa pyritään uudet projektit tekemään – muilta opiksi ottaen – ketterämmin, joten Suomessakaan ei ole syytä laiskotteluun.

QoS ja DataLC

Helsingin yliopiston Mildred -hanketta esiteltiin QoS and DataLC Definitions -työryhmässä lähinnä siksi, että sen tiimoilta on jossain määrin kuvattu arkkitehtuuria ja niiden välisiä suhteita, mikä toimi ihan hyvin keskustelun pohjana. Lisäksi ryhmässä oli yleistä kiinnostusta hanketta kohtaan ruotsalaisten taholta.

Työryhmän nimi kuvaa kieltämättä hieman huonosti sitä, että työryhmän ideana on kuvata myös koneluettavassa muodossa palvelinarkkitehtuureihin ja teknologiaan liittyviä palveluiden laatuvaatimuksia (QoS) tutkimusdatan elinkaaren (DataLC) erilaisissa vaiheissa.

Lopuksi

Yhteenvetona plenaryn sisällöllisestä annista voi sanoa sen verran, että maailma ei ole valmistumassa, vaan maali liikkuu.

Data on jo sen verran laajalti tunnistettu voimavara, että suuren innostuksen vaiheesta ollaan siirtymässä jo erilaisten tulosten ja tehokkuuden vaatimiseen. Pelkkiä perustarpeita tyydyttämällä ei enää pysy kehityksen vauhdissa. Yhteentoimivuus ja yhteistyö erilaisten yhteisöjen sisällä ja niiden välillä ovat tärkeitä tekijöitä tulevaisuuden palveluille.

Kokoukseen osallistui 620 osanottajaa yhteensä 45 maasta. Osallistujia oli kaikilta mantereilta Antarktista lukuunottamatta, joskin 67 % osallistujista tuli Euroopasta. Osallistujista 38 % oli naisia ja 62 % miehiä.

Raportti RDA:n 6. plenarystä: Tutkimusdata kohti ekosysteemejä

CNAM

(Matkaraportti on julkaistu 8.10.2015 jotakuinkin samassa muodossa HY:n tietotekniikkakeskuksen Tietoset-henkilökuntajulkaisussa)

Research Data Alliancen 6. plenary ja sitä edeltänyt dataintensiivisen tutkimuksen ja e-infrastruktuurien työpaja Pariisissa 22.-25.9.2015 tarjosi jälleen koko joukon projekteja ja edistysaskelia tutkimusdatan parissa.

Kokouksen teemana oli yritykset ja ilmastonmuutos, järjestetäänhän joulukuussa Pariisissa kansainväliseen ilmastoisopimukseen tähtäävä kokous COP21.

Projektien ilotulitus

Varsinaista plenaryä edeltävänä päivänä järjestettiin dataintensiivisen tutkimuksen ja e-infrastruktuurien työpaja, joka oli yhtä projektien ja infrastruktuurien esittelyn ilotulitusta.

Yhdysvaltalaisen NCSA:n johtaja Ed Seidel esitteli kuvaa modernista tutkimus- ja opetusinfrastruktuurista, joka vaati varsin paljon verkkoa ja kapasiteettia. Hän puhui myös siitä, että innovaatiota vaativat sekä datan pitkää häntää eli niitä pienempiä datasettejä että big dataa.

Pre-päivän lyhyissä esityksissä olivat tieteen laskentapalveluista esillä mm. suurteholaskennan PRACE-infrastruktuuri, eurooppalainen korkean suosituskyvyn laskentapalvelu ETP4HPC, pilvipalvelu Helix Nebula, European Grid Infrastructure EGI, INDIGO-DataCloud, yhdysvaltalainen suurtehoympäristö XSEDE, kandalainen ComputeCanada ja brasilialainen RNP.

Datapalveluista esillä olivat eurooppalaiset EUDAT ja OpenAIRE, lääketieteeseen tarkoitettu brittiläinen PhenoMeNal, Australian kansalliset datapalvelut ANDS , yhdysvaltalaiset DataOne ja NDS sekä Japanin ROIS.

Autentikointiin ja auktorisointiin on kehitteillä uusia ratkaisuja AARC-hankkeen myötä. Myös CSC on AARC:ssa mukana edustamassa life science -sektoria.

Yksi varsin paljon esillä ollut projekti on THOR. Projektin visiona on rakentaa saumaton integraatio artikkeleiden, data ja tutkijoiden välille koko tutkimuksen elinkaaren ajaksi. Käytännössä projekti liittyy ORCID:n, Zenodon ja DataCiten hyödyntämiseen integraatioiden toteuttamisessa. Yksityiskohtana mainittakoon, että projektin tiimoilta on olemassa myös R-paketti, jolla voi käsitellä DataCiten avoimessa rajapinnassa jaossa olevaa metadataa.

ORCID on tulossa lähiaikoina mukaan hollantilaisen SURFNetin käyttäjäfederaatioon ja myöhemmin myös HY:lläkin käytössä olevaan eduGAINiin.

Päivän hengästyttävän laajan annin yhteenvetona Max Planck Instituten senior advisor Peter Wittenberg nosti esiin lukuisat erilaiset ratkaisut, joita datan kanssa nykyisellään on. Hän kysyi, miten voimme vähentää ratkaisujen määrää, jotta tilanne olisi hieman hallittavampi. Hän on ollut kehittelemässä myös Data Fabric -konseptia, joka kokoaa datan hallinnan eri vaiheet samaan arkkitehtuuriin.

Luottamus, hybridi ja ekosysteemit

Eräs teema, joka tuli esiin varsin monessa esityksessä oli hybridiratkaisut datan käsittelyssä sen elinkaaren eri vaiheissa. Hybridillä tarkoitetaan yhdistelmään pilvipalveluista ja paikallisista palveluista. Muita puheenvuorojen iskusanoja olivat mm. ketteryyden puute, saumaton integrointi, palvelusuuntautuneisuus ja ekosysteemit.

EU:n komission e-infrastruktuuriyksikön päällikkö Augusto Burgueño-Arjona puhui siitä, että EU:ssa on tavoitteena saada aikaiseksi yhtenäinen digitaalinen markkina aikaiseksi. Hän luetteli tämän hetkisiä trendejä kuten maailmanluokan e-infrastruktuuri, konvergoidut verkot, big data, suurteholaskenta, co-design, datavetoinen tiede ja palvelusuuntautuneisuus (sisältää myös pilvet). Hän kuitenkin muistutti, että todellisuudessa tekeminen on hajaantunut niin maantieteellisesti, teknologisesti kuin käyttäjäryhmittäinkin.

RDA:n tehtäväksi hän hahmotteli innovatiivisten e-infrastruktuuripalveluiden ja alustojen kehittelyn ja testaamisen.

RDA:n pääsihteeri Mark Parsons linjasi, että tutkimusinfrastruktuuri on myös e-infrastruktuuri. Hän sanataiteili, että datan tallentaminen on joskus hankalaa, mutta datan jakaminen vielä hankalampaa. Hän puhui myös siitä, että luottamus on keskeisessä osassa datan kanssa toimittaessa.

Dataa tulee lisää ja lisää

EU:n käyttää Horizon 2020 -ohjelmaan 80 miljardia euroa ja sillä syntyy varsin paljon uutta dataa. EU:n digitaalisesta taloudesta ja yhteisöistä vastaava komissaari Günther H. Oettinger totesi videoviestissään, että datan ja sen käsittelyn merkitystä taloudelle ei voi yliarvioida.

Ranskan digitaaliasioista vastaava ministeri Axelle Lemaire muistutti, että dataa pitää jakaa, jotta siitä saadaan lisää arvoa. Ranska onkin pärjännyt kohtuullisen hyvin datan avoimuuteen liittyvissä asioissa. Ranskan hallituksella on erikseen nimettynä data-asioihin keskittyvä Chief Data Officer ja hallitus on pyytänyt eri virastoilta strategiat siitä miten dataa aiotaan käyttää. Asia otetaan mitä ilmeisimmin vakavasti ja kunnianhimon taso on varsin korkealla.

Keynote-puhujana oli Barbara J. Ryan Group on Earth Observations (GEO) -organisaatiosta. Hän kuvaili ilmastonmuutoksen tilannetta (jäätiköt sulaa, hiilidioksidi ilmakehässä lisääntyy ja maapallon lämpötila nousee). Hän kertoi avoimuuden vaikutuksista eli ennen avoimen datan politiikkaa GEO:n palveluista ladattiin 53 Landsat-satelliitin kuvaa päivässä, mutta datan avaamisen jälkeen lukema on n. 5700 kuvaa päivässä. Ryan kertoi, että Landsat-datan avaamisesta on saatu globaalisti 2,1 miljardin dollarin hyödyt.

Rahaan liittyen australialainen Simon Cox kertoi, että Australiassa on arvioitu, että rannikon tulvat, rajut tuulet ja sisämaan vedenpinnan nousu aiheuttavat vuoteen 2100 pelkästään asumisessa n. 210 miljardin dollarin kustannukset. Hän totesi myös, että proaktiivisella toimilla verrattuna reaktiiviseen “business as usual”-toimintaan voidaan säästää n. 99 miljardia dollaria. Tuo proaktiivinen toiminta taas edellyttää dataa, johon päätökset perustetaan.

Ilmastoasioiden ympärillä onkin koko joukko erilaisia portaaleja ja palveluita kuten esimerkiksi ranskalainen Drias. Saksan ilmastoasioiden laskentakeskus DKRZ tarjoaa myös datapalveluita esim. hallitusten väliselle ilmastopaneeli IPCC:lle. Siellä on n. 5 petatavua pitkäaikaistallennettua dataa, joka  dokumentoitu, metadatoitettu, saatavilla, käytettävissä ja viitattu DataCiten DOI:lla. DKRZ:n Merret Buurman kuvaili prosessia raakadatasta pitkäaikaistallennettavaksi prosessina, johon mahtuu myös useampikin sotku.

Big Data -palveluista esillä olivat esimerkiksi EarthServer globaalin geodatan jakeluun sekä virtuaalinen 3D API HTML5:lle and JavaScriptille Web World Wind.

Keynote-puheenvuorossaan Orangen Jean-Paul Leroux puhui siitä, että datan saatavuus on usein seurausta yhteiskunnan digitalisaatiosta. Hänen mukaansa datan määrä jatkaa kasvuaan, se on yhä useammin mobiilia ja yhä useammin koneiden välistä.

Tuloksia työryhmistä

Datan ympärillä sidosryhmien ja repositoryihin tallennetun datan määrä kasvaa nopeasti, mutta rahoitus ei seuraa. Moni repositoryjen ylläpitäjä ei pidä nykyistä rahoitusmallia ja lähdettä stabiilina, joten ovat etsimässä uusia rahoitustapoja. Nykyään repositoryjen rahoitus hoidetaan organisaatioiden toimesta eikä esimerkiksi projektirahoituksena. Projektirahoitusta ei pidetä kovinkaan hyvänä ratkaisuna sellaisessa tilanteessa, jossa dataa pitää säilyttää kymmeniä vuosia.

RDA:n datakeskusten rahoitusta pohtiva työryhmä on julkaisemassa ensi vuonna raporttia, jossa kuvataan data repositoryjen rahoituksen nykytilaa ja tulevaisuuden näkökohtia.

RDA:n työryhmien tuloksia ja tulosten käyttökohteita esiteltiin niitäkin. Esimerkkinä hyödyntämiskohteesta kelpaa australialainen RD-switchboard, jonka avulla voi etsiä datasettejä useista rekistereistä kerralla.

Experiment day

Plenaryn yhteydessä pidettiin experiment day, jossa 18 aloittelevaa yritystä esittelivät ratkaisujaan erilaisiin ilmastoasioihin tavalla tai toisella liittyviin kysymyksiin. Näistä osallistujat äänestivät kaksi ratkaisua, jotka palkittiin päivän päätteeksi.

Yritysten ratkaisut vaihtelivat satelliittitiedon hyödyntämisestä, graafien tuottamiseen datasta ja rakennusautomaatioon. Palkituiksi tulivat ilmanlaatutietoa jalostava ja jakava Plume Labs sekä Defab, jonka ratkaisussa tietokoneiden tuottamaa lämpöä käytetään veden lämmitykseen.

Data packages BoF pohti sitä miten data pitäisi pakata, jotta siitä saadaan paremmin käsiteltävää ja yhteen toimivaa. keskustelu kävi lähinnä Open Knowledge Foundationin Data Package -formaatin ympärillä. Tässä varsin yksinkertaisessa toteutuksessa on datan paketointiin tarvitaan vain yksi pakollinen tiedosto eli nk. deskriptori, joka on JSON-tiedosto. Tuossa tiedostossa kerrotaan datan metadata ja muut vastaavat tiedot. Itse data voi olla mitä tahansa.

Datan paketoimisessa jakelua varten yksinkertaisuus, avoimuus ja riippumattomuus sovelluksista on on tyypillisesti hyödyllistä. BoF-keskustelussa CSV-formaatti nauttikin jonkinlaista suosiota. Muitakin datan paketoimisen tekniikoita löytyy (esim. http://dataprotocols.org/) eri tarkoituksiin.

Hieman myöhemmin ADHO:n (The Alliance of Digital Humanities Organizations) Candice Lanius puhui samasta asiasta todeten, että datan veistämisen (data carpentry) olevan ihmisten vakuuttamista luopumaan Excel-taulukoiden käytöstä.

Suuret tutkimusjärjestelmät ja datapolitiikat

Neutroni- ja fotonifyysikoiden tapaamisessa pohdittiin perustavaa laatua olevia kysymyksiä, kuten sitä onko RDA edes oikea paikka näiden tieteiden harjoittajille.

Hieman varttuneemmat tutkijat olivat tehneet ansiokkaat selvitykset sekä eurooppalaisista että yhdysvaltalaisista avoimen datan politiikoista kuten Royal Societyn suositukset sekä Digital Data Management of U.S. Department of Energy.

Institut Laue-Langevinin Jean-Francois Perrin kertoi siitä mitä avoin tiede on käytännössä ja samalla esitteli PaN-datan politiikat (PDF-tiedosto). Hänen mukaansa avoimen tieteen haasteita ovat tutkijoiden tiedostaminen, kokeellisen datan hyödyntämistä käsittelevien artikkeleiden keräämisen hankaluus, avoimen data puute sekä ajan puute.

Yksityiskohtana mainittakoon, että kiihdyttimen tuottaman datan tallentamiseen menee n. 1 % kiihdyttimen hinnasta. Kuten tunnettua ne kiihdyttimet eivät ole kovinkaan halpoja.

Lopputulema alunperin epäilevien fyysikoiden palaverista oli se, että ryhmä jatkaa RDA:n piirissä ja yrittää pitää palavereja verkossa kuukausittain (mikä on RDA:n piirissä varsin tiivis tahti).

Laatu ja elinkaari

Yksi hyödyllisimmistä BoF:sta käsitteli tallennusjärjestelmien laadun ja datan elinkaaren määritelmien yhtenäistämistä sekä siinä sivussa hieman tutkijoiden näille järjestelmille asettamien odotusten hallintaa. Kyse on siis siitä, että saataisiin yhteinen käsitys siitä, millä käsitteillä ja määritteillä tallennuspalveluiden ja -järjestelmien laatua kuvataan missäkin tilanteessa. Yhteinen ymmärrys näistä auttaa hallinnoimaan myös budjetteja hieman paremmin, kun tutkijoilla on selkeämpi käsitys siitä mitä voi valita ja miten.

Kansallisia palveluita pohtiva intressiryhmä kokoontui alkuun aivan liian pienessä salissa, mutta vaihtoi varsin nopeasti suurempaan. Ryhmän tehtävän on keskustella esimerkiksi siitä miten kansalliset ratkaisut voivat keskustella keskenään, koska tiede ei ole enää kansallista, vaan hyvinkin globaalia. Toisaalta ryhmä voisi tukea niitä maita, jotka eivät vielä ole kansallisia dataratkaisuja tehneet, mutta ovat tekemässä.

Joissain maissa tutkimusdata ja kansallinen data (governmental data) pyöritellään samoissa systeemeissä, mutta joissakin taas hallinnon data hoidetaan arkistoissa kuten esim. Hollannissa tai Suomessa.

Plenaryn viimeinen työryhmäsessio oli tutkimuksen toistettavuutta käsittelevä intressiryhmä. Koska kukaan osallistujista (n. 15 kpl) ei ollut ryhmän aiemmissa kokoontumisissa, oli ryhmällä hienoista epäselvyyttä siitä mitä ryhmässä pitäisi tehdä. Siispä ryhmä kävi keskustelua mm. niistä työvälineistä, joita eri puolilla käytetään tutkimuksen toistettavuuden (reproducibility) tukena.

Tutkimuksen toistettavuuden työvälineitä löytyy esimerkiksi Reproducible Research-saitilta. Softia on myös esitelty osaksi datan provenienssin seurantaa. Lisäksi sessiossa oli esillä mm. Pegasus, MyExperiment, YesWorkflow.org, Sumatra, recipy, CDE, Process Migration Framework, ReproZip, Docker, noWorkflow, Recomputation, Umbrella ja git2PROV. Aiheesta järjestetään myös koulutusta. Kokonaisuutena ajatellen, tämä osa-alue ei vielä ole kovinkaan kypsynyt, mutta jatkossa saamme kuulla tästä lisää.

Lopuksi

Tutkimusdataan liittyvä toiminta ja tekeminen on kehittynyt varsin nopeasti. Sen sijaan,  että pohdittaisiin yksittäisen datasetin tallennusta ja jakelua, keskustelu kohdistuu siihen miten dataa ja sen tietoja voidaan integroida, millaisia ekosysteemejä näin luodaan ja millä palveluilla tämä kaikki saadaan aikaiseksi.

RDA:n plenary oli jälleen täynnä innostusta ja uusiakin asioita. Hiljalleen yhteisön piiristä alkaa tulla erilaisia tuotoksia kuten suosituksia ja niiden implementaatioita. Projekteja datan ympärillä on jo niin paljon, että yksittäinen globaali organisaatio ei niitä oikein ehdi sulatella. Plenaryn ohjelma olikin laadittu e-infrastruktuuripäivä mukaan lukien 4:lle noin 10 tuntiselle työpäivälle, jonka jälkeen ohjelmassa oli vielä verkostoitumiset yms.

Vuonna 1794 perustetun Conservatoire national des arts et métiers (CNAM) -instituutin kampuksella järjestettyyn kokoukseen osallistui noin 700 osallistujaa, jotka työskentelivät yhteisten kokousten lisäksi 25 työryhmäsessiossa, 21 intressiryhmän kokouksessa sekä 25 BoF:ssa. Kokouksesta singottiin kokouksen aikana maailmalle n. 2500 tweettiä hashtagilla #RDAPlenary.