Arkistot kuukauden mukaan: May 2017

Muistiinpanoja RDA:n 9. plenarystä

Koska sitä on kysytty, niin julkaisenpas matkaraporttini hieman lyhennetyn ja muokatun version täällä blogissa. Teksti on aiemmin julkaistu HY:n tietotekniikkakeskuksen sisäisessä Tietoset-palvelussa 13.4.2017.

Research Data Alliancen järjestyksessään 9. plenary järjestettiin oheistapahtumineen 4.-7.4.2017 Barcelonassa, Kataloniassa Espanjassa. Yksi kokouksen havainnoista oli se, että yhä useammin dataa käytetään jonkun sovelluksen tai ohjelmallisen rajapinnan läpi eikä perinteisesti tiedostoina.

Plenaryn ohjelmassa oli perinteisen kaavan mukaan joitakin keynoteja, mutta pääosa työskentelystä tehtiin erilaisten työryhmien kokouksissa.

Kokouksen pääpuhuja oli Euroopan komission eInfrastructure & Science Cloud -yksikön päällikkö  Augusto Burgueño Arjona. Hän herätti keskustelua siitä, miten RDA voisi kasvattaa toimintaansa ja ottaa yhä isomman roolin EU-rahoitteisissa projekteissa. Omalla tavallaan villi ehdotus oli se, että EU-hankkeista tehtäisiin RDA-työryhmiä.

Se tarkoittaisi yli 6000 työryhmää, mikä on tietenkin varsin mahdoton yhtälö pitkälti vapaaehtoisuuteen perustuvalle organisaatiolle.

Tiedostoista datakeskeiseen ajatteluun

Big data -työryhmässä keskusteltiin erilaisista tulevaisuuden arkkitehtuureista. NASA Goddard Flight Centerin Kwo-Sen Kuo esitteli vaatimuksia tulevaisuuden järjestelmille, kuten datan avoin julkaiseminen, toisiinsa liittymättömien tietokantojen käytön vähentäminen, yhteistoiminnan tuki, parempi analysointisovellusten laatu ja uudelleenkäytettävyys, tieteellisen toistettavuuden tuki ja ROI:n maksimointi.

Vaatimuksiin voidaan suhtautua kahdella tavalla, joko tiedostokeskeisesti tai datakeskeisesti. Näistä ensimmäisessä asiat hoidetaan tiedostoina kuten usein nykyäänkin. Jälkimmäisessä taas data tallennetaan indeksoituihin tiedostoihin, joista dataa käsitellään, hallitaan ja analysoidaan tarkoitukseen sopivilla sovelluksilla.

Näistä jälkimmäinen vastaa Kuon mukaan paremmin tulevaisuuden haasteisiin ja vaatimuksiin. Kun datakeskeiset toimintatavat yleistyvät, niin tiedostokeskeisen ajattelun merkitys vähenee, vaikka perinteisemmästä mallista ei päästäne kokonaan eroon. Tosin, tiedostojen käytöstä tulee siitäkin nykyistä dynaamisempaa erilaisten cache-ratkaisujen jne. avulla.

Internetistä datanetiin

Kansallisten palveluiden intressiryhmässä oli esillä useammankin maan projekteja, joista moni on vielä alkutekijöissään tai vasta suunnitteluasteella kuten Espanjan projekti.

Yhdysvalloissa on jokin aika sitten käynnistetty kansallisen datapalvelun toteutus, mutta projekti on vasta alkuvaiheessaan. Projektilla pyritään tukemaan datan julkaisemista, löydettävyyttä ja uudelleen käytettävyyttä, eli siirtymään internetistä “datanetiin”. Tähän liittyy datapalveluiden yhteentoimivuuden toteuttaminen laajasti esimerkiksi hajauttamalla datan ja laskennan pilveen. Samalla kansallinen datapalvelu toimii projektien ja pilottien hautomona, jotta ne pääsevät mahdollisimman nopeasti liikkeelle ilman laajoja infrojen rakentamisia.

Projektin perustajiin kuuluu koko joukko yhdysvaltalaisia yliopistoja kuten Harvard, CU Boulder, Johns Hopkins, UC San Diego, Indiana, Purdue sekä muita organisaatioita kuten IEEE, Nature- ja Science -lehdet, Elsevier, NCSA, iRods, DataOne jne.

Suomen avoimen tieteen ATT-hanke oli esillä kyseisen ryhmän edellisessä kokouksessa Denverissä. Yleisesti kansallisista datapalveluista voi todeta, että Suomi on jo varsin pitkällä ja selkeästi edelläkävijän roolissa moniin maihin, kuten vaikkapa Ruotsiin, nähden. Toisaalta, muissa maissa pyritään uudet projektit tekemään – muilta opiksi ottaen – ketterämmin, joten Suomessakaan ei ole syytä laiskotteluun.

QoS ja DataLC

Helsingin yliopiston Mildred -hanketta esiteltiin QoS and DataLC Definitions -työryhmässä lähinnä siksi, että sen tiimoilta on jossain määrin kuvattu arkkitehtuuria ja niiden välisiä suhteita, mikä toimi ihan hyvin keskustelun pohjana. Lisäksi ryhmässä oli yleistä kiinnostusta hanketta kohtaan ruotsalaisten taholta.

Työryhmän nimi kuvaa kieltämättä hieman huonosti sitä, että työryhmän ideana on kuvata myös koneluettavassa muodossa palvelinarkkitehtuureihin ja teknologiaan liittyviä palveluiden laatuvaatimuksia (QoS) tutkimusdatan elinkaaren (DataLC) erilaisissa vaiheissa.

Lopuksi

Yhteenvetona plenaryn sisällöllisestä annista voi sanoa sen verran, että maailma ei ole valmistumassa, vaan maali liikkuu.

Data on jo sen verran laajalti tunnistettu voimavara, että suuren innostuksen vaiheesta ollaan siirtymässä jo erilaisten tulosten ja tehokkuuden vaatimiseen. Pelkkiä perustarpeita tyydyttämällä ei enää pysy kehityksen vauhdissa. Yhteentoimivuus ja yhteistyö erilaisten yhteisöjen sisällä ja niiden välillä ovat tärkeitä tekijöitä tulevaisuuden palveluille.

Kokoukseen osallistui 620 osanottajaa yhteensä 45 maasta. Osallistujia oli kaikilta mantereilta Antarktista lukuunottamatta, joskin 67 % osallistujista tuli Euroopasta. Osallistujista 38 % oli naisia ja 62 % miehiä.