Monthly Archives: October 2015

Pilviveikkauksia

Pilvipalveluista on viimeaikoina jälleen keskusteltu ja teeman ympärillä on parhaillaan tekeillä toimenpide jos toinenkin. Tässä tekstissä tarkastellaan muutamia esimerkkejä, arvioidaan niitä ja arvaillaan hieman tulevia käänteitä.

Viestintätoimisto Kreab Helsingin toimitusjohtaja Mikael Jungner (ex-Microsoft, ex-Yle, ex-kansanedustaja (sd.) jne.) arvioi, että Microsoft 365- tai Google Worksin kaltaisilla pilvipalveluilla voitaisiin Suomen julkisessa hallinnossa säästää vähintään 100 miljoonaa euroa joka vuosi.

Senja Larsen kirjoittaa Kauppalehdessä, että mikäli Suomi haluaa nyt olla pioneeri, sen tulee tähdätä pilvipalvelujen kärkimaaksi ja silloin pilviarkkitehdit ovat tämän uuden it-ajan avainosaajia.

Codenton Petri Aukia ennustaa blogissaan, mm. että Amazonin kaltaiset pilvipalvelut muuttuvat kaikissa tapauksissa halvemmaksi, kuin omien servereiden ostaminen ja käyttäminen ja niiden tietoturva paranee niin paljon, että palvelut siirretään niihin tietoturvasyistä.

Samaan aikaan EU tuomioistuin päätyi 6.10.2015 tekemässään päätöksessä C-362/14 toteamaan Safe Harbor -järjestelyn pätemättömäksi. Näin ollen Safe Harbor -järjestelyn nojalla ei voida enää siirtää henkilötietoja Yhdysvaltoihin.

Tähän keskusteluun on hyvä ottaa mukaan myös uutisointi suomalaisista datakeskuksista ja niihin liittyvistä hankkeista, vaikka on tiedossa etteivät konesalit yksinään kansantaloudelle merkittävästi tuloja tuota.

Tieteen tietotekniikkakeskus CSC:n toimitusjohtaja Kimmo Koski korostaa omassa kirjoituksessaan, että olennaisempaa työllisyydelle ja verotuloille on datakeskusten ympärille rakentuva ekosysteemi – tutkimus, koulutus, tietohallintopalvelut, ohjelmistot ja niiden kehitys, pilvipalvelut, data-analyysi, näitä hyödyntävä yritystoiminta, datakeskusrakentaminen ja monet muut toiminnot. Hän huomauttaa myös, että em. Safe Harbor -päätös saattaa tuplata jo aiemminkin isot tämän alan kasvuennusteet ja etsikkoaika tämän hyödyntämiseen on nyt.

Tähän pakettiin pitää nyt liittää myös uutinen, jonka mukaan Suomen ja Saksan välille avaava merikaapelihanke on edennyt asennusvaiheeseen. Tämän odotetaan auttavan tuomaan Suomeen yksityisiä datakeskusinvestointeja 2-3 miljardin euron verran seuraavan noin 10 vuoden aikana ja kehittämään noita ekosysteemejä.

Kiirettä on siis pitänyt. Miksipäs toisaalta ei olisi, sillä talous, arkkitehtuurit, osaaminen, ekosysteemit ja infrastruktuurit ovat osa sitä alustaa, minkä päällä digitalisaatio elää ja toimii.

Hopealuodit toisaalla

Arvioidaan hieman muutamaa asiaa.

Jungnerin esittämä arvio tai arvaus 100 miljoonan säästöpotentiaalista on perusteltavissa, mutta mistään hopealuodista ei ole kyse, eikä noita säästöjä kannata ensi vuoden budjetissa odotella elleivät ne siellä jo ole. Säästöjä olisi odotettavissa kenties vaalikauden lopulla tai sen jälkeen.

Näin ihan siksi, että esimerkiksi valtionhallinnossa on jo alkanut perustietotekniikan keskittäminen ja valtionhallinnon n. 90 000 työasemasta 60 000 on menossa uusiksi. Kestoltaan 3 vuotisessa projektissa käytetään pilvipalveluita hyväksi ja sen “toivotaan tuovan kymmenien miljoonien eurojen säästöt”. Tulevan projektin hintaa uutinen ei kerro, mutta kyseessä on mittavasta investoinnista, sillä ilmaiseksi ne palvelut eivät sinne pilveen siirry, eivätkä käyttäjät saa hommaa ilman tukea käyttöön.

Toisaalta valtionhallinto ei ole koko julkinen sektori. Esimerkiksi kunnissa oli pari vuotta sitten noin 216 000 laitetta (Kuntien tietotekniikkakartoitus, PDF) ja kuntien kokonaismenoista tietotekniikkaan kului vuonna 2013 noin 1,3 prosenttia ja kokonaisuudessaan 831 miljoonaa euroa. Kuntien IT-menot tosin ovat reaaliarvolla mitattuna menot kääntyneet laskuun vuoden 2010 jälkeen ja kuntasektorin IT-henkilöstöstä on jo vähennetty tuollaiset 20 %.

Julkishallinnon pilvihaaveiden kohdalla kannattaa aina muistaa, että siellä on isoja käyttäjäryhmiä kuten poliisi, puolustusvoimat sekä sosiaali- ja terveysorganisaatiot, joiden käsittelemiä tietoja ei laillisesti ulkomaisissa pilvissa voi käsitellä. Osa opettajistakin käsittelee salassa pidettävää materiaalia.

Kuten Larsen kommentissaan toteaa, IT-busineksessa on ollut iso murros jo jonkin aikaa johtuen infrastruktuuriin liittyvästä liiketoimintamallien ja teknologioiden uudistumisesta pilvimaailmaan. Voi tietysti kysyä, milloin IT-maailmassa ei ole ollut jotain murrosta? Tosin digitalisaation myötä on tultu vaiheeseen, jossa IT ei enää käynnistä tai johda murroksia, vaan ne ovat lähtöisin toimintamallien uudistamisen tarpeista tai ideoista.

On ilmiselvää, että liiketoimintamalliltaan pilvipalvelumalli on massapalveluissa (olkoot ne nyt sitten infraa, sovelluksia tai jotain muuta) tehokkaampi kuin paikallinen pientuotanto. Niin se on kaikessa muussakin busineksessa. Ei autoja käsityönä kannata tehdä, jos haluaa tehdä niitä paljon ja kohtuuhintaan.

Kaikkea IT:ssäkään ei tosin voi eikä kannata tehdä massatuotantona ja siksi pilviarkkitehti tarvitsee joko-tai -näkökulman tilalle sekä-että -ajattelua. Tätä voi kutsua myös hybridimalliksi.

Tietosuojassa erilaisia lähestymistapoja

Kun pilvipalveluilla tarkoitetaan globaalien toimijoiden infrastruktuureja, on syytä huomata, että Yhdysvalloissa ja Euroopassa tilanne tietosuojan ja lainsäädännön osalta on varsin erilainen. Se mikä on yhdysvaltalaiselle kotimaista pilvipalvelua, on euroopplaiaselle toimintaa, jossa käyttäjän tietosuojaa ei voida välttämättä turvata.

Suomen tietosuojavaltuutettu kirjoittaa:”Yhdysvalloissa on omaksuttu tietosuojaan erilainen lähestymistapa kuin Euroopassa. Yhdysvalloissa ei ole yleistä tietosuojalainsäädäntöä, vaan siellä käytetään alakohtaista lähestymistapaa, jossa yhdistyvät lainsäädäntö, sääntely ja itsesääntely.”

Safe Harborin päätyminen pätemättömäksi ei sinänsä ole mikään yllätys tai edes iso uutinen, sen verran ilmiselvästä ongelmasta on ollut kyse. Eikä tuomioistuimen päätös edes tarkoita sitä, että kaikki henkilötietojen siirtäminen Yhdysvaltoihin olisi laitonta. Edellä linkitetyn tietosuojavaltuutetun tiedotteen mukaisesti “Henkilötietojen siirtäminen Euroopasta Yhdysvaltoihin on sallittua vain tietoja koskevan henkilön nimenomaisella suostumuksella, erityisellä tietosuojan tason takaavalla sopimuksella, ns. mallisopimuslausekkeita käyttämällä tai BCR-prosessin mukaisen sopimuksen nojalla“.

Lisäksi on tietysti niin, että EU ja Yhdysvallat ovat neuvottelemassa koko kuviota uusiksi ja intressiristiriitoja varmasti ilmaantuu. Aikaa menee, mikä kuluttajapalveluissa on hankalaa, mutta isommat organisaatiot ovat jo ennalta hoitaneet sopimuksissaan asian niin, että joko käytetään noita mallisopimuslausekkeita tai sopimuksella velvoitetaan pitämään data Euroopassa.

Pilviä haaveillessa on syytä pitää saappaat savessa.

Halvempaa kyllä, mutta onko se toimivaa?

Codenton Petri Aukian ennusteen mukaisesti Amazonin kaltaisista pilvipalveluista varmastikin tulee omia laitteita halvempia (ellei jo ole tullut) edellyttäen, että palvelutuotantoa on myös lainsäädännön kannalta soveliaissa paikoissa kuten EU-alueella ja esim. terveystietojen osalta Suomessa.

Kuten Aukia kirjoittaa, uusi sukupolvi kehittäjiä ei muutaman vuoden päästä enää edes osaa asentaa palveluita muualle kuin pilveen. Näin kaiketi on myös siksi, että pilvipalvelu tuotantomallina yleistyy pienemmissäkin tuotantoympäristöissä. Voi ennustaa, että muutaman vuoden päästä käytössä olevat konesalitkin ovat ottaneet käyttöönsä erilaisia pilvipalveluiden tuotantomalleja ja -teknologiaa konesalin koosta riippumatta. Voi siis olla, ettei uusille kehittäjille edes ole tarjolla juuri muuta ja siksipä niistä vanhoista palvelimista on helppo kieltäytyä.

Jos Amazon (tai miksipäs ei Microsoft tai vaikka Google) saisi aikaiseksi tietoturvallisen pilvipalvelun, niin se olisi luonnollisesti hyvä asia. Kehitystä tähän suuntaan on jo olemassa.

Pulma ei ole teknisessä tietoturvassa, vaan luottamuksessa ja hallinnollisessa tietoturvassa. Niin kauan kuin yhdysvaltalaiset toimijat on velvoitettu oman lainsäädäntönsä nojalla toimittamaan tietoja yhdysvaltalaisille viranomaisille myös eurooppalaisista käyttäjistä (ilman, että yritys edes saa kertoa siitä seurannan kohteille), teknisellä tietoturvalla on vain rajallinen merkitys.

Sumu on lähellä

Oma pulmansa onkin sitten big data ja esimerkiksi massiivisen tutkimusdatan syntyvaiheet, jolloin data pitää saada jonnekin talteen raakadatana ennen sen käsittelyä. Pilvi voi olla liian kaukana vielä viidenkin vuoden päästä järkevällä hinnalla käytettävissä olevilla verkkoyhteyksillä jne. Käytännössä tällainen data kannattaa tai täytyy tallentaa myös lähellä.

Viiden vuoden päästä tutkimusdatan tallennustarpeiden kohdalla puhutaan rutinoituneesti petatavuista ja uumoillaan exatavuista (merkittäköön tämä muistiin tämän blogin pitäjän ennusteena).

Datan määrän kasvu ja käyttötapojen muutos onkin yksi asia, joka pitäisi pilviarkkitehtuureja kehitellessä huomioida, mutta massapalveluiden mukanaan tuoman innostuksen huumassa herkästi unohtuu.

Esimerkiksi voidaan ottaa autot. Accenturen Connected Transport ja IoT-praktiikan johtaja Marcello Tamietti arvioi Teknikka ja talous-lehdessä kesällä 2015 (Tekniikka ja Talous 23/2015), että jo vuonna 2020 on sata miljoonaa autoa kytketty internetiin ja että ne tuottavat 10⁷⁰ prosessia päivässä.

On ilmeistä, että tuollainen määrä prosesseja synnyttää sellaisen määrän dataa, että sitä ei ole järkevää tai edes mahdollista siirtää pilveen, joten osa datasta on analysoitava, suodatettava ja käytettävä ensin autossa paikaillisella tasolla. Tämä siis pelkästään autoissa. Ympärillämme on koko joukko muitakin prosesseja, joista syntyvä data tallennetaan jonnekin ja käsitellään jossain.

Tässä yhteydessä voisi tietysti sanoa, että tuo analysointi tehdään paikallisilla palvelimilla, mutta ehkä se on hieman harhaanjohtava ajatus, koska “palvelin” jo nykyään olla melkeinpä missä tahansa missä on prosessori.

Kun dataintensiivisyys leviää yhä laajemmalle, tällainen fog computing-termin alle sopiva toimintatapakin tulee yhä yleisemmäksi. Dataa siis käsitellään tulevaisuudessakin lähellä eikä vain pilvessä. Myös asioiden internet tai kaiken internet vaatinevat käytännössä myös datan käsittelyä nk. paikallisella tasolla.

Varastoitava tai jaettava osa tästä datasta päätynee pilveen, mutta esimerkiksi tutkimusdatan kohdalla se on kohtalaisen pieni osa määrällisestä kokonaisuudesta.

Teknogiakin kehittyy

Pilvipalvelukeskustelussa hieman häiritsee yksi yllättävä seikka. Siinä ei juuri analysoida sitä miten teknologian kehitys vaikuttaa asioihin. Tämä tosin on ymmärrettävää digitalisaation mukanaan tuoman paradigman muutoksen vuoksi.

Veikkaus tuskin menee kovin paljoa pieleen, jos arvelee teknologian kehittyvän seuraavan kymmenen vuoden kuluessa vähintäänkin samaa tahtia kuin viimeisen kymmenen vuoden aikana ellei sitten enemmänkin. Lisäksi tulevat ne hypyt, joista vielä emme oikein saa sanoa tarkasti mitään.

Otetaan esimerkki. Normaali nykyinen kiintolevy palvelimissa on 6 teratavun 7200 kierrosta per minuutti pyörivä pyörivä levy. Nyt on kuitenkin esitelty uudella 3D-tekniikalla toimiva SSD-levy, jossa kapasiteettia on peräti 16 teratavua. Kun tähän lisätään vielä se, että uusien levyjen hinta on halvempi, niin voidaan puhua jo merkittävästä uudistuksesta.

Näin radikaalit muutokset voivat tarkoittaa myös uusia konsepteja eli esimerkiksi jatkossa palvelimet eivät enää ole sähkönkulutukseltaan, kooltaan tai konseptiltaankaan samankaltaisia kuin nykyään. Siksipä voi olla hieman haastavaa verrata pilvipalvelua tuleviin palvelimiin.

Sovellustensa puolesta se olisi sinänsä jo nyt mahdollista, mutta ei ehkä tietoturvallista tai muuten käytännöllistä, mutta tulevaisuudessa esimerkiksi jokainen mobiililaite voisi toimia palvelimena. Kun tämä yhdistetään uuden sukupolven mobiilivrkkoihin, pilvikonsepteihin ja toimintatapoihin, voi syntyä jotain ihan muuta kuin se mihin nyt varaudutaan tai halutaan mennä. Ja niin edelleen.

Lopuksi

Pilviin liittyy useampia näkökulmia, jotka arkkitehtuurissa on otettava ennemmin tai myöhemmin huomioon, vaikka asioita haluttaisiinkin yksinkertaistaa. Massatuotannon kustannusteokkuus ei tee pilvestä käyttökelpoista kaikkiin tarkoituksiin lainsäädännöllisista, toiminnallisista tai teknologisistakaan syistä johtuen. Samalla pilvipalvelu toimintatapana on muutakin kuin massiivisissa kansainvälisissa datakeskuksissa sijaitsevia resursseja, ne voivat olla ihan läheltäkin saatavia palveluita.

Kun kaiken edellä olevan vetää jotenkin yhteen voi arvioida, että tulevaisuus ei ole suoraviivaista pilveen siirtymistä, vaan todennäköisemmin hybridia, missä paikalliseen toteutukseen otetaan eväitä pilvipalveluiden toimintamalleista ja teknologioistakin.

Mitä erilaisiin ennusteisiin tulee, niin arvatenkin ne menevät kaikki enemmän tai vähemmän pieleen. Se voi tosin olla niiden hyvä puoli.

Raportti RDA:n 6. plenarystä: Tutkimusdata kohti ekosysteemejä

Leave a reply

(Matkaraportti on julkaistu 8.10.2015 jotakuinkin samassa muodossa HY:n tietotekniikkakeskuksen Tietoset-henkilökuntajulkaisussa)

Research Data Alliancen 6. plenary ja sitä edeltänyt dataintensiivisen tutkimuksen ja e-infrastruktuurien työpaja Pariisissa 22.-25.9.2015 tarjosi jälleen koko joukon projekteja ja edistysaskelia tutkimusdatan parissa.

Kokouksen teemana oli yritykset ja ilmastonmuutos, järjestetäänhän joulukuussa Pariisissa kansainväliseen ilmastoisopimukseen tähtäävä kokous COP21.

Projektien ilotulitus

Varsinaista plenaryä edeltävänä päivänä järjestettiin dataintensiivisen tutkimuksen ja e-infrastruktuurien työpaja, joka oli yhtä projektien ja infrastruktuurien esittelyn ilotulitusta.

Yhdysvaltalaisen NCSA:n johtaja Ed Seidel esitteli kuvaa modernista tutkimus- ja opetusinfrastruktuurista, joka vaati varsin paljon verkkoa ja kapasiteettia. Hän puhui myös siitä, että innovaatiota vaativat sekä datan pitkää häntää eli niitä pienempiä datasettejä että big dataa.

Pre-päivän lyhyissä esityksissä olivat tieteen laskentapalveluista esillä mm. suurteholaskennan PRACE-infrastruktuuri, eurooppalainen korkean suosituskyvyn laskentapalvelu ETP4HPC, pilvipalvelu Helix Nebula, European Grid Infrastructure EGI, INDIGO-DataCloud, yhdysvaltalainen suurtehoympäristö XSEDE, kandalainen ComputeCanada ja brasilialainen RNP.

Datapalveluista esillä olivat eurooppalaiset EUDAT ja OpenAIRE, lääketieteeseen tarkoitettu brittiläinen PhenoMeNal, Australian kansalliset datapalvelut ANDS , yhdysvaltalaiset DataOne ja NDS sekä Japanin ROIS.

Autentikointiin ja auktorisointiin on kehitteillä uusia ratkaisuja AARC-hankkeen myötä. Myös CSC on AARC:ssa mukana edustamassa life science -sektoria.

Yksi varsin paljon esillä ollut projekti on THOR. Projektin visiona on rakentaa saumaton integraatio artikkeleiden, data ja tutkijoiden välille koko tutkimuksen elinkaaren ajaksi. Käytännössä projekti liittyy ORCID:n, Zenodon ja DataCiten hyödyntämiseen integraatioiden toteuttamisessa. Yksityiskohtana mainittakoon, että projektin tiimoilta on olemassa myös R-paketti, jolla voi käsitellä DataCiten avoimessa rajapinnassa jaossa olevaa metadataa.

ORCID on tulossa lähiaikoina mukaan hollantilaisen SURFNetin käyttäjäfederaatioon ja myöhemmin myös HY:lläkin käytössä olevaan eduGAINiin.

Päivän hengästyttävän laajan annin yhteenvetona Max Planck Instituten senior advisor Peter Wittenberg nosti esiin lukuisat erilaiset ratkaisut, joita datan kanssa nykyisellään on. Hän kysyi, miten voimme vähentää ratkaisujen määrää, jotta tilanne olisi hieman hallittavampi. Hän on ollut kehittelemässä myös Data Fabric -konseptia, joka kokoaa datan hallinnan eri vaiheet samaan arkkitehtuuriin.

Luottamus, hybridi ja ekosysteemit

Eräs teema, joka tuli esiin varsin monessa esityksessä oli hybridiratkaisut datan käsittelyssä sen elinkaaren eri vaiheissa. Hybridillä tarkoitetaan yhdistelmään pilvipalveluista ja paikallisista palveluista. Muita puheenvuorojen iskusanoja olivat mm. ketteryyden puute, saumaton integrointi, palvelusuuntautuneisuus ja ekosysteemit.

EU:n komission e-infrastruktuuriyksikön päällikkö Augusto Burgueño-Arjona puhui siitä, että EU:ssa on tavoitteena saada aikaiseksi yhtenäinen digitaalinen markkina aikaiseksi. Hän luetteli tämän hetkisiä trendejä kuten maailmanluokan e-infrastruktuuri, konvergoidut verkot, big data, suurteholaskenta, co-design, datavetoinen tiede ja palvelusuuntautuneisuus (sisältää myös pilvet). Hän kuitenkin muistutti, että todellisuudessa tekeminen on hajaantunut niin maantieteellisesti, teknologisesti kuin käyttäjäryhmittäinkin.

RDA:n tehtäväksi hän hahmotteli innovatiivisten e-infrastruktuuripalveluiden ja alustojen kehittelyn ja testaamisen.

RDA:n pääsihteeri Mark Parsons linjasi, että tutkimusinfrastruktuuri on myös e-infrastruktuuri. Hän sanataiteili, että datan tallentaminen on joskus hankalaa, mutta datan jakaminen vielä hankalampaa. Hän puhui myös siitä, että luottamus on keskeisessä osassa datan kanssa toimittaessa.

Dataa tulee lisää ja lisää

EU:n käyttää Horizon 2020 -ohjelmaan 80 miljardia euroa ja sillä syntyy varsin paljon uutta dataa. EU:n digitaalisesta taloudesta ja yhteisöistä vastaava komissaari Günther H. Oettinger totesi videoviestissään, että datan ja sen käsittelyn merkitystä taloudelle ei voi yliarvioida.

Ranskan digitaaliasioista vastaava ministeri Axelle Lemaire muistutti, että dataa pitää jakaa, jotta siitä saadaan lisää arvoa. Ranska onkin pärjännyt kohtuullisen hyvin datan avoimuuteen liittyvissä asioissa. Ranskan hallituksella on erikseen nimettynä data-asioihin keskittyvä Chief Data Officer ja hallitus on pyytänyt eri virastoilta strategiat siitä miten dataa aiotaan käyttää. Asia otetaan mitä ilmeisimmin vakavasti ja kunnianhimon taso on varsin korkealla.

Keynote-puhujana oli Barbara J. Ryan Group on Earth Observations (GEO) -organisaatiosta. Hän kuvaili ilmastonmuutoksen tilannetta (jäätiköt sulaa, hiilidioksidi ilmakehässä lisääntyy ja maapallon lämpötila nousee). Hän kertoi avoimuuden vaikutuksista eli ennen avoimen datan politiikkaa GEO:n palveluista ladattiin 53 Landsat-satelliitin kuvaa päivässä, mutta datan avaamisen jälkeen lukema on n. 5700 kuvaa päivässä. Ryan kertoi, että Landsat-datan avaamisesta on saatu globaalisti 2,1 miljardin dollarin hyödyt.

Rahaan liittyen australialainen Simon Cox kertoi, että Australiassa on arvioitu, että rannikon tulvat, rajut tuulet ja sisämaan vedenpinnan nousu aiheuttavat vuoteen 2100 pelkästään asumisessa n. 210 miljardin dollarin kustannukset. Hän totesi myös, että proaktiivisella toimilla verrattuna reaktiiviseen “business as usual”-toimintaan voidaan säästää n. 99 miljardia dollaria. Tuo proaktiivinen toiminta taas edellyttää dataa, johon päätökset perustetaan.

Ilmastoasioiden ympärillä onkin koko joukko erilaisia portaaleja ja palveluita kuten esimerkiksi ranskalainen Drias. Saksan ilmastoasioiden laskentakeskus DKRZ tarjoaa myös datapalveluita esim. hallitusten väliselle ilmastopaneeli IPCC:lle. Siellä on n. 5 petatavua pitkäaikaistallennettua dataa, joka dokumentoitu, metadatoitettu, saatavilla, käytettävissä ja viitattu DataCiten DOI:lla. DKRZ:n Merret Buurman kuvaili prosessia raakadatasta pitkäaikaistallennettavaksi prosessina, johon mahtuu myös useampikin sotku.

Big Data -palveluista esillä olivat esimerkiksi EarthServer globaalin geodatan jakeluun sekä virtuaalinen 3D API HTML5:lle and JavaScriptille Web World Wind.

Keynote-puheenvuorossaan Orangen Jean-Paul Leroux puhui siitä, että datan saatavuus on usein seurausta yhteiskunnan digitalisaatiosta. Hänen mukaansa datan määrä jatkaa kasvuaan, se on yhä useammin mobiilia ja yhä useammin koneiden välistä.

Tuloksia työryhmistä

Datan ympärillä sidosryhmien ja repositoryihin tallennetun datan määrä kasvaa nopeasti, mutta rahoitus ei seuraa. Moni repositoryjen ylläpitäjä ei pidä nykyistä rahoitusmallia ja lähdettä stabiilina, joten ovat etsimässä uusia rahoitustapoja. Nykyään repositoryjen rahoitus hoidetaan organisaatioiden toimesta eikä esimerkiksi projektirahoituksena. Projektirahoitusta ei pidetä kovinkaan hyvänä ratkaisuna sellaisessa tilanteessa, jossa dataa pitää säilyttää kymmeniä vuosia.

RDA:n datakeskusten rahoitusta pohtiva työryhmä on julkaisemassa ensi vuonna raporttia, jossa kuvataan data repositoryjen rahoituksen nykytilaa ja tulevaisuuden näkökohtia.

RDA:n työryhmien tuloksia ja tulosten käyttökohteita esiteltiin niitäkin. Esimerkkinä hyödyntämiskohteesta kelpaa australialainen RD-switchboard, jonka avulla voi etsiä datasettejä useista rekistereistä kerralla.

Experiment day

Plenaryn yhteydessä pidettiin experiment day, jossa 18 aloittelevaa yritystä esittelivät ratkaisujaan erilaisiin ilmastoasioihin tavalla tai toisella liittyviin kysymyksiin. Näistä osallistujat äänestivät kaksi ratkaisua, jotka palkittiin päivän päätteeksi.

Yritysten ratkaisut vaihtelivat satelliittitiedon hyödyntämisestä, graafien tuottamiseen datasta ja rakennusautomaatioon. Palkituiksi tulivat ilmanlaatutietoa jalostava ja jakava Plume Labs sekä Defab, jonka ratkaisussa tietokoneiden tuottamaa lämpöä käytetään veden lämmitykseen.

Data packages BoF pohti sitä miten data pitäisi pakata, jotta siitä saadaan paremmin käsiteltävää ja yhteen toimivaa. keskustelu kävi lähinnä Open Knowledge Foundationin Data Package -formaatin ympärillä. Tässä varsin yksinkertaisessa toteutuksessa on datan paketointiin tarvitaan vain yksi pakollinen tiedosto eli nk. deskriptori, joka on JSON-tiedosto. Tuossa tiedostossa kerrotaan datan metadata ja muut vastaavat tiedot. Itse data voi olla mitä tahansa.

Datan paketoimisessa jakelua varten yksinkertaisuus, avoimuus ja riippumattomuus sovelluksista on on tyypillisesti hyödyllistä. BoF-keskustelussa CSV-formaatti nauttikin jonkinlaista suosiota. Muitakin datan paketoimisen tekniikoita löytyy (esim. http://dataprotocols.org/) eri tarkoituksiin.

Hieman myöhemmin ADHO:n (The Alliance of Digital Humanities Organizations) Candice Lanius puhui samasta asiasta todeten, että datan veistämisen (data carpentry) olevan ihmisten vakuuttamista luopumaan Excel-taulukoiden käytöstä.

Suuret tutkimusjärjestelmät ja datapolitiikat

Neutroni- ja fotonifyysikoiden tapaamisessa pohdittiin perustavaa laatua olevia kysymyksiä, kuten sitä onko RDA edes oikea paikka näiden tieteiden harjoittajille.

Hieman varttuneemmat tutkijat olivat tehneet ansiokkaat selvitykset sekä eurooppalaisista että yhdysvaltalaisista avoimen datan politiikoista kuten Royal Societyn suositukset sekä Digital Data Management of U.S. Department of Energy.

Institut Laue-Langevinin Jean-Francois Perrin kertoi siitä mitä avoin tiede on käytännössä ja samalla esitteli PaN-datan politiikat (PDF-tiedosto). Hänen mukaansa avoimen tieteen haasteita ovat tutkijoiden tiedostaminen, kokeellisen datan hyödyntämistä käsittelevien artikkeleiden keräämisen hankaluus, avoimen data puute sekä ajan puute.

Yksityiskohtana mainittakoon, että kiihdyttimen tuottaman datan tallentamiseen menee n. 1 % kiihdyttimen hinnasta. Kuten tunnettua ne kiihdyttimet eivät ole kovinkaan halpoja.

Lopputulema alunperin epäilevien fyysikoiden palaverista oli se, että ryhmä jatkaa RDA:n piirissä ja yrittää pitää palavereja verkossa kuukausittain (mikä on RDA:n piirissä varsin tiivis tahti).

Laatu ja elinkaari

Yksi hyödyllisimmistä BoF:sta käsitteli tallennusjärjestelmien laadun ja datan elinkaaren määritelmien yhtenäistämistä sekä siinä sivussa hieman tutkijoiden näille järjestelmille asettamien odotusten hallintaa. Kyse on siis siitä, että saataisiin yhteinen käsitys siitä, millä käsitteillä ja määritteillä tallennuspalveluiden ja -järjestelmien laatua kuvataan missäkin tilanteessa. Yhteinen ymmärrys näistä auttaa hallinnoimaan myös budjetteja hieman paremmin, kun tutkijoilla on selkeämpi käsitys siitä mitä voi valita ja miten.

Kansallisia palveluita pohtiva intressiryhmä kokoontui alkuun aivan liian pienessä salissa, mutta vaihtoi varsin nopeasti suurempaan. Ryhmän tehtävän on keskustella esimerkiksi siitä miten kansalliset ratkaisut voivat keskustella keskenään, koska tiede ei ole enää kansallista, vaan hyvinkin globaalia. Toisaalta ryhmä voisi tukea niitä maita, jotka eivät vielä ole kansallisia dataratkaisuja tehneet, mutta ovat tekemässä.

Joissain maissa tutkimusdata ja kansallinen data (governmental data) pyöritellään samoissa systeemeissä, mutta joissakin taas hallinnon data hoidetaan arkistoissa kuten esim. Hollannissa tai Suomessa.

Plenaryn viimeinen työryhmäsessio oli tutkimuksen toistettavuutta käsittelevä intressiryhmä. Koska kukaan osallistujista (n. 15 kpl) ei ollut ryhmän aiemmissa kokoontumisissa, oli ryhmällä hienoista epäselvyyttä siitä mitä ryhmässä pitäisi tehdä. Siispä ryhmä kävi keskustelua mm. niistä työvälineistä, joita eri puolilla käytetään tutkimuksen toistettavuuden (reproducibility) tukena.

Tutkimuksen toistettavuuden työvälineitä löytyy esimerkiksi Reproducible Research-saitilta. Softia on myös esitelty osaksi datan provenienssin seurantaa. Lisäksi sessiossa oli esillä mm. Pegasus, MyExperiment, YesWorkflow.org, Sumatra, recipy, CDE, Process Migration Framework, ReproZip, Docker, noWorkflow, Recomputation, Umbrella ja git2PROV. Aiheesta järjestetään myös koulutusta. Kokonaisuutena ajatellen, tämä osa-alue ei vielä ole kovinkaan kypsynyt, mutta jatkossa saamme kuulla tästä lisää.

Lopuksi

Tutkimusdataan liittyvä toiminta ja tekeminen on kehittynyt varsin nopeasti. Sen sijaan, että pohdittaisiin yksittäisen datasetin tallennusta ja jakelua, keskustelu kohdistuu siihen miten dataa ja sen tietoja voidaan integroida, millaisia ekosysteemejä näin luodaan ja millä palveluilla tämä kaikki saadaan aikaiseksi.

RDA:n plenary oli jälleen täynnä innostusta ja uusiakin asioita. Hiljalleen yhteisön piiristä alkaa tulla erilaisia tuotoksia kuten suosituksia ja niiden implementaatioita. Projekteja datan ympärillä on jo niin paljon, että yksittäinen globaali organisaatio ei niitä oikein ehdi sulatella. Plenaryn ohjelma olikin laadittu e-infrastruktuuripäivä mukaan lukien 4:lle noin 10 tuntiselle työpäivälle, jonka jälkeen ohjelmassa oli vielä verkostoitumiset yms.

Vuonna 1794 perustetun Conservatoire national des arts et métiers (CNAM) -instituutin kampuksella järjestettyyn kokoukseen osallistui noin 700 osallistujaa, jotka työskentelivät yhteisten kokousten lisäksi 25 työryhmäsessiossa, 21 intressiryhmän kokouksessa sekä 25 BoF:ssa. Kokouksesta singottiin kokouksen aikana maailmalle n. 2500 tweettiä hashtagilla #RDAPlenary.