Aihearkisto: Arkkitehtuurit

Mikä on tutkimusdatainfrastruktuuri?

Tutkimusdataninfrastruktuurilla ei ole yhtä ja yleisesti hyväksyttyä määritelmää, joten on ehkä syytä tarkastella muutamia. Otetaan alkuun datainfrastruktuurin määritelmä Wikipediasta:

“A data infrastructure is a digital infrastructure promoting data sharing and consumption.”
(Lähde: https://en.wikipedia.org/wiki/Data_infrastructure)

Tämän mukaan datainfrastruktuuri on datan jakamiseen ja käyttämiseen tarkoitettu digitaalinen infrastruktuuri. Tällainen määritelmä on käytännöllinen, mutta jossain määrin suppea. Tuohan tarkoittaisi suunnilleen minkä tahansa datan jakamiseen tai tallentamiseen tarkoitetun järjestelmän sisältymistä infrastruktuurin määritelmän sisälle.

* * *

Open data instituten määritelmää mukaillen datainfrastruktuuriin yleisesti ja samalla myös tutkimusdatainfrastruktuuriin liitetään yleensä teknologian lisäksi prosessit ja organisaatio, mutta myös yhteisön vaatimukset.

“Trustworthy data infrastructure is sustainably funded and has oversight that provides direction to maximise data use and value by meeting the needs of society. Data infrastructure includes technology, processes and organisation.”
(Lähde: https://theodi.org/what-is-data-infrastructure)

Se onkin tarpeen, sillä käytännössä luottamus ja riittävät pitkäjänteinen infrastruktuurin rahoitus asettaa vaatimuksia myös toimintatavoille ja organisaation rakenteelle.

Tutkimusdatainfrastruktuuri ei ole pop-up -toimintaa.

Näin ihan siksi, että datan merkitys ei välttämättä tule esille kvartaaleittain vaan pitkien aikasarjojen avulla. Sillä siis on merkitystä kuka omistaa datan ja sen infrastruktuurin.

Oma huomionsa on sekin, että datainfrastruktuurilla pyritään maksimoimaan datan käyttö ja arvo.

* * *

RDA:n entinen pääsihteeri Mark Parsons ja RDA:n TAB:n puheenjohtaja Francoise Genova ovat kuvailleet tutkimusdatainfrastruktuuria teknologian ja sosiaalisten ratkaisujen vuorovaikutuksen kautta niin, että meillä ei ole välttämättä ennalta tiedossa miten tuo ihmisen ja koneen vuorovaikutus lopulta ilmenee.

“It is well understood that infrastructure must consider both technical and social issues and solutions and how they interact, but research also shows that one cannot pre-define how all those interactions will occur.”
(Lähde: https://www.rd-alliance.org/group/council-strategy-subcommittee/outcomes/building-infrastructure-through-strategies)

He siteeraavat myös Michiganin yliopiston Paul Edwardsia et al., jotka ovat todenneet, että kestävä kyberinfrastruktuuri – jollainen tutkimusdatainfrastruktuurikin on – voidaan kehittää vain silloin kun sosiaaliset, organisaatioon liittyvät ja kulttuuriset kysymykset voidaan ratkaista samassa tahdissa teknologiapohjaisten palveluiden tuottamisen kanssa.

“Robust cyberinfrastructure will develop only when social, organizational, and cultural issues are resolved in tandem with the creation of technology-based services.”
(Lähde: http://hdl.handle.net/2027.42/49353)

Tutkimusdatainfrastruktuuri edellyttää organisaatiota, toimintakulttuuria ja pitkäjänteisesti toimivia sosiaalisia verkostoja, joiden varaan tekniset ratkaisut voidaan toteuttaa. Huomattavaa on se, että ilman toista ei ole toistakaan.

Tässä on myös vahva poikkihallinnollisuuden maku. Jos tutkimusdatainfrastruktuuri sidotaan liian tiukasti johonkin olemassa olevaan organisaation traditioon, voidaan päätyä toistamaan tapoja, jotka eivät tue riittävästi näitä verkostoja tai ovat liian kaukana teknologisesta kehityksestä.

* * *

Data näkyy myös taloudellisissa tai toiminnallisissa arvoissa.

“The world’s most valuable resource is no longer oil, but data”
(Lähde: http://www.economist.com/news/leaders/21721656-data-economy-demands-new-approach-antitrust-rules-worlds-most-valuable-resource)

Siinä missä data on syrjäyttänyt öljyn maailman arvokkaimpana resurssina, datan merkitys tutkimukselle kasvaa koko ajan samaa tahtia datan määrän kanssa. Monelle tutkimukselle tai tutkimusalalle data voi olla tärkeämpää kuin itse datan kohde tai tai lähde, vaikka näitä ei voikaan irroittaa toisistaan.

Tästä seuraa myös se, että tutkimusdatainfrastruktuuria voi pitää myös tutkimusinfrastruktuurina siinä missä jotain hiukkaskiihdyntintäkin. Ilman sitä joidenkin asioiden tutkimus ei olisi yksinkertaisesti mahdollista.

* * *

Edellä kuvatun mukaisesti tutkijoiden rooli suhteessa tutkimusdatainfrastruktuuriin on varsin aktiivinen. Ilman tutkijoita ja heidän osallistumistaan ei tutkimusdatainfrastruktuuria oikeastaan ole olemassa.

Tutkimuksessa ja tieteen tekemisessä on pitkä traditio siinä, että tutkijat tuottavat omat työvälineensä osin ihan siksi, että se tuottaa myös uutta tiedettä.

Toisaalta voidaan sanoa, että varsin harvan tutkijan tehtävänä on – tai pitäisi olla – tutkimusdatainfrastruktuurin tekninen rakentaminen, toteuttaminen tai ylläpito. Se ei ole ajankäytöllisesti järkevää enää siinä mittakaavassa missä nämä infrastruktuurit jo nykyisellään ovat. Lisäksi näiden infrastruktuurien toteuttaminen vaatii usein erikoistunutta osaamista.

Vähän samaan tapaan kuin harvempi polkupyöräilijä, autoilija tai julkisen liikenteen käyttäjä on rakentamassa maanteitä tai kevyen liikenteen väyliä. Toki käyttäjillä on ja pitää olla mielipide infrastruktuurin ominaisuuksista, mutta lapion varteen tarttuvatkin sitten määrittelyiden jälkeen ihan muut.

* * *

Tähän liittyy kiinteästi myös toimintatapojen muutos, jota myös digitalisaatioksi voidaan kutsua. IT:ssä se on kehityksen kolmas aikakausi käsityöläisyyden sekä teollisen toimintatavan jälkeen. IT:lle se on paradigman muutos siinä missä tieteellekin.

Digitalisaation aikakaudella keskitytään liiketoimintamalleihin kun IT-teollisuus kiinnitti erityistä huomiota tuotantoon ja IT-käsityöläisyys painotti teknologiaa.

Tutkimusdatainfrastruktuurille tämä tarkoittaa toisaalta valmiimpia palveluiden komponentteja, mutta myös niiden sujuvampaa yhteentoimivuutta.

Tutkimuksen infrastruktuureissa käsityöläisyydellä on pitkät perinteet ja valoisa tulevaisuus, mutta myös tutkimusdatainfrastruktuurit kokevat oman digitalisaationsa, joka muuttaa ne ja niillä tuotettavat palvelut entistä automaattisemmiksi, modulaarisemmiksi ja käyttäjälähtöisemmiksi.

* * *

Yle Radio 1:n haastattelussa 18.4.2017 akateemikko Markku Kulmala mukaili toisen akateemikon eli Olli V. Lounasmaan ajatusta todeten, että huippututkimusta syntyy, jos sitä ei estetä.

Tutkimusdatainfrastruktuurille tuo ajatus tarkoittaa sitä, että sen pitäisi siis toimia resrussina ilman, että se jäykistää varsinaisen tutkimuksen tekemistä. Eli tarvittavien resurssien pitäisi olla olemassa ja käytettävissä, ilman että siihen sidotaan turhaa tekemistä ja byrokratiaa. Tutkimusdatainfrastruktuurin ei pitäisi olla tutkijoille liian niukka resurssi.

Perinteinen infrastruktuuri sopii tässäkin esimerkiksi. Me maksamme veroja ja niillä varoilla teitä ylläpidetään.

Kuluttajat käyttävät näitä väyliä kuten haluavat löytäen uusia paikkoja, pidentäen tai lyhentäen työmatkojaan, mutta joka tapauksessa toteuttaen itseään. Se on kokonaan toinen tarina, ovatko ylläpidon varat riittäviä, mutta on varsin ilmeistä, että jos jokaisesta väylän käytöstä pitäisi erikseen ilmoittaa – automaattisesti tai manuaalisesti – ja sillä olisi esimerkiksi taloudellisia vaikutuksia, se vaikuttaisi suoraan myös käyttäytymiseen. Sitä saa mitä mittaa.

Tietenkin on niin, että jotta infrastruktuuri voisi tarjota riittävän laajasti mahdollisuuksia erilaisten tarpeiden ja ideoiden täyttämiseen, syntyy hukkaa eli resursseja, jotka eivät ole koko ajan käytössä.

Näin käy joka tapauksessa myös tutkimusdatainfrastruktuureissa, vaikka ne olisikin rakennettu joustavilla tuotantomalleilla tai muuten kuinka tehokkaasti tahansa. Tuo hukka on se hinta, joka joudutaan maksamaan siitä, että infrastruktuuri tekee omaa tehtäväänsä mahdollistajana.

Ovat ne tietkin olemassa, käytettiin niitä tai ei.

Tutkimusdatainfrastruktuurin tehtävänä on toimia mahdollistajana. Väylänä uusiin paikkoihin ja maisemiin.

* * *

Pari esimerkkiä tutkimusdatainfrastruktuureista.

ATT-hankkeessa on työstetty palvelukarttaa, jossa on määritelty palveluita, joilla voidaan toteuttaa avoimen tieteen ja tutkimuksen prosessia. Prosessin keskeiset osat ovat tutkimuksen valmistelu, tutkimuksen toteutus, tutkimustuotosten tuottaminen, julkaisu ja levittäminen, tulosten arvottaminen, tutkimuksen hyödyntäminen.

Nämä prosessin vaiheet eivät vääjäämättä seuraa toisiaan tässä järjestyksessä, vaan nopeampisyklisessä tutkimuksessa kukin prosessin vaiheista voi synnyttää uusia tutkimusideoita ja tutkimusprosesseja vaikka edellinen sykli ei olisikaan vielä valmis. Siihen tietty pyritäänkin tällä kiihdyttimeksikin ristityllä syklillä.

Tutkimusprosessin toteuttamiseen on kuvattu viisi palvelua, joilla kokonaisuus saadaan katettua. Ne ovat tutkimuksen hallintapalvelut, tutkimuksen tekemisen ja avaamisen palvelut, tutkimuksen julkaisemisen palvelut, tutkimuksen saatavuuspalvelut sekä tutkimuksen arvioinnin ja hyödyntämisen palvelut.

Näistä yleisen tason palveluista päästäänkin sitten yksityiskohtaisempiin kuvauksiin kuten osapalveluihin, ne toteuttaviin tietojärjestelmäpalveluihin, teknologiatoteutuksiin sekä tietovarantoihin.

Tällaisilla kuvauksilla ei ole tarkoitus kertoa, että esimerkiksi avoimen tieteen arkkitehtuuri olisi juuri tällainen tai siihen liittyvä tutkimusdatainfrastruktuuri juuri tuollainen, vaan tarjota työvälineitä kokonaisuuden hallintaan ja sen hahmottamiseen, miten mikäkin osa sopii omaan organisaatioon tai omalle tutkimusalalle.

Helsingin yliopistossa tutkimusdatainfrastruktuuria on hahmotettu MILDRED-hankkeessa palveluiden ja sovellusten kautta osin soveltaen edellä esitettyä yleisempää prosessia. Osin sovittaen tekemistä omaan organisaatioon.

* * *

Lopuksi.

Mikä tutkimusdatainfrastruktuuri oikeastaan on?

Tutkimusdatainfrastruktuuri on tutkimusorganisaatiolle yksi kyvykkyyksistä henkilöstö osaamisen, strategioiden, erilaisten muiden resurssien yms. rinnalla. Se on yksi osanen siinä miten hyvin organisaatio pystyy toteuttamaan omaa strategiaansa nykyisessä dataintensiivisessä ja digitalisoituvassa maailmassa.

Kyvykkyyksien kehittäminen mahdollistaa aiemmin mainittujen sosiaalisten, organisaatioon liittyvien ja kulttuuristen kysymysten ratkaisemiseen samassa tahdissa teknologiapohjaisten palveluiden tuottamisen kanssa.

(Teksti oli pohjatan FCRD:n keskustelutilaisuudessa 10.5.2017 pidetylle puheenvuorolle “Mikä on tutkimusdatainfrastruktuuri?”)

Muistiinpanoja RDA:n 9. plenarystä

Koska sitä on kysytty, niin julkaisenpas matkaraporttini hieman lyhennetyn ja muokatun version täällä blogissa. Teksti on aiemmin julkaistu HY:n tietotekniikkakeskuksen sisäisessä Tietoset-palvelussa 13.4.2017.

Research Data Alliancen järjestyksessään 9. plenary järjestettiin oheistapahtumineen 4.-7.4.2017 Barcelonassa, Kataloniassa Espanjassa. Yksi kokouksen havainnoista oli se, että yhä useammin dataa käytetään jonkun sovelluksen tai ohjelmallisen rajapinnan läpi eikä perinteisesti tiedostoina.

Plenaryn ohjelmassa oli perinteisen kaavan mukaan joitakin keynoteja, mutta pääosa työskentelystä tehtiin erilaisten työryhmien kokouksissa.

Kokouksen pääpuhuja oli Euroopan komission eInfrastructure & Science Cloud -yksikön päällikkö  Augusto Burgueño Arjona. Hän herätti keskustelua siitä, miten RDA voisi kasvattaa toimintaansa ja ottaa yhä isomman roolin EU-rahoitteisissa projekteissa. Omalla tavallaan villi ehdotus oli se, että EU-hankkeista tehtäisiin RDA-työryhmiä.

Se tarkoittaisi yli 6000 työryhmää, mikä on tietenkin varsin mahdoton yhtälö pitkälti vapaaehtoisuuteen perustuvalle organisaatiolle.

Tiedostoista datakeskeiseen ajatteluun

Big data -työryhmässä keskusteltiin erilaisista tulevaisuuden arkkitehtuureista. NASA Goddard Flight Centerin Kwo-Sen Kuo esitteli vaatimuksia tulevaisuuden järjestelmille, kuten datan avoin julkaiseminen, toisiinsa liittymättömien tietokantojen käytön vähentäminen, yhteistoiminnan tuki, parempi analysointisovellusten laatu ja uudelleenkäytettävyys, tieteellisen toistettavuuden tuki ja ROI:n maksimointi.

Vaatimuksiin voidaan suhtautua kahdella tavalla, joko tiedostokeskeisesti tai datakeskeisesti. Näistä ensimmäisessä asiat hoidetaan tiedostoina kuten usein nykyäänkin. Jälkimmäisessä taas data tallennetaan indeksoituihin tiedostoihin, joista dataa käsitellään, hallitaan ja analysoidaan tarkoitukseen sopivilla sovelluksilla.

Näistä jälkimmäinen vastaa Kuon mukaan paremmin tulevaisuuden haasteisiin ja vaatimuksiin. Kun datakeskeiset toimintatavat yleistyvät, niin tiedostokeskeisen ajattelun merkitys vähenee, vaikka perinteisemmästä mallista ei päästäne kokonaan eroon. Tosin, tiedostojen käytöstä tulee siitäkin nykyistä dynaamisempaa erilaisten cache-ratkaisujen jne. avulla.

Internetistä datanetiin

Kansallisten palveluiden intressiryhmässä oli esillä useammankin maan projekteja, joista moni on vielä alkutekijöissään tai vasta suunnitteluasteella kuten Espanjan projekti.

Yhdysvalloissa on jokin aika sitten käynnistetty kansallisen datapalvelun toteutus, mutta projekti on vasta alkuvaiheessaan. Projektilla pyritään tukemaan datan julkaisemista, löydettävyyttä ja uudelleen käytettävyyttä, eli siirtymään internetistä “datanetiin”. Tähän liittyy datapalveluiden yhteentoimivuuden toteuttaminen laajasti esimerkiksi hajauttamalla datan ja laskennan pilveen. Samalla kansallinen datapalvelu toimii projektien ja pilottien hautomona, jotta ne pääsevät mahdollisimman nopeasti liikkeelle ilman laajoja infrojen rakentamisia.

Projektin perustajiin kuuluu koko joukko yhdysvaltalaisia yliopistoja kuten Harvard, CU Boulder, Johns Hopkins, UC San Diego, Indiana, Purdue sekä muita organisaatioita kuten IEEE, Nature- ja Science -lehdet, Elsevier, NCSA, iRods, DataOne jne.

Suomen avoimen tieteen ATT-hanke oli esillä kyseisen ryhmän edellisessä kokouksessa Denverissä. Yleisesti kansallisista datapalveluista voi todeta, että Suomi on jo varsin pitkällä ja selkeästi edelläkävijän roolissa moniin maihin, kuten vaikkapa Ruotsiin, nähden. Toisaalta, muissa maissa pyritään uudet projektit tekemään – muilta opiksi ottaen – ketterämmin, joten Suomessakaan ei ole syytä laiskotteluun.

QoS ja DataLC

Helsingin yliopiston Mildred -hanketta esiteltiin QoS and DataLC Definitions -työryhmässä lähinnä siksi, että sen tiimoilta on jossain määrin kuvattu arkkitehtuuria ja niiden välisiä suhteita, mikä toimi ihan hyvin keskustelun pohjana. Lisäksi ryhmässä oli yleistä kiinnostusta hanketta kohtaan ruotsalaisten taholta.

Työryhmän nimi kuvaa kieltämättä hieman huonosti sitä, että työryhmän ideana on kuvata myös koneluettavassa muodossa palvelinarkkitehtuureihin ja teknologiaan liittyviä palveluiden laatuvaatimuksia (QoS) tutkimusdatan elinkaaren (DataLC) erilaisissa vaiheissa.

Lopuksi

Yhteenvetona plenaryn sisällöllisestä annista voi sanoa sen verran, että maailma ei ole valmistumassa, vaan maali liikkuu.

Data on jo sen verran laajalti tunnistettu voimavara, että suuren innostuksen vaiheesta ollaan siirtymässä jo erilaisten tulosten ja tehokkuuden vaatimiseen. Pelkkiä perustarpeita tyydyttämällä ei enää pysy kehityksen vauhdissa. Yhteentoimivuus ja yhteistyö erilaisten yhteisöjen sisällä ja niiden välillä ovat tärkeitä tekijöitä tulevaisuuden palveluille.

Kokoukseen osallistui 620 osanottajaa yhteensä 45 maasta. Osallistujia oli kaikilta mantereilta Antarktista lukuunottamatta, joskin 67 % osallistujista tuli Euroopasta. Osallistujista 38 % oli naisia ja 62 % miehiä.

Periaatteita

Viime aikoina on julkistettu eräitä periaatteita, joilla palveluita kehitetään.

Viimeisimmät ovat helmikuun alussa toimintatapojen uudistamisen ministerityöryhmän hyväksymät kaikkia julkisia palveluita koskevat digitalisoinnin periaatteet:

– Kehitämme palvelut asiakaslähtöisesti.
– Poistamme turhan asioinnin.
– Rakennamme helppokäyttöisiä ja turvallisia palveluita.
– Tuotamme asiakkaalle hyötyä nopeasti.
– Palvelemme myös häiriötilanteissa.
– Pyydämme uutta tietoa vain kerran.
– Hyödynnämme jo olemassa olevia julkisia ja yksityisiä sähköisiä palveluita.
– Avaamme tiedon ja rajapinnat yrityksille ja kansalaisille.
– Nimeämme palvelulle ja sen toteutukselle omistajan.

Periaatteista todennäköisesti haastavin, mutta joissain tapauksissa myös ilahduttavin on se, että puritään poistamaan turhaa asiointia sekä se, että uutta tietoa pyydetään vain kerran. Toteutuksissa on tietysti huomattava se, että kun näin tehdään, niin oikeusturva- ja tietosuojaperiaatteista pidetään kiinni. Palveluiden kehittämisen kannalta nuo ovat hyviä periaatteita.

Toinen setti periaatteita löytyy ATT:n puolelta eli avoimen tieteen ja tutkimuksen palveluperiaattet, joilla pyritään tukemaan palveluiden kehitystä ja ylläpitoa:

  1. Palvelut tukevat tutkimusta sekä tutkimusprosessin avoimuutta. Palveluissa huomioidaan tutkimuksen ja sen tuottaman tiedon koko elinkaari.
  2. Palveluilla tuetaan parhaita avoimen tieteen käytäntöjä. Palveluilla edistetään yhteentoimivuutta sekä tutkimustuotosten avoimuutta ja jatkokäyttöä. Tämän tulee toteutua myös silloin, kun kaikkia tutkimustuotoksia ei voida avata vapaasti käytettäviksi.
  3. Palvelut ovat mahdollisimman avoimesti suomalaisen tutkimusyhteisön käytettävissä. Palvelut voidaan rahoittaa käyttäjämaksuin. Tällöin hinnaston tulee olla avoimesti saatavilla.
  4. Palvelut ovat jatkuvia. Palveluntarjoajan on laadittava palvelulle jatkuvuussuunnitelmat. Mikäli vastoin odotuksia palvelu aiotaan sulkea, palveluntarjoajan on avustettava korvaavan palvelun löytämisessä edistääkseen tietojen säilyvyyttä.
  5. Palveluiden teknologiavalinnat ja tietoturva ovat tarkoituksenmukaiset. Yleisperiaatteena palveluiden teknologiavalinnoissa on yhteentoimivuuden edistäminen. Palveluille luodaan mahdollisuuksien mukaan avoimet rajapinnat ja näille julkinen rajapintadokumentaatio.
  6. Palveluita kehitetään jatkuvasti ja käyttäjälähtöisesti sekä hyödyntäen mahdollisuuksien mukaan avoimen lähdekoodin ratkaisuja.
  7. Palveluiden käyttöehdot edistävät avoimuutta. Palveluihin liittyvät ja niihin kertyvät kuvailutiedot luovutetaan mahdollisimman avoimesti. Palvelukehityksen tulokset on lähtökohtaisesti lisensoitu avoimesti.
  8. Palveluille määritellään asiakas- ja käyttäjäperusteiset, laadulliset ja määrälliset mittarit, joiden avulla palveluiden käyttöä ja käytettävyyttä voidaan seurata ja kehittää.
  9. Palveluiden palvelulupaukset, vastuutahot ja palveludokumentaatio ovat saatavilla. Palveluntarjoajan tulee huolehtia tarvittavan tukipalvelun tuottamisesta.

Jälkimmäiset on lisenssoitu CC 4.0 BY-lisenssillä, joten niitä voi ja saa hyödyntää muuallakin.

Kts. myös juttu Portissa: http://portti.avointiede.fi/yleista/periaatteista-tukea-att-palveluiden-kehitykseen

Pilviveikkauksia

Pilvipalveluista on viimeaikoina jälleen keskusteltu ja teeman ympärillä on parhaillaan tekeillä toimenpide jos toinenkin. Tässä tekstissä tarkastellaan muutamia esimerkkejä, arvioidaan niitä ja arvaillaan hieman tulevia käänteitä.

Viestintätoimisto Kreab Helsingin toimitusjohtaja Mikael Jungner (ex-Microsoft, ex-Yle, ex-kansanedustaja (sd.) jne.) arvioi, että Microsoft 365- tai Google Worksin kaltaisilla pilvipalveluilla voitaisiin Suomen julkisessa hallinnossa säästää vähintään 100 miljoonaa euroa joka vuosi.

Senja Larsen kirjoittaa Kauppalehdessä, että mikäli Suomi haluaa nyt olla pioneeri, sen tulee tähdätä pilvipalvelujen kärkimaaksi ja silloin pilviarkkitehdit ovat tämän uuden it-ajan avainosaajia.

Codenton Petri Aukia ennustaa blogissaan, mm. että Amazonin kaltaiset pilvipalvelut muuttuvat kaikissa tapauksissa halvemmaksi, kuin omien servereiden ostaminen ja käyttäminen ja niiden tietoturva paranee niin paljon, että palvelut siirretään niihin tietoturvasyistä.

Samaan aikaan EU tuomioistuin päätyi 6.10.2015 tekemässään päätöksessä C-362/14 toteamaan Safe Harbor -järjestelyn pätemättömäksi. Näin ollen Safe Harbor -järjestelyn nojalla ei voida enää siirtää henkilötietoja Yhdysvaltoihin.

Tähän keskusteluun on hyvä ottaa mukaan myös uutisointi suomalaisista datakeskuksista ja niihin liittyvistä hankkeista, vaikka on tiedossa etteivät konesalit yksinään kansantaloudelle merkittävästi tuloja tuota.

Tieteen tietotekniikkakeskus CSC:n toimitusjohtaja Kimmo Koski korostaa omassa kirjoituksessaan, että olennaisempaa työllisyydelle ja verotuloille on datakeskusten ympärille rakentuva ekosysteemi – tutkimus, koulutus, tietohallintopalvelut, ohjelmistot ja niiden kehitys, pilvipalvelut, data-analyysi, näitä hyödyntävä yritystoiminta, datakeskusrakentaminen ja monet muut toiminnot. Hän huomauttaa myös, että em. Safe Harbor -päätös saattaa tuplata jo aiemminkin isot tämän alan kasvuennusteet ja etsikkoaika tämän hyödyntämiseen on nyt.

Tähän pakettiin pitää nyt liittää myös uutinen, jonka mukaan Suomen ja Saksan välille avaava merikaapelihanke on edennyt asennusvaiheeseen. Tämän odotetaan auttavan tuomaan Suomeen yksityisiä datakeskusinvestointeja 2-3 miljardin euron verran seuraavan noin 10 vuoden aikana ja kehittämään noita ekosysteemejä.

Kiirettä on siis pitänyt. Miksipäs toisaalta ei olisi, sillä talous, arkkitehtuurit, osaaminen, ekosysteemit ja infrastruktuurit ovat osa sitä alustaa, minkä päällä digitalisaatio elää ja toimii.

Hopealuodit toisaalla

Arvioidaan hieman muutamaa asiaa.

Jungnerin esittämä arvio tai arvaus 100 miljoonan säästöpotentiaalista on perusteltavissa, mutta mistään hopealuodista ei ole kyse, eikä noita säästöjä kannata ensi vuoden budjetissa odotella elleivät ne siellä jo ole. Säästöjä olisi odotettavissa kenties vaalikauden lopulla tai sen jälkeen.

Näin ihan siksi, että esimerkiksi valtionhallinnossa on jo alkanut perustietotekniikan keskittäminen ja valtionhallinnon n. 90 000 työasemasta 60 000 on menossa uusiksi. Kestoltaan 3 vuotisessa projektissa käytetään pilvipalveluita hyväksi ja sen “toivotaan tuovan kymmenien miljoonien eurojen säästöt”. Tulevan projektin hintaa uutinen ei kerro, mutta kyseessä on mittavasta investoinnista, sillä ilmaiseksi ne palvelut eivät sinne pilveen siirry, eivätkä käyttäjät saa hommaa ilman tukea käyttöön.

Toisaalta valtionhallinto ei ole koko julkinen sektori. Esimerkiksi kunnissa oli pari vuotta sitten noin 216 000 laitetta (Kuntien tietotekniikkakartoitus, PDF) ja kuntien kokonaismenoista tietotekniikkaan kului vuonna 2013 noin 1,3 prosenttia ja kokonaisuudessaan 831 miljoonaa euroa. Kuntien IT-menot tosin ovat reaaliarvolla mitattuna menot kääntyneet laskuun vuoden 2010 jälkeen ja kuntasektorin IT-henkilöstöstä on jo vähennetty tuollaiset 20 %.

Julkishallinnon pilvihaaveiden kohdalla kannattaa aina muistaa, että siellä on isoja käyttäjäryhmiä kuten poliisi, puolustusvoimat sekä sosiaali- ja terveysorganisaatiot, joiden käsittelemiä tietoja ei laillisesti ulkomaisissa pilvissa voi käsitellä. Osa opettajistakin käsittelee salassa pidettävää materiaalia.

Kuten Larsen kommentissaan toteaa, IT-busineksessa on ollut iso murros jo jonkin aikaa johtuen infrastruktuuriin liittyvästä liiketoimintamallien ja teknologioiden uudistumisesta pilvimaailmaan. Voi tietysti kysyä, milloin IT-maailmassa ei ole ollut jotain murrosta? Tosin digitalisaation myötä on tultu vaiheeseen, jossa IT ei enää käynnistä tai johda murroksia, vaan ne ovat lähtöisin toimintamallien uudistamisen tarpeista tai ideoista.

On ilmiselvää, että liiketoimintamalliltaan pilvipalvelumalli on massapalveluissa (olkoot ne nyt sitten infraa, sovelluksia tai jotain muuta) tehokkaampi kuin paikallinen pientuotanto. Niin se on kaikessa muussakin busineksessa. Ei autoja käsityönä kannata tehdä, jos haluaa tehdä niitä paljon ja kohtuuhintaan.

Kaikkea IT:ssäkään ei tosin voi eikä kannata tehdä massatuotantona ja siksi pilviarkkitehti tarvitsee joko-tai -näkökulman tilalle sekä-että -ajattelua. Tätä voi kutsua myös hybridimalliksi.

Tietosuojassa erilaisia lähestymistapoja

Kun pilvipalveluilla tarkoitetaan globaalien toimijoiden infrastruktuureja, on syytä huomata, että  Yhdysvalloissa ja Euroopassa tilanne tietosuojan ja lainsäädännön osalta on varsin erilainen. Se mikä on yhdysvaltalaiselle kotimaista pilvipalvelua, on euroopplaiaselle toimintaa, jossa käyttäjän tietosuojaa ei voida välttämättä turvata.

Suomen tietosuojavaltuutettu kirjoittaa:”Yhdysvalloissa on omaksuttu tietosuojaan erilainen lähestymistapa kuin Euroopassa. Yhdysvalloissa ei ole yleistä tietosuojalainsäädäntöä, vaan siellä käytetään alakohtaista lähestymistapaa, jossa yhdistyvät lainsäädäntö, sääntely ja itsesääntely.

Safe Harborin päätyminen pätemättömäksi ei sinänsä ole mikään yllätys tai edes iso uutinen, sen verran ilmiselvästä ongelmasta on ollut kyse. Eikä tuomioistuimen päätös edes tarkoita sitä, että kaikki henkilötietojen siirtäminen Yhdysvaltoihin olisi laitonta. Edellä linkitetyn tietosuojavaltuutetun tiedotteen mukaisesti “Henkilötietojen siirtäminen Euroopasta Yhdysvaltoihin on sallittua vain tietoja koskevan henkilön nimenomaisella suostumuksella, erityisellä tietosuojan tason takaavalla sopimuksella, ns. mallisopimuslausekkeita käyttämällä tai BCR-prosessin mukaisen sopimuksen nojalla“.

Lisäksi on tietysti niin, että EU ja Yhdysvallat ovat neuvottelemassa koko kuviota uusiksi ja intressiristiriitoja varmasti ilmaantuu. Aikaa menee, mikä kuluttajapalveluissa on hankalaa, mutta isommat organisaatiot ovat jo ennalta hoitaneet sopimuksissaan asian niin, että joko käytetään noita mallisopimuslausekkeita tai sopimuksella velvoitetaan pitämään data Euroopassa.

Pilviä haaveillessa on syytä pitää saappaat savessa.

Halvempaa kyllä, mutta onko se toimivaa?

Codenton Petri Aukian ennusteen mukaisesti Amazonin kaltaisista pilvipalveluista varmastikin tulee omia laitteita halvempia (ellei jo ole tullut) edellyttäen, että palvelutuotantoa on myös lainsäädännön kannalta soveliaissa paikoissa kuten EU-alueella ja esim. terveystietojen osalta Suomessa.

Kuten Aukia kirjoittaa, uusi sukupolvi kehittäjiä ei muutaman vuoden päästä enää edes osaa asentaa palveluita muualle kuin pilveen. Näin kaiketi on myös siksi, että pilvipalvelu tuotantomallina yleistyy pienemmissäkin tuotantoympäristöissä. Voi ennustaa, että muutaman vuoden päästä käytössä olevat konesalitkin ovat ottaneet käyttöönsä erilaisia pilvipalveluiden tuotantomalleja ja -teknologiaa konesalin koosta riippumatta. Voi siis olla, ettei uusille kehittäjille edes ole tarjolla juuri muuta ja siksipä niistä vanhoista palvelimista on helppo kieltäytyä.

Jos Amazon (tai miksipäs ei Microsoft tai vaikka Google) saisi aikaiseksi tietoturvallisen pilvipalvelun, niin se olisi luonnollisesti hyvä asia. Kehitystä tähän suuntaan on jo olemassa.

Pulma ei ole teknisessä tietoturvassa, vaan luottamuksessa ja hallinnollisessa tietoturvassa. Niin kauan kuin yhdysvaltalaiset toimijat on velvoitettu oman lainsäädäntönsä nojalla toimittamaan tietoja yhdysvaltalaisille viranomaisille myös eurooppalaisista käyttäjistä (ilman, että yritys edes saa kertoa siitä seurannan kohteille), teknisellä tietoturvalla on vain rajallinen merkitys.

Sumu on lähellä

Oma pulmansa onkin sitten big data ja esimerkiksi massiivisen tutkimusdatan syntyvaiheet, jolloin data pitää saada jonnekin talteen raakadatana ennen sen käsittelyä. Pilvi voi olla liian kaukana vielä viidenkin vuoden päästä järkevällä hinnalla käytettävissä olevilla verkkoyhteyksillä jne. Käytännössä tällainen data kannattaa tai täytyy tallentaa myös lähellä.

Viiden vuoden päästä tutkimusdatan tallennustarpeiden kohdalla puhutaan rutinoituneesti petatavuista ja uumoillaan exatavuista (merkittäköön tämä muistiin tämän blogin pitäjän ennusteena).

Datan määrän kasvu ja käyttötapojen muutos onkin yksi asia, joka pitäisi pilviarkkitehtuureja kehitellessä huomioida, mutta massapalveluiden mukanaan tuoman innostuksen huumassa herkästi unohtuu.

Esimerkiksi voidaan ottaa autot. Accenturen Connected Transport ja IoT-praktiikan johtaja Marcello Tamietti arvioi Teknikka ja talous-lehdessä kesällä 2015 (Tekniikka ja Talous 23/2015), että jo vuonna 2020 on sata miljoonaa autoa kytketty internetiin ja että ne tuottavat 1070 prosessia päivässä.

On ilmeistä, että tuollainen määrä prosesseja synnyttää sellaisen määrän dataa, että sitä ei ole järkevää tai edes mahdollista siirtää pilveen, joten osa datasta on analysoitava, suodatettava ja käytettävä ensin autossa paikaillisella tasolla. Tämä siis pelkästään autoissa. Ympärillämme on koko joukko muitakin prosesseja, joista syntyvä data tallennetaan jonnekin ja käsitellään jossain.

Tässä yhteydessä voisi tietysti sanoa, että tuo analysointi tehdään paikallisilla palvelimilla, mutta ehkä se on hieman harhaanjohtava ajatus, koska “palvelin” jo nykyään olla melkeinpä missä tahansa missä on prosessori.

Kun dataintensiivisyys leviää yhä laajemmalle, tällainen fog computing-termin alle sopiva toimintatapakin tulee yhä yleisemmäksi. Dataa siis käsitellään tulevaisuudessakin lähellä eikä vain pilvessä. Myös asioiden internet tai kaiken internet vaatinevat käytännössä myös datan käsittelyä nk. paikallisella tasolla.

Varastoitava tai jaettava osa tästä datasta päätynee pilveen, mutta esimerkiksi tutkimusdatan kohdalla se on kohtalaisen pieni osa määrällisestä kokonaisuudesta.

Teknogiakin kehittyy

Pilvipalvelukeskustelussa hieman häiritsee yksi yllättävä seikka. Siinä ei juuri analysoida sitä miten teknologian kehitys vaikuttaa asioihin. Tämä tosin on ymmärrettävää digitalisaation mukanaan tuoman paradigman muutoksen vuoksi.

Veikkaus tuskin menee kovin paljoa pieleen, jos arvelee teknologian kehittyvän seuraavan kymmenen vuoden kuluessa vähintäänkin samaa tahtia kuin viimeisen kymmenen vuoden aikana ellei sitten enemmänkin. Lisäksi tulevat ne hypyt, joista vielä emme oikein saa sanoa tarkasti mitään.

Otetaan esimerkki. Normaali nykyinen kiintolevy palvelimissa on 6 teratavun 7200 kierrosta per minuutti pyörivä pyörivä levy. Nyt on kuitenkin esitelty uudella 3D-tekniikalla toimiva SSD-levy, jossa kapasiteettia on peräti 16 teratavua. Kun tähän lisätään vielä se, että uusien levyjen hinta on halvempi, niin voidaan puhua jo merkittävästä uudistuksesta.

Näin radikaalit muutokset voivat tarkoittaa myös uusia konsepteja eli esimerkiksi jatkossa palvelimet eivät enää ole  sähkönkulutukseltaan, kooltaan tai konseptiltaankaan samankaltaisia kuin nykyään. Siksipä voi olla hieman haastavaa verrata pilvipalvelua tuleviin palvelimiin.

Sovellustensa puolesta se olisi sinänsä jo nyt mahdollista, mutta ei ehkä tietoturvallista tai muuten käytännöllistä, mutta tulevaisuudessa esimerkiksi jokainen mobiililaite voisi toimia palvelimena. Kun tämä yhdistetään uuden sukupolven mobiilivrkkoihin, pilvikonsepteihin ja toimintatapoihin, voi syntyä jotain ihan muuta kuin se mihin nyt varaudutaan tai halutaan mennä. Ja niin edelleen.

Lopuksi

Pilviin liittyy useampia näkökulmia, jotka arkkitehtuurissa on otettava ennemmin tai myöhemmin huomioon, vaikka asioita haluttaisiinkin yksinkertaistaa. Massatuotannon kustannusteokkuus ei tee pilvestä käyttökelpoista kaikkiin tarkoituksiin lainsäädännöllisista, toiminnallisista tai teknologisistakaan syistä johtuen. Samalla pilvipalvelu toimintatapana on muutakin kuin massiivisissa kansainvälisissa datakeskuksissa sijaitsevia resursseja, ne voivat olla ihan läheltäkin saatavia palveluita.

Kun kaiken edellä olevan vetää jotenkin yhteen voi arvioida, että tulevaisuus ei ole suoraviivaista pilveen siirtymistä, vaan todennäköisemmin hybridia, missä paikalliseen toteutukseen otetaan eväitä pilvipalveluiden toimintamalleista ja teknologioistakin.

Mitä erilaisiin ennusteisiin tulee, niin arvatenkin ne menevät kaikki enemmän tai vähemmän pieleen. Se voi tosin olla niiden hyvä puoli.