Mikä on tutkimusdatainfrastruktuuri?

Tutkimusdataninfrastruktuurilla ei ole yhtä ja yleisesti hyväksyttyä määritelmää, joten on ehkä syytä tarkastella muutamia. Otetaan alkuun datainfrastruktuurin määritelmä Wikipediasta:

“A data infrastructure is a digital infrastructure promoting data sharing and consumption.”
(Lähde: https://en.wikipedia.org/wiki/Data_infrastructure)

Tämän mukaan datainfrastruktuuri on datan jakamiseen ja käyttämiseen tarkoitettu digitaalinen infrastruktuuri. Tällainen määritelmä on käytännöllinen, mutta jossain määrin suppea. Tuohan tarkoittaisi suunnilleen minkä tahansa datan jakamiseen tai tallentamiseen tarkoitetun järjestelmän sisältymistä infrastruktuurin määritelmän sisälle.

* * *

Open data instituten määritelmää mukaillen datainfrastruktuuriin yleisesti ja samalla myös tutkimusdatainfrastruktuuriin liitetään yleensä teknologian lisäksi prosessit ja organisaatio, mutta myös yhteisön vaatimukset.

“Trustworthy data infrastructure is sustainably funded and has oversight that provides direction to maximise data use and value by meeting the needs of society. Data infrastructure includes technology, processes and organisation.”
(Lähde: https://theodi.org/what-is-data-infrastructure)

Se onkin tarpeen, sillä käytännössä luottamus ja riittävät pitkäjänteinen infrastruktuurin rahoitus asettaa vaatimuksia myös toimintatavoille ja organisaation rakenteelle.

Tutkimusdatainfrastruktuuri ei ole pop-up -toimintaa.

Näin ihan siksi, että datan merkitys ei välttämättä tule esille kvartaaleittain vaan pitkien aikasarjojen avulla. Sillä siis on merkitystä kuka omistaa datan ja sen infrastruktuurin.

Oma huomionsa on sekin, että datainfrastruktuurilla pyritään maksimoimaan datan käyttö ja arvo.

* * *

RDA:n entinen pääsihteeri Mark Parsons ja RDA:n TAB:n puheenjohtaja Francoise Genova ovat kuvailleet tutkimusdatainfrastruktuuria teknologian ja sosiaalisten ratkaisujen vuorovaikutuksen kautta niin, että meillä ei ole välttämättä ennalta tiedossa miten tuo ihmisen ja koneen vuorovaikutus lopulta ilmenee.

“It is well understood that infrastructure must consider both technical and social issues and solutions and how they interact, but research also shows that one cannot pre-define how all those interactions will occur.”
(Lähde: https://www.rd-alliance.org/group/council-strategy-subcommittee/outcomes/building-infrastructure-through-strategies)

He siteeraavat myös Michiganin yliopiston Paul Edwardsia et al., jotka ovat todenneet, että kestävä kyberinfrastruktuuri – jollainen tutkimusdatainfrastruktuurikin on – voidaan kehittää vain silloin kun sosiaaliset, organisaatioon liittyvät ja kulttuuriset kysymykset voidaan ratkaista samassa tahdissa teknologiapohjaisten palveluiden tuottamisen kanssa.

“Robust cyberinfrastructure will develop only when social, organizational, and cultural issues are resolved in tandem with the creation of technology-based services.”
(Lähde: http://hdl.handle.net/2027.42/49353)

Tutkimusdatainfrastruktuuri edellyttää organisaatiota, toimintakulttuuria ja pitkäjänteisesti toimivia sosiaalisia verkostoja, joiden varaan tekniset ratkaisut voidaan toteuttaa. Huomattavaa on se, että ilman toista ei ole toistakaan.

Tässä on myös vahva poikkihallinnollisuuden maku. Jos tutkimusdatainfrastruktuuri sidotaan liian tiukasti johonkin olemassa olevaan organisaation traditioon, voidaan päätyä toistamaan tapoja, jotka eivät tue riittävästi näitä verkostoja tai ovat liian kaukana teknologisesta kehityksestä.

* * *

Data näkyy myös taloudellisissa tai toiminnallisissa arvoissa.

“The world’s most valuable resource is no longer oil, but data”
(Lähde: http://www.economist.com/news/leaders/21721656-data-economy-demands-new-approach-antitrust-rules-worlds-most-valuable-resource)

Siinä missä data on syrjäyttänyt öljyn maailman arvokkaimpana resurssina, datan merkitys tutkimukselle kasvaa koko ajan samaa tahtia datan määrän kanssa. Monelle tutkimukselle tai tutkimusalalle data voi olla tärkeämpää kuin itse datan kohde tai tai lähde, vaikka näitä ei voikaan irroittaa toisistaan.

Tästä seuraa myös se, että tutkimusdatainfrastruktuuria voi pitää myös tutkimusinfrastruktuurina siinä missä jotain hiukkaskiihdyntintäkin. Ilman sitä joidenkin asioiden tutkimus ei olisi yksinkertaisesti mahdollista.

* * *

Edellä kuvatun mukaisesti tutkijoiden rooli suhteessa tutkimusdatainfrastruktuuriin on varsin aktiivinen. Ilman tutkijoita ja heidän osallistumistaan ei tutkimusdatainfrastruktuuria oikeastaan ole olemassa.

Tutkimuksessa ja tieteen tekemisessä on pitkä traditio siinä, että tutkijat tuottavat omat työvälineensä osin ihan siksi, että se tuottaa myös uutta tiedettä.

Toisaalta voidaan sanoa, että varsin harvan tutkijan tehtävänä on – tai pitäisi olla – tutkimusdatainfrastruktuurin tekninen rakentaminen, toteuttaminen tai ylläpito. Se ei ole ajankäytöllisesti järkevää enää siinä mittakaavassa missä nämä infrastruktuurit jo nykyisellään ovat. Lisäksi näiden infrastruktuurien toteuttaminen vaatii usein erikoistunutta osaamista.

Vähän samaan tapaan kuin harvempi polkupyöräilijä, autoilija tai julkisen liikenteen käyttäjä on rakentamassa maanteitä tai kevyen liikenteen väyliä. Toki käyttäjillä on ja pitää olla mielipide infrastruktuurin ominaisuuksista, mutta lapion varteen tarttuvatkin sitten määrittelyiden jälkeen ihan muut.

* * *

Tähän liittyy kiinteästi myös toimintatapojen muutos, jota myös digitalisaatioksi voidaan kutsua. IT:ssä se on kehityksen kolmas aikakausi käsityöläisyyden sekä teollisen toimintatavan jälkeen. IT:lle se on paradigman muutos siinä missä tieteellekin.

Digitalisaation aikakaudella keskitytään liiketoimintamalleihin kun IT-teollisuus kiinnitti erityistä huomiota tuotantoon ja IT-käsityöläisyys painotti teknologiaa.

Tutkimusdatainfrastruktuurille tämä tarkoittaa toisaalta valmiimpia palveluiden komponentteja, mutta myös niiden sujuvampaa yhteentoimivuutta.

Tutkimuksen infrastruktuureissa käsityöläisyydellä on pitkät perinteet ja valoisa tulevaisuus, mutta myös tutkimusdatainfrastruktuurit kokevat oman digitalisaationsa, joka muuttaa ne ja niillä tuotettavat palvelut entistä automaattisemmiksi, modulaarisemmiksi ja käyttäjälähtöisemmiksi.

* * *

Yle Radio 1:n haastattelussa 18.4.2017 akateemikko Markku Kulmala mukaili toisen akateemikon eli Olli V. Lounasmaan ajatusta todeten, että huippututkimusta syntyy, jos sitä ei estetä.

Tutkimusdatainfrastruktuurille tuo ajatus tarkoittaa sitä, että sen pitäisi siis toimia resrussina ilman, että se jäykistää varsinaisen tutkimuksen tekemistä. Eli tarvittavien resurssien pitäisi olla olemassa ja käytettävissä, ilman että siihen sidotaan turhaa tekemistä ja byrokratiaa. Tutkimusdatainfrastruktuurin ei pitäisi olla tutkijoille liian niukka resurssi.

Perinteinen infrastruktuuri sopii tässäkin esimerkiksi. Me maksamme veroja ja niillä varoilla teitä ylläpidetään.

Kuluttajat käyttävät näitä väyliä kuten haluavat löytäen uusia paikkoja, pidentäen tai lyhentäen työmatkojaan, mutta joka tapauksessa toteuttaen itseään. Se on kokonaan toinen tarina, ovatko ylläpidon varat riittäviä, mutta on varsin ilmeistä, että jos jokaisesta väylän käytöstä pitäisi erikseen ilmoittaa – automaattisesti tai manuaalisesti – ja sillä olisi esimerkiksi taloudellisia vaikutuksia, se vaikuttaisi suoraan myös käyttäytymiseen. Sitä saa mitä mittaa.

Tietenkin on niin, että jotta infrastruktuuri voisi tarjota riittävän laajasti mahdollisuuksia erilaisten tarpeiden ja ideoiden täyttämiseen, syntyy hukkaa eli resursseja, jotka eivät ole koko ajan käytössä.

Näin käy joka tapauksessa myös tutkimusdatainfrastruktuureissa, vaikka ne olisikin rakennettu joustavilla tuotantomalleilla tai muuten kuinka tehokkaasti tahansa. Tuo hukka on se hinta, joka joudutaan maksamaan siitä, että infrastruktuuri tekee omaa tehtäväänsä mahdollistajana.

Ovat ne tietkin olemassa, käytettiin niitä tai ei.

Tutkimusdatainfrastruktuurin tehtävänä on toimia mahdollistajana. Väylänä uusiin paikkoihin ja maisemiin.

* * *

Pari esimerkkiä tutkimusdatainfrastruktuureista.

ATT-hankkeessa on työstetty palvelukarttaa, jossa on määritelty palveluita, joilla voidaan toteuttaa avoimen tieteen ja tutkimuksen prosessia. Prosessin keskeiset osat ovat tutkimuksen valmistelu, tutkimuksen toteutus, tutkimustuotosten tuottaminen, julkaisu ja levittäminen, tulosten arvottaminen, tutkimuksen hyödyntäminen.

Nämä prosessin vaiheet eivät vääjäämättä seuraa toisiaan tässä järjestyksessä, vaan nopeampisyklisessä tutkimuksessa kukin prosessin vaiheista voi synnyttää uusia tutkimusideoita ja tutkimusprosesseja vaikka edellinen sykli ei olisikaan vielä valmis. Siihen tietty pyritäänkin tällä kiihdyttimeksikin ristityllä syklillä.

Tutkimusprosessin toteuttamiseen on kuvattu viisi palvelua, joilla kokonaisuus saadaan katettua. Ne ovat tutkimuksen hallintapalvelut, tutkimuksen tekemisen ja avaamisen palvelut, tutkimuksen julkaisemisen palvelut, tutkimuksen saatavuuspalvelut sekä tutkimuksen arvioinnin ja hyödyntämisen palvelut.

Näistä yleisen tason palveluista päästäänkin sitten yksityiskohtaisempiin kuvauksiin kuten osapalveluihin, ne toteuttaviin tietojärjestelmäpalveluihin, teknologiatoteutuksiin sekä tietovarantoihin.

Tällaisilla kuvauksilla ei ole tarkoitus kertoa, että esimerkiksi avoimen tieteen arkkitehtuuri olisi juuri tällainen tai siihen liittyvä tutkimusdatainfrastruktuuri juuri tuollainen, vaan tarjota työvälineitä kokonaisuuden hallintaan ja sen hahmottamiseen, miten mikäkin osa sopii omaan organisaatioon tai omalle tutkimusalalle.

Helsingin yliopistossa tutkimusdatainfrastruktuuria on hahmotettu MILDRED-hankkeessa palveluiden ja sovellusten kautta osin soveltaen edellä esitettyä yleisempää prosessia. Osin sovittaen tekemistä omaan organisaatioon.

* * *

Lopuksi.

Mikä tutkimusdatainfrastruktuuri oikeastaan on?

Tutkimusdatainfrastruktuuri on tutkimusorganisaatiolle yksi kyvykkyyksistä henkilöstö osaamisen, strategioiden, erilaisten muiden resurssien yms. rinnalla. Se on yksi osanen siinä miten hyvin organisaatio pystyy toteuttamaan omaa strategiaansa nykyisessä dataintensiivisessä ja digitalisoituvassa maailmassa.

Kyvykkyyksien kehittäminen mahdollistaa aiemmin mainittujen sosiaalisten, organisaatioon liittyvien ja kulttuuristen kysymysten ratkaisemiseen samassa tahdissa teknologiapohjaisten palveluiden tuottamisen kanssa.

(Teksti oli pohjatan FCRD:n keskustelutilaisuudessa 10.5.2017 pidetylle puheenvuorolle “Mikä on tutkimusdatainfrastruktuuri?”)

Muistiinpanoja RDA:n 9. plenarystä

Koska sitä on kysytty, niin julkaisenpas matkaraporttini hieman lyhennetyn ja muokatun version täällä blogissa. Teksti on aiemmin julkaistu HY:n tietotekniikkakeskuksen sisäisessä Tietoset-palvelussa 13.4.2017.

Research Data Alliancen järjestyksessään 9. plenary järjestettiin oheistapahtumineen 4.-7.4.2017 Barcelonassa, Kataloniassa Espanjassa. Yksi kokouksen havainnoista oli se, että yhä useammin dataa käytetään jonkun sovelluksen tai ohjelmallisen rajapinnan läpi eikä perinteisesti tiedostoina.

Plenaryn ohjelmassa oli perinteisen kaavan mukaan joitakin keynoteja, mutta pääosa työskentelystä tehtiin erilaisten työryhmien kokouksissa.

Kokouksen pääpuhuja oli Euroopan komission eInfrastructure & Science Cloud -yksikön päällikkö  Augusto Burgueño Arjona. Hän herätti keskustelua siitä, miten RDA voisi kasvattaa toimintaansa ja ottaa yhä isomman roolin EU-rahoitteisissa projekteissa. Omalla tavallaan villi ehdotus oli se, että EU-hankkeista tehtäisiin RDA-työryhmiä.

Se tarkoittaisi yli 6000 työryhmää, mikä on tietenkin varsin mahdoton yhtälö pitkälti vapaaehtoisuuteen perustuvalle organisaatiolle.

Tiedostoista datakeskeiseen ajatteluun

Big data -työryhmässä keskusteltiin erilaisista tulevaisuuden arkkitehtuureista. NASA Goddard Flight Centerin Kwo-Sen Kuo esitteli vaatimuksia tulevaisuuden järjestelmille, kuten datan avoin julkaiseminen, toisiinsa liittymättömien tietokantojen käytön vähentäminen, yhteistoiminnan tuki, parempi analysointisovellusten laatu ja uudelleenkäytettävyys, tieteellisen toistettavuuden tuki ja ROI:n maksimointi.

Vaatimuksiin voidaan suhtautua kahdella tavalla, joko tiedostokeskeisesti tai datakeskeisesti. Näistä ensimmäisessä asiat hoidetaan tiedostoina kuten usein nykyäänkin. Jälkimmäisessä taas data tallennetaan indeksoituihin tiedostoihin, joista dataa käsitellään, hallitaan ja analysoidaan tarkoitukseen sopivilla sovelluksilla.

Näistä jälkimmäinen vastaa Kuon mukaan paremmin tulevaisuuden haasteisiin ja vaatimuksiin. Kun datakeskeiset toimintatavat yleistyvät, niin tiedostokeskeisen ajattelun merkitys vähenee, vaikka perinteisemmästä mallista ei päästäne kokonaan eroon. Tosin, tiedostojen käytöstä tulee siitäkin nykyistä dynaamisempaa erilaisten cache-ratkaisujen jne. avulla.

Internetistä datanetiin

Kansallisten palveluiden intressiryhmässä oli esillä useammankin maan projekteja, joista moni on vielä alkutekijöissään tai vasta suunnitteluasteella kuten Espanjan projekti.

Yhdysvalloissa on jokin aika sitten käynnistetty kansallisen datapalvelun toteutus, mutta projekti on vasta alkuvaiheessaan. Projektilla pyritään tukemaan datan julkaisemista, löydettävyyttä ja uudelleen käytettävyyttä, eli siirtymään internetistä “datanetiin”. Tähän liittyy datapalveluiden yhteentoimivuuden toteuttaminen laajasti esimerkiksi hajauttamalla datan ja laskennan pilveen. Samalla kansallinen datapalvelu toimii projektien ja pilottien hautomona, jotta ne pääsevät mahdollisimman nopeasti liikkeelle ilman laajoja infrojen rakentamisia.

Projektin perustajiin kuuluu koko joukko yhdysvaltalaisia yliopistoja kuten Harvard, CU Boulder, Johns Hopkins, UC San Diego, Indiana, Purdue sekä muita organisaatioita kuten IEEE, Nature- ja Science -lehdet, Elsevier, NCSA, iRods, DataOne jne.

Suomen avoimen tieteen ATT-hanke oli esillä kyseisen ryhmän edellisessä kokouksessa Denverissä. Yleisesti kansallisista datapalveluista voi todeta, että Suomi on jo varsin pitkällä ja selkeästi edelläkävijän roolissa moniin maihin, kuten vaikkapa Ruotsiin, nähden. Toisaalta, muissa maissa pyritään uudet projektit tekemään – muilta opiksi ottaen – ketterämmin, joten Suomessakaan ei ole syytä laiskotteluun.

QoS ja DataLC

Helsingin yliopiston Mildred -hanketta esiteltiin QoS and DataLC Definitions -työryhmässä lähinnä siksi, että sen tiimoilta on jossain määrin kuvattu arkkitehtuuria ja niiden välisiä suhteita, mikä toimi ihan hyvin keskustelun pohjana. Lisäksi ryhmässä oli yleistä kiinnostusta hanketta kohtaan ruotsalaisten taholta.

Työryhmän nimi kuvaa kieltämättä hieman huonosti sitä, että työryhmän ideana on kuvata myös koneluettavassa muodossa palvelinarkkitehtuureihin ja teknologiaan liittyviä palveluiden laatuvaatimuksia (QoS) tutkimusdatan elinkaaren (DataLC) erilaisissa vaiheissa.

Lopuksi

Yhteenvetona plenaryn sisällöllisestä annista voi sanoa sen verran, että maailma ei ole valmistumassa, vaan maali liikkuu.

Data on jo sen verran laajalti tunnistettu voimavara, että suuren innostuksen vaiheesta ollaan siirtymässä jo erilaisten tulosten ja tehokkuuden vaatimiseen. Pelkkiä perustarpeita tyydyttämällä ei enää pysy kehityksen vauhdissa. Yhteentoimivuus ja yhteistyö erilaisten yhteisöjen sisällä ja niiden välillä ovat tärkeitä tekijöitä tulevaisuuden palveluille.

Kokoukseen osallistui 620 osanottajaa yhteensä 45 maasta. Osallistujia oli kaikilta mantereilta Antarktista lukuunottamatta, joskin 67 % osallistujista tuli Euroopasta. Osallistujista 38 % oli naisia ja 62 % miehiä.

Periaatteita

Viime aikoina on julkistettu eräitä periaatteita, joilla palveluita kehitetään.

Viimeisimmät ovat helmikuun alussa toimintatapojen uudistamisen ministerityöryhmän hyväksymät kaikkia julkisia palveluita koskevat digitalisoinnin periaatteet:

– Kehitämme palvelut asiakaslähtöisesti.
– Poistamme turhan asioinnin.
– Rakennamme helppokäyttöisiä ja turvallisia palveluita.
– Tuotamme asiakkaalle hyötyä nopeasti.
– Palvelemme myös häiriötilanteissa.
– Pyydämme uutta tietoa vain kerran.
– Hyödynnämme jo olemassa olevia julkisia ja yksityisiä sähköisiä palveluita.
– Avaamme tiedon ja rajapinnat yrityksille ja kansalaisille.
– Nimeämme palvelulle ja sen toteutukselle omistajan.

Periaatteista todennäköisesti haastavin, mutta joissain tapauksissa myös ilahduttavin on se, että puritään poistamaan turhaa asiointia sekä se, että uutta tietoa pyydetään vain kerran. Toteutuksissa on tietysti huomattava se, että kun näin tehdään, niin oikeusturva- ja tietosuojaperiaatteista pidetään kiinni. Palveluiden kehittämisen kannalta nuo ovat hyviä periaatteita.

Toinen setti periaatteita löytyy ATT:n puolelta eli avoimen tieteen ja tutkimuksen palveluperiaattet, joilla pyritään tukemaan palveluiden kehitystä ja ylläpitoa:

  1. Palvelut tukevat tutkimusta sekä tutkimusprosessin avoimuutta. Palveluissa huomioidaan tutkimuksen ja sen tuottaman tiedon koko elinkaari.
  2. Palveluilla tuetaan parhaita avoimen tieteen käytäntöjä. Palveluilla edistetään yhteentoimivuutta sekä tutkimustuotosten avoimuutta ja jatkokäyttöä. Tämän tulee toteutua myös silloin, kun kaikkia tutkimustuotoksia ei voida avata vapaasti käytettäviksi.
  3. Palvelut ovat mahdollisimman avoimesti suomalaisen tutkimusyhteisön käytettävissä. Palvelut voidaan rahoittaa käyttäjämaksuin. Tällöin hinnaston tulee olla avoimesti saatavilla.
  4. Palvelut ovat jatkuvia. Palveluntarjoajan on laadittava palvelulle jatkuvuussuunnitelmat. Mikäli vastoin odotuksia palvelu aiotaan sulkea, palveluntarjoajan on avustettava korvaavan palvelun löytämisessä edistääkseen tietojen säilyvyyttä.
  5. Palveluiden teknologiavalinnat ja tietoturva ovat tarkoituksenmukaiset. Yleisperiaatteena palveluiden teknologiavalinnoissa on yhteentoimivuuden edistäminen. Palveluille luodaan mahdollisuuksien mukaan avoimet rajapinnat ja näille julkinen rajapintadokumentaatio.
  6. Palveluita kehitetään jatkuvasti ja käyttäjälähtöisesti sekä hyödyntäen mahdollisuuksien mukaan avoimen lähdekoodin ratkaisuja.
  7. Palveluiden käyttöehdot edistävät avoimuutta. Palveluihin liittyvät ja niihin kertyvät kuvailutiedot luovutetaan mahdollisimman avoimesti. Palvelukehityksen tulokset on lähtökohtaisesti lisensoitu avoimesti.
  8. Palveluille määritellään asiakas- ja käyttäjäperusteiset, laadulliset ja määrälliset mittarit, joiden avulla palveluiden käyttöä ja käytettävyyttä voidaan seurata ja kehittää.
  9. Palveluiden palvelulupaukset, vastuutahot ja palveludokumentaatio ovat saatavilla. Palveluntarjoajan tulee huolehtia tarvittavan tukipalvelun tuottamisesta.

Jälkimmäiset on lisenssoitu CC 4.0 BY-lisenssillä, joten niitä voi ja saa hyödyntää muuallakin.

Kts. myös juttu Portissa: http://portti.avointiede.fi/yleista/periaatteista-tukea-att-palveluiden-kehitykseen

Pilviveikkauksia

Pilvipalveluista on viimeaikoina jälleen keskusteltu ja teeman ympärillä on parhaillaan tekeillä toimenpide jos toinenkin. Tässä tekstissä tarkastellaan muutamia esimerkkejä, arvioidaan niitä ja arvaillaan hieman tulevia käänteitä.

Viestintätoimisto Kreab Helsingin toimitusjohtaja Mikael Jungner (ex-Microsoft, ex-Yle, ex-kansanedustaja (sd.) jne.) arvioi, että Microsoft 365- tai Google Worksin kaltaisilla pilvipalveluilla voitaisiin Suomen julkisessa hallinnossa säästää vähintään 100 miljoonaa euroa joka vuosi.

Senja Larsen kirjoittaa Kauppalehdessä, että mikäli Suomi haluaa nyt olla pioneeri, sen tulee tähdätä pilvipalvelujen kärkimaaksi ja silloin pilviarkkitehdit ovat tämän uuden it-ajan avainosaajia.

Codenton Petri Aukia ennustaa blogissaan, mm. että Amazonin kaltaiset pilvipalvelut muuttuvat kaikissa tapauksissa halvemmaksi, kuin omien servereiden ostaminen ja käyttäminen ja niiden tietoturva paranee niin paljon, että palvelut siirretään niihin tietoturvasyistä.

Samaan aikaan EU tuomioistuin päätyi 6.10.2015 tekemässään päätöksessä C-362/14 toteamaan Safe Harbor -järjestelyn pätemättömäksi. Näin ollen Safe Harbor -järjestelyn nojalla ei voida enää siirtää henkilötietoja Yhdysvaltoihin.

Tähän keskusteluun on hyvä ottaa mukaan myös uutisointi suomalaisista datakeskuksista ja niihin liittyvistä hankkeista, vaikka on tiedossa etteivät konesalit yksinään kansantaloudelle merkittävästi tuloja tuota.

Tieteen tietotekniikkakeskus CSC:n toimitusjohtaja Kimmo Koski korostaa omassa kirjoituksessaan, että olennaisempaa työllisyydelle ja verotuloille on datakeskusten ympärille rakentuva ekosysteemi – tutkimus, koulutus, tietohallintopalvelut, ohjelmistot ja niiden kehitys, pilvipalvelut, data-analyysi, näitä hyödyntävä yritystoiminta, datakeskusrakentaminen ja monet muut toiminnot. Hän huomauttaa myös, että em. Safe Harbor -päätös saattaa tuplata jo aiemminkin isot tämän alan kasvuennusteet ja etsikkoaika tämän hyödyntämiseen on nyt.

Tähän pakettiin pitää nyt liittää myös uutinen, jonka mukaan Suomen ja Saksan välille avaava merikaapelihanke on edennyt asennusvaiheeseen. Tämän odotetaan auttavan tuomaan Suomeen yksityisiä datakeskusinvestointeja 2-3 miljardin euron verran seuraavan noin 10 vuoden aikana ja kehittämään noita ekosysteemejä.

Kiirettä on siis pitänyt. Miksipäs toisaalta ei olisi, sillä talous, arkkitehtuurit, osaaminen, ekosysteemit ja infrastruktuurit ovat osa sitä alustaa, minkä päällä digitalisaatio elää ja toimii.

Hopealuodit toisaalla

Arvioidaan hieman muutamaa asiaa.

Jungnerin esittämä arvio tai arvaus 100 miljoonan säästöpotentiaalista on perusteltavissa, mutta mistään hopealuodista ei ole kyse, eikä noita säästöjä kannata ensi vuoden budjetissa odotella elleivät ne siellä jo ole. Säästöjä olisi odotettavissa kenties vaalikauden lopulla tai sen jälkeen.

Näin ihan siksi, että esimerkiksi valtionhallinnossa on jo alkanut perustietotekniikan keskittäminen ja valtionhallinnon n. 90 000 työasemasta 60 000 on menossa uusiksi. Kestoltaan 3 vuotisessa projektissa käytetään pilvipalveluita hyväksi ja sen “toivotaan tuovan kymmenien miljoonien eurojen säästöt”. Tulevan projektin hintaa uutinen ei kerro, mutta kyseessä on mittavasta investoinnista, sillä ilmaiseksi ne palvelut eivät sinne pilveen siirry, eivätkä käyttäjät saa hommaa ilman tukea käyttöön.

Toisaalta valtionhallinto ei ole koko julkinen sektori. Esimerkiksi kunnissa oli pari vuotta sitten noin 216 000 laitetta (Kuntien tietotekniikkakartoitus, PDF) ja kuntien kokonaismenoista tietotekniikkaan kului vuonna 2013 noin 1,3 prosenttia ja kokonaisuudessaan 831 miljoonaa euroa. Kuntien IT-menot tosin ovat reaaliarvolla mitattuna menot kääntyneet laskuun vuoden 2010 jälkeen ja kuntasektorin IT-henkilöstöstä on jo vähennetty tuollaiset 20 %.

Julkishallinnon pilvihaaveiden kohdalla kannattaa aina muistaa, että siellä on isoja käyttäjäryhmiä kuten poliisi, puolustusvoimat sekä sosiaali- ja terveysorganisaatiot, joiden käsittelemiä tietoja ei laillisesti ulkomaisissa pilvissa voi käsitellä. Osa opettajistakin käsittelee salassa pidettävää materiaalia.

Kuten Larsen kommentissaan toteaa, IT-busineksessa on ollut iso murros jo jonkin aikaa johtuen infrastruktuuriin liittyvästä liiketoimintamallien ja teknologioiden uudistumisesta pilvimaailmaan. Voi tietysti kysyä, milloin IT-maailmassa ei ole ollut jotain murrosta? Tosin digitalisaation myötä on tultu vaiheeseen, jossa IT ei enää käynnistä tai johda murroksia, vaan ne ovat lähtöisin toimintamallien uudistamisen tarpeista tai ideoista.

On ilmiselvää, että liiketoimintamalliltaan pilvipalvelumalli on massapalveluissa (olkoot ne nyt sitten infraa, sovelluksia tai jotain muuta) tehokkaampi kuin paikallinen pientuotanto. Niin se on kaikessa muussakin busineksessa. Ei autoja käsityönä kannata tehdä, jos haluaa tehdä niitä paljon ja kohtuuhintaan.

Kaikkea IT:ssäkään ei tosin voi eikä kannata tehdä massatuotantona ja siksi pilviarkkitehti tarvitsee joko-tai -näkökulman tilalle sekä-että -ajattelua. Tätä voi kutsua myös hybridimalliksi.

Tietosuojassa erilaisia lähestymistapoja

Kun pilvipalveluilla tarkoitetaan globaalien toimijoiden infrastruktuureja, on syytä huomata, että  Yhdysvalloissa ja Euroopassa tilanne tietosuojan ja lainsäädännön osalta on varsin erilainen. Se mikä on yhdysvaltalaiselle kotimaista pilvipalvelua, on euroopplaiaselle toimintaa, jossa käyttäjän tietosuojaa ei voida välttämättä turvata.

Suomen tietosuojavaltuutettu kirjoittaa:”Yhdysvalloissa on omaksuttu tietosuojaan erilainen lähestymistapa kuin Euroopassa. Yhdysvalloissa ei ole yleistä tietosuojalainsäädäntöä, vaan siellä käytetään alakohtaista lähestymistapaa, jossa yhdistyvät lainsäädäntö, sääntely ja itsesääntely.

Safe Harborin päätyminen pätemättömäksi ei sinänsä ole mikään yllätys tai edes iso uutinen, sen verran ilmiselvästä ongelmasta on ollut kyse. Eikä tuomioistuimen päätös edes tarkoita sitä, että kaikki henkilötietojen siirtäminen Yhdysvaltoihin olisi laitonta. Edellä linkitetyn tietosuojavaltuutetun tiedotteen mukaisesti “Henkilötietojen siirtäminen Euroopasta Yhdysvaltoihin on sallittua vain tietoja koskevan henkilön nimenomaisella suostumuksella, erityisellä tietosuojan tason takaavalla sopimuksella, ns. mallisopimuslausekkeita käyttämällä tai BCR-prosessin mukaisen sopimuksen nojalla“.

Lisäksi on tietysti niin, että EU ja Yhdysvallat ovat neuvottelemassa koko kuviota uusiksi ja intressiristiriitoja varmasti ilmaantuu. Aikaa menee, mikä kuluttajapalveluissa on hankalaa, mutta isommat organisaatiot ovat jo ennalta hoitaneet sopimuksissaan asian niin, että joko käytetään noita mallisopimuslausekkeita tai sopimuksella velvoitetaan pitämään data Euroopassa.

Pilviä haaveillessa on syytä pitää saappaat savessa.

Halvempaa kyllä, mutta onko se toimivaa?

Codenton Petri Aukian ennusteen mukaisesti Amazonin kaltaisista pilvipalveluista varmastikin tulee omia laitteita halvempia (ellei jo ole tullut) edellyttäen, että palvelutuotantoa on myös lainsäädännön kannalta soveliaissa paikoissa kuten EU-alueella ja esim. terveystietojen osalta Suomessa.

Kuten Aukia kirjoittaa, uusi sukupolvi kehittäjiä ei muutaman vuoden päästä enää edes osaa asentaa palveluita muualle kuin pilveen. Näin kaiketi on myös siksi, että pilvipalvelu tuotantomallina yleistyy pienemmissäkin tuotantoympäristöissä. Voi ennustaa, että muutaman vuoden päästä käytössä olevat konesalitkin ovat ottaneet käyttöönsä erilaisia pilvipalveluiden tuotantomalleja ja -teknologiaa konesalin koosta riippumatta. Voi siis olla, ettei uusille kehittäjille edes ole tarjolla juuri muuta ja siksipä niistä vanhoista palvelimista on helppo kieltäytyä.

Jos Amazon (tai miksipäs ei Microsoft tai vaikka Google) saisi aikaiseksi tietoturvallisen pilvipalvelun, niin se olisi luonnollisesti hyvä asia. Kehitystä tähän suuntaan on jo olemassa.

Pulma ei ole teknisessä tietoturvassa, vaan luottamuksessa ja hallinnollisessa tietoturvassa. Niin kauan kuin yhdysvaltalaiset toimijat on velvoitettu oman lainsäädäntönsä nojalla toimittamaan tietoja yhdysvaltalaisille viranomaisille myös eurooppalaisista käyttäjistä (ilman, että yritys edes saa kertoa siitä seurannan kohteille), teknisellä tietoturvalla on vain rajallinen merkitys.

Sumu on lähellä

Oma pulmansa onkin sitten big data ja esimerkiksi massiivisen tutkimusdatan syntyvaiheet, jolloin data pitää saada jonnekin talteen raakadatana ennen sen käsittelyä. Pilvi voi olla liian kaukana vielä viidenkin vuoden päästä järkevällä hinnalla käytettävissä olevilla verkkoyhteyksillä jne. Käytännössä tällainen data kannattaa tai täytyy tallentaa myös lähellä.

Viiden vuoden päästä tutkimusdatan tallennustarpeiden kohdalla puhutaan rutinoituneesti petatavuista ja uumoillaan exatavuista (merkittäköön tämä muistiin tämän blogin pitäjän ennusteena).

Datan määrän kasvu ja käyttötapojen muutos onkin yksi asia, joka pitäisi pilviarkkitehtuureja kehitellessä huomioida, mutta massapalveluiden mukanaan tuoman innostuksen huumassa herkästi unohtuu.

Esimerkiksi voidaan ottaa autot. Accenturen Connected Transport ja IoT-praktiikan johtaja Marcello Tamietti arvioi Teknikka ja talous-lehdessä kesällä 2015 (Tekniikka ja Talous 23/2015), että jo vuonna 2020 on sata miljoonaa autoa kytketty internetiin ja että ne tuottavat 1070 prosessia päivässä.

On ilmeistä, että tuollainen määrä prosesseja synnyttää sellaisen määrän dataa, että sitä ei ole järkevää tai edes mahdollista siirtää pilveen, joten osa datasta on analysoitava, suodatettava ja käytettävä ensin autossa paikaillisella tasolla. Tämä siis pelkästään autoissa. Ympärillämme on koko joukko muitakin prosesseja, joista syntyvä data tallennetaan jonnekin ja käsitellään jossain.

Tässä yhteydessä voisi tietysti sanoa, että tuo analysointi tehdään paikallisilla palvelimilla, mutta ehkä se on hieman harhaanjohtava ajatus, koska “palvelin” jo nykyään olla melkeinpä missä tahansa missä on prosessori.

Kun dataintensiivisyys leviää yhä laajemmalle, tällainen fog computing-termin alle sopiva toimintatapakin tulee yhä yleisemmäksi. Dataa siis käsitellään tulevaisuudessakin lähellä eikä vain pilvessä. Myös asioiden internet tai kaiken internet vaatinevat käytännössä myös datan käsittelyä nk. paikallisella tasolla.

Varastoitava tai jaettava osa tästä datasta päätynee pilveen, mutta esimerkiksi tutkimusdatan kohdalla se on kohtalaisen pieni osa määrällisestä kokonaisuudesta.

Teknogiakin kehittyy

Pilvipalvelukeskustelussa hieman häiritsee yksi yllättävä seikka. Siinä ei juuri analysoida sitä miten teknologian kehitys vaikuttaa asioihin. Tämä tosin on ymmärrettävää digitalisaation mukanaan tuoman paradigman muutoksen vuoksi.

Veikkaus tuskin menee kovin paljoa pieleen, jos arvelee teknologian kehittyvän seuraavan kymmenen vuoden kuluessa vähintäänkin samaa tahtia kuin viimeisen kymmenen vuoden aikana ellei sitten enemmänkin. Lisäksi tulevat ne hypyt, joista vielä emme oikein saa sanoa tarkasti mitään.

Otetaan esimerkki. Normaali nykyinen kiintolevy palvelimissa on 6 teratavun 7200 kierrosta per minuutti pyörivä pyörivä levy. Nyt on kuitenkin esitelty uudella 3D-tekniikalla toimiva SSD-levy, jossa kapasiteettia on peräti 16 teratavua. Kun tähän lisätään vielä se, että uusien levyjen hinta on halvempi, niin voidaan puhua jo merkittävästä uudistuksesta.

Näin radikaalit muutokset voivat tarkoittaa myös uusia konsepteja eli esimerkiksi jatkossa palvelimet eivät enää ole  sähkönkulutukseltaan, kooltaan tai konseptiltaankaan samankaltaisia kuin nykyään. Siksipä voi olla hieman haastavaa verrata pilvipalvelua tuleviin palvelimiin.

Sovellustensa puolesta se olisi sinänsä jo nyt mahdollista, mutta ei ehkä tietoturvallista tai muuten käytännöllistä, mutta tulevaisuudessa esimerkiksi jokainen mobiililaite voisi toimia palvelimena. Kun tämä yhdistetään uuden sukupolven mobiilivrkkoihin, pilvikonsepteihin ja toimintatapoihin, voi syntyä jotain ihan muuta kuin se mihin nyt varaudutaan tai halutaan mennä. Ja niin edelleen.

Lopuksi

Pilviin liittyy useampia näkökulmia, jotka arkkitehtuurissa on otettava ennemmin tai myöhemmin huomioon, vaikka asioita haluttaisiinkin yksinkertaistaa. Massatuotannon kustannusteokkuus ei tee pilvestä käyttökelpoista kaikkiin tarkoituksiin lainsäädännöllisista, toiminnallisista tai teknologisistakaan syistä johtuen. Samalla pilvipalvelu toimintatapana on muutakin kuin massiivisissa kansainvälisissa datakeskuksissa sijaitsevia resursseja, ne voivat olla ihan läheltäkin saatavia palveluita.

Kun kaiken edellä olevan vetää jotenkin yhteen voi arvioida, että tulevaisuus ei ole suoraviivaista pilveen siirtymistä, vaan todennäköisemmin hybridia, missä paikalliseen toteutukseen otetaan eväitä pilvipalveluiden toimintamalleista ja teknologioistakin.

Mitä erilaisiin ennusteisiin tulee, niin arvatenkin ne menevät kaikki enemmän tai vähemmän pieleen. Se voi tosin olla niiden hyvä puoli.

 

Raportti RDA:n 6. plenarystä: Tutkimusdata kohti ekosysteemejä

CNAM

(Matkaraportti on julkaistu 8.10.2015 jotakuinkin samassa muodossa HY:n tietotekniikkakeskuksen Tietoset-henkilökuntajulkaisussa)

Research Data Alliancen 6. plenary ja sitä edeltänyt dataintensiivisen tutkimuksen ja e-infrastruktuurien työpaja Pariisissa 22.-25.9.2015 tarjosi jälleen koko joukon projekteja ja edistysaskelia tutkimusdatan parissa.

Kokouksen teemana oli yritykset ja ilmastonmuutos, järjestetäänhän joulukuussa Pariisissa kansainväliseen ilmastoisopimukseen tähtäävä kokous COP21.

Projektien ilotulitus

Varsinaista plenaryä edeltävänä päivänä järjestettiin dataintensiivisen tutkimuksen ja e-infrastruktuurien työpaja, joka oli yhtä projektien ja infrastruktuurien esittelyn ilotulitusta.

Yhdysvaltalaisen NCSA:n johtaja Ed Seidel esitteli kuvaa modernista tutkimus- ja opetusinfrastruktuurista, joka vaati varsin paljon verkkoa ja kapasiteettia. Hän puhui myös siitä, että innovaatiota vaativat sekä datan pitkää häntää eli niitä pienempiä datasettejä että big dataa.

Pre-päivän lyhyissä esityksissä olivat tieteen laskentapalveluista esillä mm. suurteholaskennan PRACE-infrastruktuuri, eurooppalainen korkean suosituskyvyn laskentapalvelu ETP4HPC, pilvipalvelu Helix Nebula, European Grid Infrastructure EGI, INDIGO-DataCloud, yhdysvaltalainen suurtehoympäristö XSEDE, kandalainen ComputeCanada ja brasilialainen RNP.

Datapalveluista esillä olivat eurooppalaiset EUDAT ja OpenAIRE, lääketieteeseen tarkoitettu brittiläinen PhenoMeNal, Australian kansalliset datapalvelut ANDS , yhdysvaltalaiset DataOne ja NDS sekä Japanin ROIS.

Autentikointiin ja auktorisointiin on kehitteillä uusia ratkaisuja AARC-hankkeen myötä. Myös CSC on AARC:ssa mukana edustamassa life science -sektoria.

Yksi varsin paljon esillä ollut projekti on THOR. Projektin visiona on rakentaa saumaton integraatio artikkeleiden, data ja tutkijoiden välille koko tutkimuksen elinkaaren ajaksi. Käytännössä projekti liittyy ORCID:n, Zenodon ja DataCiten hyödyntämiseen integraatioiden toteuttamisessa. Yksityiskohtana mainittakoon, että projektin tiimoilta on olemassa myös R-paketti, jolla voi käsitellä DataCiten avoimessa rajapinnassa jaossa olevaa metadataa.

ORCID on tulossa lähiaikoina mukaan hollantilaisen SURFNetin käyttäjäfederaatioon ja myöhemmin myös HY:lläkin käytössä olevaan eduGAINiin.

Päivän hengästyttävän laajan annin yhteenvetona Max Planck Instituten senior advisor Peter Wittenberg nosti esiin lukuisat erilaiset ratkaisut, joita datan kanssa nykyisellään on. Hän kysyi, miten voimme vähentää ratkaisujen määrää, jotta tilanne olisi hieman hallittavampi. Hän on ollut kehittelemässä myös Data Fabric -konseptia, joka kokoaa datan hallinnan eri vaiheet samaan arkkitehtuuriin.

Luottamus, hybridi ja ekosysteemit

Eräs teema, joka tuli esiin varsin monessa esityksessä oli hybridiratkaisut datan käsittelyssä sen elinkaaren eri vaiheissa. Hybridillä tarkoitetaan yhdistelmään pilvipalveluista ja paikallisista palveluista. Muita puheenvuorojen iskusanoja olivat mm. ketteryyden puute, saumaton integrointi, palvelusuuntautuneisuus ja ekosysteemit.

EU:n komission e-infrastruktuuriyksikön päällikkö Augusto Burgueño-Arjona puhui siitä, että EU:ssa on tavoitteena saada aikaiseksi yhtenäinen digitaalinen markkina aikaiseksi. Hän luetteli tämän hetkisiä trendejä kuten maailmanluokan e-infrastruktuuri, konvergoidut verkot, big data, suurteholaskenta, co-design, datavetoinen tiede ja palvelusuuntautuneisuus (sisältää myös pilvet). Hän kuitenkin muistutti, että todellisuudessa tekeminen on hajaantunut niin maantieteellisesti, teknologisesti kuin käyttäjäryhmittäinkin.

RDA:n tehtäväksi hän hahmotteli innovatiivisten e-infrastruktuuripalveluiden ja alustojen kehittelyn ja testaamisen.

RDA:n pääsihteeri Mark Parsons linjasi, että tutkimusinfrastruktuuri on myös e-infrastruktuuri. Hän sanataiteili, että datan tallentaminen on joskus hankalaa, mutta datan jakaminen vielä hankalampaa. Hän puhui myös siitä, että luottamus on keskeisessä osassa datan kanssa toimittaessa.

Dataa tulee lisää ja lisää

EU:n käyttää Horizon 2020 -ohjelmaan 80 miljardia euroa ja sillä syntyy varsin paljon uutta dataa. EU:n digitaalisesta taloudesta ja yhteisöistä vastaava komissaari Günther H. Oettinger totesi videoviestissään, että datan ja sen käsittelyn merkitystä taloudelle ei voi yliarvioida.

Ranskan digitaaliasioista vastaava ministeri Axelle Lemaire muistutti, että dataa pitää jakaa, jotta siitä saadaan lisää arvoa. Ranska onkin pärjännyt kohtuullisen hyvin datan avoimuuteen liittyvissä asioissa. Ranskan hallituksella on erikseen nimettynä data-asioihin keskittyvä Chief Data Officer ja hallitus on pyytänyt eri virastoilta strategiat siitä miten dataa aiotaan käyttää. Asia otetaan mitä ilmeisimmin vakavasti ja kunnianhimon taso on varsin korkealla.

Keynote-puhujana oli Barbara J. Ryan Group on Earth Observations (GEO) -organisaatiosta. Hän kuvaili ilmastonmuutoksen tilannetta (jäätiköt sulaa, hiilidioksidi ilmakehässä lisääntyy ja maapallon lämpötila nousee). Hän kertoi avoimuuden vaikutuksista eli ennen avoimen datan politiikkaa GEO:n palveluista ladattiin 53 Landsat-satelliitin kuvaa päivässä, mutta datan avaamisen jälkeen lukema on n. 5700 kuvaa päivässä. Ryan kertoi, että Landsat-datan avaamisesta on saatu globaalisti 2,1 miljardin dollarin hyödyt.

Rahaan liittyen australialainen Simon Cox kertoi, että Australiassa on arvioitu, että rannikon tulvat, rajut tuulet ja sisämaan vedenpinnan nousu aiheuttavat vuoteen 2100 pelkästään asumisessa n. 210 miljardin dollarin kustannukset. Hän totesi myös, että proaktiivisella toimilla verrattuna reaktiiviseen “business as usual”-toimintaan voidaan säästää n. 99 miljardia dollaria. Tuo proaktiivinen toiminta taas edellyttää dataa, johon päätökset perustetaan.

Ilmastoasioiden ympärillä onkin koko joukko erilaisia portaaleja ja palveluita kuten esimerkiksi ranskalainen Drias. Saksan ilmastoasioiden laskentakeskus DKRZ tarjoaa myös datapalveluita esim. hallitusten väliselle ilmastopaneeli IPCC:lle. Siellä on n. 5 petatavua pitkäaikaistallennettua dataa, joka  dokumentoitu, metadatoitettu, saatavilla, käytettävissä ja viitattu DataCiten DOI:lla. DKRZ:n Merret Buurman kuvaili prosessia raakadatasta pitkäaikaistallennettavaksi prosessina, johon mahtuu myös useampikin sotku.

Big Data -palveluista esillä olivat esimerkiksi EarthServer globaalin geodatan jakeluun sekä virtuaalinen 3D API HTML5:lle and JavaScriptille Web World Wind.

Keynote-puheenvuorossaan Orangen Jean-Paul Leroux puhui siitä, että datan saatavuus on usein seurausta yhteiskunnan digitalisaatiosta. Hänen mukaansa datan määrä jatkaa kasvuaan, se on yhä useammin mobiilia ja yhä useammin koneiden välistä.

Tuloksia työryhmistä

Datan ympärillä sidosryhmien ja repositoryihin tallennetun datan määrä kasvaa nopeasti, mutta rahoitus ei seuraa. Moni repositoryjen ylläpitäjä ei pidä nykyistä rahoitusmallia ja lähdettä stabiilina, joten ovat etsimässä uusia rahoitustapoja. Nykyään repositoryjen rahoitus hoidetaan organisaatioiden toimesta eikä esimerkiksi projektirahoituksena. Projektirahoitusta ei pidetä kovinkaan hyvänä ratkaisuna sellaisessa tilanteessa, jossa dataa pitää säilyttää kymmeniä vuosia.

RDA:n datakeskusten rahoitusta pohtiva työryhmä on julkaisemassa ensi vuonna raporttia, jossa kuvataan data repositoryjen rahoituksen nykytilaa ja tulevaisuuden näkökohtia.

RDA:n työryhmien tuloksia ja tulosten käyttökohteita esiteltiin niitäkin. Esimerkkinä hyödyntämiskohteesta kelpaa australialainen RD-switchboard, jonka avulla voi etsiä datasettejä useista rekistereistä kerralla.

Experiment day

Plenaryn yhteydessä pidettiin experiment day, jossa 18 aloittelevaa yritystä esittelivät ratkaisujaan erilaisiin ilmastoasioihin tavalla tai toisella liittyviin kysymyksiin. Näistä osallistujat äänestivät kaksi ratkaisua, jotka palkittiin päivän päätteeksi.

Yritysten ratkaisut vaihtelivat satelliittitiedon hyödyntämisestä, graafien tuottamiseen datasta ja rakennusautomaatioon. Palkituiksi tulivat ilmanlaatutietoa jalostava ja jakava Plume Labs sekä Defab, jonka ratkaisussa tietokoneiden tuottamaa lämpöä käytetään veden lämmitykseen.

Data packages BoF pohti sitä miten data pitäisi pakata, jotta siitä saadaan paremmin käsiteltävää ja yhteen toimivaa. keskustelu kävi lähinnä Open Knowledge Foundationin Data Package -formaatin ympärillä. Tässä varsin yksinkertaisessa toteutuksessa on datan paketointiin tarvitaan vain yksi pakollinen tiedosto eli nk. deskriptori, joka on JSON-tiedosto. Tuossa tiedostossa kerrotaan datan metadata ja muut vastaavat tiedot. Itse data voi olla mitä tahansa.

Datan paketoimisessa jakelua varten yksinkertaisuus, avoimuus ja riippumattomuus sovelluksista on on tyypillisesti hyödyllistä. BoF-keskustelussa CSV-formaatti nauttikin jonkinlaista suosiota. Muitakin datan paketoimisen tekniikoita löytyy (esim. http://dataprotocols.org/) eri tarkoituksiin.

Hieman myöhemmin ADHO:n (The Alliance of Digital Humanities Organizations) Candice Lanius puhui samasta asiasta todeten, että datan veistämisen (data carpentry) olevan ihmisten vakuuttamista luopumaan Excel-taulukoiden käytöstä.

Suuret tutkimusjärjestelmät ja datapolitiikat

Neutroni- ja fotonifyysikoiden tapaamisessa pohdittiin perustavaa laatua olevia kysymyksiä, kuten sitä onko RDA edes oikea paikka näiden tieteiden harjoittajille.

Hieman varttuneemmat tutkijat olivat tehneet ansiokkaat selvitykset sekä eurooppalaisista että yhdysvaltalaisista avoimen datan politiikoista kuten Royal Societyn suositukset sekä Digital Data Management of U.S. Department of Energy.

Institut Laue-Langevinin Jean-Francois Perrin kertoi siitä mitä avoin tiede on käytännössä ja samalla esitteli PaN-datan politiikat (PDF-tiedosto). Hänen mukaansa avoimen tieteen haasteita ovat tutkijoiden tiedostaminen, kokeellisen datan hyödyntämistä käsittelevien artikkeleiden keräämisen hankaluus, avoimen data puute sekä ajan puute.

Yksityiskohtana mainittakoon, että kiihdyttimen tuottaman datan tallentamiseen menee n. 1 % kiihdyttimen hinnasta. Kuten tunnettua ne kiihdyttimet eivät ole kovinkaan halpoja.

Lopputulema alunperin epäilevien fyysikoiden palaverista oli se, että ryhmä jatkaa RDA:n piirissä ja yrittää pitää palavereja verkossa kuukausittain (mikä on RDA:n piirissä varsin tiivis tahti).

Laatu ja elinkaari

Yksi hyödyllisimmistä BoF:sta käsitteli tallennusjärjestelmien laadun ja datan elinkaaren määritelmien yhtenäistämistä sekä siinä sivussa hieman tutkijoiden näille järjestelmille asettamien odotusten hallintaa. Kyse on siis siitä, että saataisiin yhteinen käsitys siitä, millä käsitteillä ja määritteillä tallennuspalveluiden ja -järjestelmien laatua kuvataan missäkin tilanteessa. Yhteinen ymmärrys näistä auttaa hallinnoimaan myös budjetteja hieman paremmin, kun tutkijoilla on selkeämpi käsitys siitä mitä voi valita ja miten.

Kansallisia palveluita pohtiva intressiryhmä kokoontui alkuun aivan liian pienessä salissa, mutta vaihtoi varsin nopeasti suurempaan. Ryhmän tehtävän on keskustella esimerkiksi siitä miten kansalliset ratkaisut voivat keskustella keskenään, koska tiede ei ole enää kansallista, vaan hyvinkin globaalia. Toisaalta ryhmä voisi tukea niitä maita, jotka eivät vielä ole kansallisia dataratkaisuja tehneet, mutta ovat tekemässä.

Joissain maissa tutkimusdata ja kansallinen data (governmental data) pyöritellään samoissa systeemeissä, mutta joissakin taas hallinnon data hoidetaan arkistoissa kuten esim. Hollannissa tai Suomessa.

Plenaryn viimeinen työryhmäsessio oli tutkimuksen toistettavuutta käsittelevä intressiryhmä. Koska kukaan osallistujista (n. 15 kpl) ei ollut ryhmän aiemmissa kokoontumisissa, oli ryhmällä hienoista epäselvyyttä siitä mitä ryhmässä pitäisi tehdä. Siispä ryhmä kävi keskustelua mm. niistä työvälineistä, joita eri puolilla käytetään tutkimuksen toistettavuuden (reproducibility) tukena.

Tutkimuksen toistettavuuden työvälineitä löytyy esimerkiksi Reproducible Research-saitilta. Softia on myös esitelty osaksi datan provenienssin seurantaa. Lisäksi sessiossa oli esillä mm. Pegasus, MyExperiment, YesWorkflow.org, Sumatra, recipy, CDE, Process Migration Framework, ReproZip, Docker, noWorkflow, Recomputation, Umbrella ja git2PROV. Aiheesta järjestetään myös koulutusta. Kokonaisuutena ajatellen, tämä osa-alue ei vielä ole kovinkaan kypsynyt, mutta jatkossa saamme kuulla tästä lisää.

Lopuksi

Tutkimusdataan liittyvä toiminta ja tekeminen on kehittynyt varsin nopeasti. Sen sijaan,  että pohdittaisiin yksittäisen datasetin tallennusta ja jakelua, keskustelu kohdistuu siihen miten dataa ja sen tietoja voidaan integroida, millaisia ekosysteemejä näin luodaan ja millä palveluilla tämä kaikki saadaan aikaiseksi.

RDA:n plenary oli jälleen täynnä innostusta ja uusiakin asioita. Hiljalleen yhteisön piiristä alkaa tulla erilaisia tuotoksia kuten suosituksia ja niiden implementaatioita. Projekteja datan ympärillä on jo niin paljon, että yksittäinen globaali organisaatio ei niitä oikein ehdi sulatella. Plenaryn ohjelma olikin laadittu e-infrastruktuuripäivä mukaan lukien 4:lle noin 10 tuntiselle työpäivälle, jonka jälkeen ohjelmassa oli vielä verkostoitumiset yms.

Vuonna 1794 perustetun Conservatoire national des arts et métiers (CNAM) -instituutin kampuksella järjestettyyn kokoukseen osallistui noin 700 osallistujaa, jotka työskentelivät yhteisten kokousten lisäksi 25 työryhmäsessiossa, 21 intressiryhmän kokouksessa sekä 25 BoF:ssa. Kokouksesta singottiin kokouksen aikana maailmalle n. 2500 tweettiä hashtagilla #RDAPlenary.

Digitalisaatio

Digitalisaatio on käsitteenä ollut esillä jo jonkun vuoden ja nyt sille on asetettu merkittäviä tavoitteita ja odotuksia. Tässä tekstissä avataan sitä mitä tuo digitalisaatio on ja hieman sitäkin mitä se ei ole.

Digitalisaation määritelmä ei ole vielä vakiintunut

Digitalisaatiolla ei vielä ole yksiselitteistä ja vakiintunutta määritelmää, joskin eri kuvaukset alkavat hiljalleen lähestyä toisiaan.

Konsulttitalo Gartner määrittelee digitalisaation seuraavasti omassa sanakirjassaan:

Digitalization is the use of digital technologies to change a business model and provide new revenue and value-producing opportunities; it is the process of moving to a digital business.

Gartner kytkee digitalisaation myös IT-kehityksen aikakausiin ja toteaa, että digitalisaatio on IT-kehityksen kolmas aikakausi ja teknologian kehittymisen myötä kasvanut paradigmamuutos ja väistämätön digitaalisen evoluution seuraava vaihe. Ne kaksi aiempaa aikakautta olivat IT-käsityöläisyyden aikakausi sekä IT-teollisuuden aikakausi.

Digitalisaation aikakaudella keskitytään liiketoimintamalleihin kun IT-teollisuus kiinnitti erityistä huomiota tuotantoon ja IT-käsityöläisyys painotti teknologiaa. Gartnerin mukaan digitaalinen johtajuus ja näkemyksellisyys ovat kultaakin arvokkaampaa osaamispääomaa.

ETLA-raportissa no 41 “Suomalainen teollinen internet – haasteesta mahdollisuudeksi” (PDF), digitalisaation suora määritelmä kuvataan seuraavasti:

Digitalisaation suora määritelmä on digitaaliteknologian integrointi jokapäiväiseen elämään  digitoimalla kuvaa, ääntä, dokumenttia tai signaalia biteiksi ja tavuiksi kuvaamaan asioita ja  tietosisältöä.

ETLA:n raportti suuntaa määrittelyä myös Gartnerin suuntaan toteamalla, että digitalisaatio ei ole pelkästään digitaalisen tiedon hallintaa yritysten lukuisissa tietojärjestelmissä, vaan uuden arvon tuottamista tiedon avulla.

Tulevaisuudentutkimuksen jatko-opiskelija Miikka Heinäsmäki tarkoittaa digitalisaatiolla

digitaalista uusiutumista eli digiteknologian integrointia kaikkeen organisaation toimintaan.

Jossain määrin samalla linjalla on myös BusinessDictionary.com:

Integration of digital technologies into everyday life by the digitization of everything that can be digitized.

Valtiovarainministeriö kuvailee digitalisaatiota oman Digitalisaatiohaaste 2015 -esittelyn yhteydessä seuraavin sanoin:

Digitalisaatio on sekä toimintatapojen uudistamista, sisäisten prosessien digitalisointia että palveluiden sähköistämistä. Kyse on isosta oivalluksesta, miten omaa toimintaa voidaan muuttaa jopa radikaalisti toisenlaiseksi tietotekniikan avulla.

Kuten jo tästä voidaan havaita, digitalisaatiota ei saa kaupasta hyllyltä eikä sitä voi asentaa mihinkään. Kyse on toiminnan muuttamisesta ja digitaalisten välineiden tuomista jotakuinkin kaikkeen tekemiseen ja sitä kautta uuden arvon tuottamista tai tuottavuuden parantamista.

Digitalisaatio ja talous

Digitalisaatio ei ole mikään irrallinen ilmiönsä, vaan yhteydessä kaikkeen muuhun tekemiseen kuten McKinsey & Company kuvailee Työ- ja elinkeinoministeriön julkaisussa Palvelutalouden murros ja digitalisaatio – Suomen kasvun mahdollisuudet (Työ- ja elinkeinoministeriön julkaisuja 12/2015). Kuvauksen mukaan digitalisaatio globalisoi nopeasti monien palvelujen markkinoita ja mahdollistaa samalla tuottavuuden huomattavan kasvun.

Julkaisussa McKinsey & Company luettelee digitalisaation 5 murrosta:

  1. Koko prosessin digitalisoituminen
  2. Monikanavainen ja digitaalinen kuluttajakokemus
  3. Digitaalinen tuotekehitys
  4. Big dataan perustuvat liiketoimintaa koskevat päätökset
  5. Kilpailun kiristyminen

Samaan viittaa myös Aalto-yliopiston kauppakorkeakoulun professori Matti Pohjola Teknologiateollisuus ry:n raportissa Suomi uuteen nousuun – ICT ja digitalisaatio tuottavuuden ja talouskasvun lähteinä (PDF):”Digitalisaation myötä tietotyötä katoaa kokonaan, siirtyy asiakkaiden itsensä suoritettavaksi ja ulkoistetaan alemman palkkatason maihin. Tietotyön digitalisoinnin pitäisi näkyä kokonaistuottavuuden kasvuna”.

Digitalisaation pitäisi siis kasvattaa tuottavuutta, mutta samalla digitalisaatio saattaa johtaa siihen, että Suomesta tulee palveluiden nettotuoja. Tämä ei ole ihan yksinkertainen yhtälö kun muistetaan, että palvelut ovat olleet Suomen talouden yksi selkärangoista viime aikoina.

Digitalisaatio ei ole mikään talouden hopealuoti, joka poistaa byrokratian ja kaiken muun ikävän, vaan se on pikemminkin talouden paradigman muutos. Tuskin menee kovin paljoa huti jos toteaa, että paradigman muutokset ovat yleensä kaikkea muuta kuin helppoja.

Digitalisaatio ja hallitusohjelma

Pääministeri Sipilän hallituksen ohjelmassa (PDF) digitalisaatioon viitataan useasti ja onpa aiheesta oma lukunsakin aiheesta otsikolla “Digitalisaatio, kokeilut ja normien purkaminen”.  Ohjelmassa ei varsinaisesti määritellä käsitettä, mutta kuvaillaan asiaa mm. näin:

“Suomen kilpailukyky rakentuu korkealle osaamiselle, kestävälle kehitykselle sekä ennakkoluulottomalle uudistamiselle kokeiluja ja digitalisaatiota hyödyntäen” (s. 7)

“Oppimisympäristöjä on modernisoitu, digitalisaation ja uuden pedagogiikan mahdollisuuksia hyödynnetään oppimisessa.” (s. 17)

“Suomi on ottanut tuottavuusloikan julkisissa palveluissa ja yksityisellä sektorilla tarttumalla digitalisaation mahdollisuuksiin ja purkamalla turhaa sääntelyä ja byrokratiaa.” (s. 26)

“Toimintatavat uudistaen rakennetaan julkiset palvelut käyttäjälähtöisiksi ja ensisijaisesti digitaalisiksi, jotta julkisen talouden kannalta välttämätön tuottavuusloikka onnistuu. Kehittämisessä priorisoidaan palvelut, joissa tuottavuushyöty on suurin. Digitalisaatio on hallituksen strategian läpileikkaava teema.” (s. 26)

“Hallinnon sisäiset prosessit digitalisoidaan ja entiset prosessit puretaan.” (s. 26)

“Valtioneuvostossa vahvistetaan digitalisaation muutosjohtamisen organisointia.” (s. 26)

“Sisäisen turvallisuuden ja oikeudenhoidon palvelutasoa parannetaan digitalisaation ja uusien teknologioiden avulla.” (s. 36)

Digitalisaation kytkeminen poliittisessa tavoitteistossa kokeilukulttuuriin tai normien purkamiseen on perusideaa vasten ihan perusteltua.

Yhdistelmällä pyritään muuttamaan toimintakulttuuria ja toiminnan edellytyksiä niin, että saadaan aikaiseksi uutta tuottavuutta. Hallitusohjelma on siis olennaisen jäljillä, käytännön keinoista ei tätä kirjoitettaessa (07/2015) vielä ole tietoa.

Yksittäisistä tavoitteista ehkä olennaisin ja haastavin on “digitalisaation muutosjohtamisen organisointi“, sillä siinä lähdetään muuttamaan johtamistyyliä, -ideologiaa ja -tapaa yli hyvin erilaisten toimintakulttuuri- ja käsiterajojen. Tässä onnistuminen antaa kuitenkin varsin paljon eväitä tulevaisuudelle, joten sitä kannattaa myös tavoitella (myös muissa organisaatioissa kuin maan hallituksessa).

Digitalisaation portaat

Mitä tuo edellä kerrottu tarkoittaa palveluiden tuottamisessa?

Digitalisaatiossa on siis kyse toimintatapojen tai prosessien muuttamisesta digitaalisia välineitä hyödyntämällä. Digitalisaatio ei ole pelkästään uusien teknologioiden käyttöönottoa tai ohjelmistohankintoja, jos niihin ei liity toimintatapojen muutosta ja vieläpä niin, että tuo muutos tuo lisäarvoa.

Onko tässä mielessä esimerkiksi digitaalisten palveluiden tuotantomallin muutos digitalisaatiota? No ei oikeastaan, sillä kysehän on vain sen palvelun tuotannon muutoksesta, ei itse toiminnan muuttamisesta.

Suomeksi sanottuna, IT-palvelun siirtäminen perinteisestä toteutusmallista pilvipalveluksi ei itsessään ole vielä digitalisaatiota (mutta mikäli samassa yhteydessä muutetaan toimintatapoja, se voi olla osa sitä). Yleensä onkin niin, että palveluiden teknisen toteutustavan pähkäileminen kannattaakin työntää hetkeksi syrjään sen olennaisemman kysymyksen tieltä eli mitä se tarkoittaa, kun muutetaan toimintaa. Sen palvelun sijoituspaikan ehtii määritellä myöhemminkin.

Kun palveluita digitalisoidaan, voidaan hommassa erottaa erilaisia kypsyysasteita, joista alkeellisimmat eivät edes ole määritelmällisesti digitalisaatiota, vaan olemassa olevien prosessien sähköistämistä:

1. Saatetaan tieto prosessista saataville

Kun perinteinen prosessi toimii usein organisaatiossa jonkin lomakkeen varassa, niin tämä digitalisaation esiaste tarkoittaa sitä, että käyttäjä saa prosessiin liittyvät tiedot verkosta ja voit mennä noutamaan lomakkeen ja tulostaa sen itse myöhempää käyttöä varten. Prosessi jatkuu tästä usein kuten ennenkin.

Esimerkkejä tällaisista palveluista useista organisaatioista (esim. yliopistolta) löytyy esimerkiksi Suomi.fi-palvelusta. Tämä on yhä edelleen hyvin yleinen tapa tuottaa palvelua.

Hallitusohjelman toteuttajille vinkiksi; kun digitalisoitavia asioita etsitään, niin noista suomi.fi:n tulostettavista lomakkeista kannattaa aloittaa ja digitalisointi kannattaa tehdä kerralla loppuun asti (kts. kohdat 5 ja 6) eikä niin, että siirrytään seuraavaan vaiheeseen ja unohdetaan se vuosiksi sinne.

2. Tehdään asian käsittelyn vireillepano mahdolliseksi digitaalisilla välineillä

Kun paperilomake viedään sellaisenaan verkkoon jonkinlaiseksi nettilomakkeeksi, joka toimittaa tiedot käsittelijälle joko järjestelmässä tai vaikkapa sähköpostissa, päästään jo hieman eteenpäin, mutta vieläkään ei oikeastaan olla digitalisoitu mitään, sillä varsinaista toimintaprosessia ei tässäkään tapauksessa vielä ole paljoa muutettu. Entinen prosessi on osin viety verkkoon.

Näitäkin löytyy nykyään verkosta koko joukko (myös tuolta suomi.fi:stä) ja sinänsä hyvä niin, sillä pelkästään käyttäjän elämän helpottaminen on yhteiskunnassa hyödyllistä ja säästää aika muuhun vaikka ei varsinaisesti prosessin tuottavuuteen suurta muutosta muilta osin tekisikään.

3. Hyödynnetään olemassa olevia tietoja

Seuraavassa vaiheessa esimerkiksi noihin em. lomakkeisiin voidaan tuottaa jo valmiiksi taustajärjestelmistä tiedot (joko sellaisenaan tai rikastettuna), jolloin käyttäjän ei tarvitse niitä syöttää uudestaan. Jos toimintaprosessi tai palvelu itsessään ei tästä ole kehittynyt, niin oikeastaan vieläkään ei olla päästy varsinaiseen digitalisaatioon käsiksi.

Tässä vaiheessa on kuitenkin mukana jo järjestelmästä saatava tai siihen integroitava taustadata eikä käyttäjän tarvitse itse täytellä enää kaikkia asioita. Esimerkiksi kelpaa vaikkapa esitäytetty veroilmoitus.

Yliopistolla on nykyinen matkanhallinta jossain määrin tällä tasolla eli matkalasku syntyy matkamääräyksen yhteydessä annetuista pohjatiedoista ja henkilön työsuhteeseen liittyvistä tiedoista varsin kivuttomasti.

Viimeistään tässä vaiheessa palvelun toteutukseen tulevat mukaan integraatiot ja niiden edellyttämät arkkitehtuurit. Niiden tekemisen luonne poikkeaa usein tavallisen verkkopalvelun toteutuksesta ja edellyttävät selvästi tarkempaa sekä huolellisempaa tietojen määrittelyä.

Mihin tietolähteisiin luotetaan? Mitä jollain tiedolla tosiasiassa tarkoitetaan? Mitä palveluun halutaan toimittaa? Mitä tietoa sieltä halutaan saada? Missä muodossa ja kuinka usein? Mihin vasteaikoihin pyritään? Ja niin edelleen.

Kokeilukulttuuria tai ei, niin integraatiot eivät onnistu luotettavasti ilman noihin ja aika moneen muuhun kysymykseen vastaamista ennen kuin palvelu päästetään nk. tuotantoon. Koska mikäänhän ei ole niin viheliäistä ja toimintatapojen muuttamiselle tuhoisaa kuin antaa keskeneräinen palvelu käyttäjien “testattavaksi” ennen kuin se on toteutettu ja testattu kunnolla.

4. Tietojärjestelmät käyttävät dataa

Jos toimintaa muutetaan niin, että taustadataa ja tietojärjestelmiä käytetään itse prosessin toteuttamiseen, että entinen toimintamalli muuttuu pysyvästi, ollaan jo digitalisaation tiellä. Tämän vaiheen ensimmäinen askel on se, että tehdään entinen prosessi, mutta annetaan tietokoneen hoitaa se.

Verohallinto sopii tässäkin esimerkiksi. Moni muistaa vielä takavuosien veroilmoitukset, jotka olivat nykyiseen verrattuna varsinaisia askartelukirjoja. Niiden täyttämiseen meni runsaasti aikaa ja ohjeet vaativat kehittyneempää sisälukutaitoa. Kuitteja kerättiin koko vuosi ja läheteltiin pieni kirjekuori pursuten verottajan tutkittavaksi.

Ei askarella kokonaista iltaa enää. Verottaja on jo pidempää saanut tietoja muilta toimijoilta suoraan omiin järjestelmiinsä ja esimerkiksi tiedot maksetuista työttömyyskassamaksuista suoraan kassalta. järjestelmä siirtävät ja hoitavat laskennan veronmaksajan puolesta ja veronmaksajan tarvitsee puuttua asiaan vain jos joku on mennyt vikaan tai jotain puuttuu.

5. Digitalisoidaan prosessi

Varsinaiseen digitalisaatioon päästään silloin kun suunnitellaan prosessi uusiksi niillä ehdoilla, joita digitaaliset välineet ja niiden käyttämä data antavat. Ei muokata vanhaa prosessia digitaaliseksi sellaisenaan, vaan tehdään kokonaan uusi tai muutetaan prosessia merkittävästi.

Esimerkiksi passin hakeminen  ja toimitus nykyään eräiden ehtojen täyttyessä menee varsin eri tavalla kuin aiemmin. Nykyään passin hakijan ei kaikissa olosuhteissa tarvitse asioida poliisin kanssa fyysisesti lainkaan. Hakemus tehdään verkossa, valokuva toimitetaan suoraan valokuvaamosta poliisille ja passi haetaan siitä R-kioskista, jonka hakija on ilmoittanut mieleisekseen. 1980-luvulla kukaan ei uskonut, että keskioluen myynti kioskissa olisi koskaan mahdollista, mutta siitä sentään ymmärrettiin keskustella. Virallisen passin hakeminen kioskilta ei olisi tullut mieleen edes sarjakuvissa.

Toinen esimerkki voisi olla vaikkapa MOOC eli verkkokurssi, jota voi tarjota isolle osallistujajoukolle kerrallaan. Sen lisäksi, että opetus on tehtävineen kokonaan verkossa ja perinteinen kontaktiopetus puuttuu usein tyystin, opetusta voidaan kopioida (mikä on yksi digitaalisten prosessien etu). Sama kurssi voidaan järjestää vaikka viikottain verkossa tai ilman mitään aikataulua ja opiskelija voi suorittaa kurssia haluamassaan aikataulussa. Toiminnan tapa on aika erilainen kuin perinteisessä mallissa.

Sivuhuomautuksena todettakoon – kun asiaan viitataan hallitusohjelmassakin – että MOOCien kustannustehokkuuden suhteen ei kannata elätellä liiallisia toiveita. Ei ainakaan lyhyellä aikavälillä tai pienillä osallistujamäärillä, sillä toimivan MOOCin valmistaminen ei ole ihan niin yksinkertainen juttu kuin voisi kuvitella.

Tähän kehityksen vaiheeseen, ellei jo aikaisempiin, kuuluu myös mm.  tietojen uudelleenkäytettävyys ja avaaminen, palveluiden tuottamisen automatisointi, yhteisöllisyyden hyödyntäminen palveluiden suunnittelussa ja toteutuksessa ja niin edelleen. Tässä vaiheessa ei enää eletä maailmassa, jossa on palveluiden tuottajia ja niiden käyttäjiä, vaan eri osapuolet etsivät toisistaan kumppaneita pyrkien luomaan ekosysteemejä, joissa toimitaan yhdessä.

Suurin osa palveluistamme ei ole vielä tällä kypsyysasteella, mutta tänne kannattaisi pyrkiä ja mieluiten niin, että ei välillä turhaan digitalisoida sitä vanhaa prosessia. Näin toimittaessa saavutetaan digitalisaation todelliset hyödyt nopeammin.

6. Poistetaan koko prosessi

Joissakin tapauksissa digitalisaatioon liittyy se, että poistetaan kokonaisia prosesseja tai niiden osia. Tällaiset ratkaisut eivät välttämättä ole aina varsinaisesti välineistä tai teknologioista kiinni, vaan enemmänkin päätöksenteosta ja toiminnan ohjaamisesta.

Onko yhteiskunnassamme poistettu kokonaisia prosesseja? On. Esimerkiksi TV-lupa. Moni kenties vielä muistaa kuinka TV:n käytöstä piti maksaa erillinen televisiomaksu ja sitä vahtivat erikseen televisioluvan tarkastajat (sivuhuomautuksena muisteltakoon, että joskus oli myös radiolupa, jota valvottiin). Nykyään maksu on siirretty maksettavaksi Yle-verona ja tarkastustoiminta on lopetettu.

Iso kysymys on se, mitä sellaisia asioita organisaatioissa ylipäätänsä tehdään, jotka voidaan joko jättää kokonaan tekemättä tai kytkeä johonkin muuhun toimintaan? Kun organisaatio tarkastelee omaan toimintaansa ja kysyy, onko kaikki tekeminen organisaation toiminnan vision ja strategisten tavoitteiden saavuttamiseksi tarpeellista, niin voidaan päästä esimerkiksi siihen, että luovutaan kehityskeskusteluista lomakkeineen.

Joka tapauksessa digitalisaatio vaatii päätöksiä, prosessien muokkaamista, henkisten ja hallinnollisten esteiden poistamista, priorisointia sekä etenkin strategista ajattelua kehitystoiminnassa. Teknologia tulee kyllä perässä ja sitä on jo ihan tarpeeksi.

Lopuksi

Kaikki digitalisaatiota toteuttavat törmäävät vääjäämättä muutosvastarintaan. Se on haitaksi silloin kun se estää järkeviä ja mielekkäitä oikeasti tuottavuutta sekä tekemisen tehokkuutta lisääviä muutoksia.

Muutosvastarinta voi olla hyödyllistä silloin kun hypetys asian tiimoilta ohittaa kokeilukulttuuriinkin kuuluvan harkinnan ja digitalisaation tuoman “talouden pyörremyrskyn” sekä käynnissä olevan “suurimman talouden murroksen sitten maanviljelystaidon kehittymisen tai teollisen vallankumouksen” kuvitellaan olevan paikoissa, joissa ei se ei kuitenkaan ole. Koheltaminen ei ole kehitystä.

Ja mitäs se Digitalisaatio 2.0 on?

Se on sitä, että verkkoon kytketyt laitteet, tuotteet ja muut hyödykkeet tuottavat valtavasti dataa käytettäväksi niin, että voidaan puhua älykkäistä koneista, esineistä, tuotteista ja palveluista. Se on kuitenkin jo toinen juttu se.

 

EDIT 30.7.2015 klo 11.35: Tämän blogin entinen nimi oli Sähköistä asiointia, mutta muutin sen nyt lyhyempään ja kenties ajanmukaisempaankin muotoon “Digit”. Ehkä tänne tulee kirjoiteltuakin useammin kun ei tarvitse kiinnittyä liikaa “asiointiin”.

Luottamus internetiin on koetuksella

Kuka muistaa aikaa, jolloin WWW:n käyttö kaikkine foorumeineen oli vielä nuorta? Siis joskus 1990-luvun puolivälissä.

Silloin (ja jo ennen koko WWW:tä muilla areenoilla) puhuttiin netiketistä ja internet-yhteisön itseohjautuvuudesta. Siis siitä, että on löyhästi yhdessä sovitut tavat toimia ja käyttäytyä verkossa. Kyseessä oli ajatus yhteisöstä, joka osaisi itse säädellä omaa toimintaansa.

Tuollainen toimintamalli onnistuakseen vaatii paljon luottamusta.

Luottamusta vaati sekin, että tuohon aikaan ei netissä ollut kovinkaan kummoisesti käytössä salaustekniikoita tai suojauksia, toisin kuin nykyään.

Itse itseään säätelevä yhteisöllisyys ei toteutunut ja netiketit on korvattu lainsäädännöllä ja muilla säädöksillä.

Luottamus on sekin kadonnut.

Edward Snowdenin paljastusten myötä on julkisuudessa kerrottu, että

“Pari sataa miljoonaa euroa vuodessa maksavassa Bullrun-ohjelmassa amerikkalaisagentit muun muassa painostavat ja lahjovat teknologiayrityksiä ujuttamaan murtokohtia ohjelmiinsa.”

Teknologiaa tuntevat tietävät, että tuo on mahdollista ja että periaatteessa takaportit tai vastaavat on mahdollista pistää sovellusten koodiin niin, että siitä kiinni jääminen on epätodennäköistä.

Kun valtiot ja niiden organisaatiot käyttävät kaikkia keinoja murtaakseen VPN:n ja SSL:n kaltaisia tekniikoita, murretaan samalla luottamusta. Luottamusta koko internetiin ja sen kanssa toimiseen, ei pelkästään joihinkin valtioihin tai organisaatioihin.

Jos luottamus menetetään, menetetään paljon mahdollisuuksia, joita internetillä on ollut erilaisten palveluiden toteuttamisessa.

Ajatellaan nyt vaikka verkkopankkeja. Ne on suojattu SSL:llä, jolla suojattua tietoliikennettä jutun mukaan “tiedustelupalvelut voivat lukea reaaliajassa”. Verkkopankkien tarjoamaan TUPAS-tunnistautumistahan me käytämme nykyään esimerkiksi veroilmoituksissa jne. Kaiketikaan käyttäjät nyt eivät näitä palveluita suin päin hylkää, mutta varautuminen ja esimerkiksi pankkitoiminnan luottamuksellisuuden turvaaminen uusin keinoin voi olla hyvinkin hidasta ja kallista puuhaa. Yksinkertaisemmista asioista puhumattakaan.

Kyse ei ole siitä onko meillä yksilöinä jotain salattavaa vai ei, vaan siitä, että meillä on oikeus pitää asioita omana tietonamme. Meillä on oikeus luottaa siihen, että myös järjestelmä kunnioittaa meidän perustavaa laatua oikeuksiamme. Voimmeko luottaa edes siihen?

 

Pilvi ja vakoiluskandaali

Kesän kuluessa esiin pompannut nettivakoiluskandaali (kts. linkit artikkelin lopusta) ei ole esimerkiksi yliopistojen kannalta aivan sivuseikka, vaikka julkisuuden perusteella voisikin kuvitella, että asia koskettaa enimmäkseen valtioita ja niiden turvallisuusorganisaatioita.

Skandaalissa on kyse siis siitä, että jo pitempään uumoitu ja tiedetty turvallisuusviranomaisten toteuttama – laillinen tai laiton – nettiliikenteen urkinta sai todisteita.

Netin käyttäjien toimia seurataan ja voidaan seurata erilaisin automaattisin menetelmin. Käyttäjiä voidaan profiloida ja sen peruteella poimia tarkempaan seurantaan. Dataa tallennetaan huikeita määriä ja analysoidaan huikealla vauhdilla. Esimerkiksi USA:n käytettävissä olevat resurssit ovat hyvin mittavat.

Menemättä yksityiskohtiin, niin tietojen urkintaa tehdään ainakin kahdella tavalla, todennäköisesti useammallakin. Ensinnäkin verkossa on palvelimia ja solmukohtia, joiden läpi menevää liikennettä seurataan ja toisaalta esimerkiksi Facebookin, Googlen, Microsoftin jne. palveluihin ja dataan on tiedusteluviranomaisilla omat pääsynsä. Näillä keinoin valtaosa esimerkiksi tavallisesta sähköpostiliikenteestä, tiedostojen jakopalveluista, yleisesti käytettävistä pilvipalveluista tai sosiaalisen median palveluista on tämän urkinnan piirissä.

Miten tämä sitten koskettaa esimerkiksi yliopistoja?

Yliopistoissa pohditaan ja harkitaan erilaisten pilvipalveluiden käyttöä ja IT-palveluiden ulkoistamista pilveen. Keskeinen argumentti tässä harkinnassa näyttää olevan raha sekä pilvipalveluista saatava palveluntarjonta. Eräät palveluntarjoajat kun tarjoavat maksutta palveluitaan pilvestä ja joskut varsin huokeasti. Yritykset, jotka tuottavat merkittävää voittoa vuodesta toiseen eivät ilman jonkinlaista liiketoimintamallia annan palveluitaan ilmaiseksi käyttäjille.

Yksi argumentti pilvipalveluiden käyttämisen puolesta on ollut se, että palvelun tarjoajat ovat sitoutuneet Safe Harbour -kriteereihin, jolloin esim. USA:ssa tuotettua palvelua voitaisiin käsitellä kuin se olisi EU:ssa tuotettua. Muuten hyvä, mutta tiedusteluasiat eivät kuulu Safe Harbourin piiriin.

Laajemmin pilvipalveluiden käytön problematiikkaa on tässä blogissa käsitelty jo aikaisemmin (http://blogs.helsinki.fi/avtenhun/2012/03/28/pilven-reunoja/), joten ei niistä nyt sen enempää.

Jos esimerkiksi yliopisto hankkii sähköpostit ja kalenteripalvelut sekä tiedostonjakopalveluita pilvipalveluista, samalla yliopisto tulee antaneeksi kaikkien käyttäjiensa (opiskelijoiden, opettajien, tutkijoiden ja muiden) datan näiden maiden turvallisuusviranomaisten analysoitavaksi, profiloitavaksi ja arkistoitavaksi.

Joku voisi todeta, että mitäs sillä nyt on väliä, ei minulla ole mitään salattavaa. Ei ehkä juuri nyt eikä ehkä juuri yliopiston palvelussa, mutta ainakin seuraavat näkökohdat on huomioitava:

  • Tiedusteluviranomaiset yms. kykenevät yhdistelemään eri lähteistä saamiaan tietoja, jolloin he voivat nähdä asioita, joita muuten käyttäjä ei kenties haluaisi kertoa.
  • Yliopistot kouluttavat esimerkiksi Suomessa tulevaisuuden virkamiehet, valtiojohdon tai vaikkapa sotilasjohtoa. Se mitä tietoja heistä nyt kerätään voi vaikuttaa asioiden kulkuun vasta vuosikymmenten päästä. Tuskin tarvitsee olla terroristikandidaatti päästäkseen tiedusteluviranomaisten seurantaan. Tiedossahan on se, että esim. USA vakoilee EU:ta jne.
  • Yliopistoissa tehdään myös merkittäviä keksintöjä, joissa voi olla kyse jatkossa hyvinkin mittavista taloudellisista arvoista ja immateriaalioikeuksista. Skandaalin keskellä on noussut esiin myös epäilyvä siitä, että tietoja vuotaa kansallisilta tieodusteluviranomaisilta kyseisen maan yrityksille. Ehkä tutkimuksessa ja kehityksessä on olemassa oma dopingjärjestelmänsä, jonka seurauksena toisten yritysten tuotekehitys on tehokkaampaa kuin toisten.
  • Lopuksi kyse on ihmisen perusoikeuksista eli oikeudesta luottamukselliseen viestintään  ja oikeutta olla suojassa valvonnalta ilman yksilöityä rikosepäilyä. Nämä eivät ole yksilön oikeuksia, jotka voidaan sivuuttaa esimerkiksi yksittäisen organisaation taloudellisilla näkemyksillä.

Tällä hetkellä pilvipalveluiden paletti on sekä periaatteellisella tasolla että poliittisesti varsin sekaisin. Ei riitä, että esimerkiksi yhdysvaltalaiset yritykset vakuuttavat hyviä pyrkimyksiään ja lojaalisuuttaan asiakkaille, sillä myös se vaatii luottamusta, joka on skandaalin myötä saanut pahan kolauksen.

Suomen valtion ja toisaalta EU:n on tuotava omat linjauksensa ja toimensa esiin.

Nykyisessä tilanteessa on helppoa olla TY:n tietoturvapäällikkö Mats Kommosen kanssa samaa mieltä: “Olen sitä mieltä, että varsinkaan oppilaitokset tai kunnat eivät saa siirtää palveluitaan amerikkalaispilveen; uusia sopimuksia ei kertakaikkiaan saa tässä tilanteessa tehdä ennenkuin EU on tehnyt puolestamme jotain merkittävää ja uskottavaa.”

Linkkejä: