Kukaan ei halua dataa

MC_jussa klapuri2“Datan todellinen arvo syntyy siitä, miten hyvin siitä voidaan johtaa vastauksia. Aivan kuten raakamalmi on arvokasta vain, jos siitä saadaan jalostettua metallia”, kirjoittaa Master Class -osallistuja Jussa Klapuri.

Onko mahdollista pelkistä rannekellon kiihtyvyyssensorin tekemistä mittauksista tunnistaa vakava epilepsiakohtaus kaikkien muiden käden liikkeiden seasta? Vastaus on kyllä ja tämä on yksi esimerkki niin kutsutun datatieteen sovelluksista.

Viime aikoina monissa yhteyksissä on voinut törmätä käsitteisiin: “data science”, “big data” tai “open data”. Big data -termin suosio on lisännyt tietoutta datan hyödyntämismahdollisuuksista mitä moninaisimmissa yhteyksissä riippumatta siitä, onko hyödynnetty datamäärä oikeasti massiivista, kuten kissavideoita seulottaessa Youtubesta, vai hyvin jalostettua, kuten epilepsiakohtauksia tunnistettaessa.

Big datalle on monia määritelmiä. Mediassa sitä monesti käytetään markkinointiterminä hieman harhaanjohtavasti kuvaamaan ylipäänsä digitaalista dataa. Hieman teknisemmästä näkökulmasta big data viittaa yleisesti niihin palveluihin, tuotteisiin ja teknologioihin, joilla suuren tietomäärän haastetta pyritään ratkomaan.

On havaittu, että siinä missä laskentakapasiteetti kaksinkertaistuu noin 18 kuukauden välein kuuluisan Mooren lain mukaisesti, tallennuskapasiteetti kaksinkertaistuu 13 kuukauden välein Kryderin lain mukaisesti. Osittain tästä syystä suurimpia tietomassoja on pystytty kustannustehokkaasti hyödyntämään vasta viime aikoina. Tällaisia datamassoja syntyy muun muassa sosiaalisesta mediasta, videoista, eri laitteiden sensoreista ja monilta tieteenaloilta, kuten genomiikasta ja tähtitieteestä. Esimerkiksi tuleva LSS-teleskooppi (Large Synoptic Survey Telescope) kuvaa yötaivasta jopa 30 teratavun verran (eli 7000 DVD-levyä) joka yö. Näin suurta kuvamassaa ei ihmissilmin voida analysoida. Lisähaasteen tuo vaatimus analysoida kaikki uudet kuvat alle 60 sekunnissa, jotta nopeasti ohimenevistä havainnoista voidaan tiedottaa muita teleskooppeja.

Entinen Royal Statistical Societyn puheenjohtaja David J. Hand tiivisti Intelligent Data Analysis -konferenssin avauspuheenvuorossa, että juuri kukaan ei oikeasti halua dataa, vaan kaikki haluavat vastauksia. Datan todellinen arvo syntyy siitä, miten hyvin siitä voidaan johtaa vastauksia. Aivan kuten raakamalmi on arvokasta vain, jos siitä saadaan jalostettua metallia. Sama analogia pätee raakadataan ja siitä jalostettavaan informaatioon.

Avoimella datalla viitataan (usein massiivisiin) aineistoihin, jotka ovat julkaistu suuren yleisön vapaaseen käyttöön. Kyseessä voi olla esimerkiksi yrityksen tarve kehittää tehokkaampia suosittelualgoritmeja, kuten miljoonan dollarin Netflix Prize -kilpailussa vuonna 2006, tai kaupungin tarve saada kiinni laittomasti rasvaa dumppaavia ravintoloita. Jälkimmäisessä tapauksessa New Yorkin kaupungin julkaisemasta datasta löytyi varsin selkeä yhteys viemäristön rasvatukosten ja ravintoloiden sijainnin välillä.

Helsingissä järjestetään avoimeen dataan liittyen syksyllä Avoin Suomi 2014 -messut, jossa yhteistyökumppaneina ovat pitkälti kaikki relevantit tahot koko Suomesta. Lisäksi jos ohjelmointi tai avoimen datan visualisointi kiinnostaa, kannattaa ottaa osaa myös Apps4Finland-kilpailuun. Ehkäpä jonkin Master Class -ryhmän jatkokehitetty idea soveltuisi suoraan kilpailutyöksi?

Mieleeni jäi kytemään Lammin työpajasta ajatus siitä, että datatiedettä voisi hyödyntää joidenkin Master Class -haasteiden ratkaisemisessa. Esimerkiksi Silta-työryhmä voisi positiviisia työllistymissiirtymäriittejä pohtiessaan hyödyntää suosittelujärjestelmää yhdistämällä työnantajat ja -hakijat tehokkaammin. Elämänvalintageneraattori-työryhmä taas voisi hyödyntää koneoppimista yksilöllisempien polkuvaihtoehtojen etsimisessä eri tilanteissa oleville nuorille.

Ideaa kehitellessä kannattaa siis miettiä, voisiko avointa dataa hyödyntää oman ryhmänne haasteen ratkaisemisessa tai voisiko muu yhteiskunta hyötyä teidän palvelunne keräämästä datasta?

Jussa Klapuri työskentelee data scientistina yrityksessä nimeltä Autovista ja on aiemmin tutkinut suosittelujärjestelmiä Aalto-yliopistossa ja epilepsiakohtausten tunnistusta rannekellolla Helsingin yliopistossa.

Asiasta lisää:
Aalto University Magazine 3/2014: Kuva big datasta tarkentuu.
Focus 1/2014: Avoin tieto kuuluu kaikille.
Hand, David J. Data, Not Dogma: Big Data, Open Data, and the Opportunities Ahead.
New York Times 23.03.2013: The Mayor’s Geek Squad.
Google Blog: Using large-scale brain simulations for machine learning and A.I.

Leave a Reply

Your email address will not be published.