Humanisti datamaailmassa: Datan pökerryttävä määrä

”Se määrä dataa, jota jokainen meistä nykypäivänä kerryttää, on historiallisesti täysin poikkeuksellinen. Jätämme jälkemme kaikkialle minne menemmekin.” Historioitsija ja Helsingin yliopiston kirjaston tietoasiantuntija Aleksi Peura pureutuu juttusarjansa toisessa osassa digitalisaatioon ja datan määrän kasvuun, joka vaikuttaa olennaisesti myös historiantutkimukseen – niukkuuden tieteen hukkuessa dataan tutkimusmetoditkin muuttuvat.

Teksti: Aleksi Peura

Aleksi Peura. Kuva: Jussi Männistö

Mitä diginatiivimpi henkilö on, sitä helpompaa on unohtaa kuinka poikkeuksellinen ilmiö suuret datamäärät ovat. Nykyään ei ole lainkaan poikkeuksellista, että tietokoneiden kovalevyjen tilavuudet lasketaan useissa teratavuissa (eli tuhansissa gigatavuissa eli miljoonissa megatavuissa eli miljardeissa kilotavuissa eli biljoonissa tavuissa) – ja että nuo kovalevyt ovat täynnä! Monissa tutkimuksissa muutama teratavu ei ole vielä ns. mitään, vaan datamäärät lasketaan sadoissa teratavuissa tai useissa petatavuissa (eli tuhansissa teratavuissa) – tällaisen datamäärän ylläpitäminen, järjestäminen ja tallentaminen vaativat suunnittelua, jossa allekirjoittanut Helsingin yliopiston datatiimin osana avustaa ja ohjeistaa tutkijoita.

Vielä 1980-luvun alkupuolella scifistinen kovalevy oli kymmenen megatavua (eli pyöristäen 0.000009 teratavua), ja hinta oli tälle aikansa mittapuulla massiiviselle tilaihmeelle yhtä lailla massiivinen 3400 dollaria (nykyeuroissa noin kymppitonnin). Kymmenen megatavun kovalevylle on nykyään erittäin helppo naureskella, koska sille voisi tallentaa parin normimittaisen biisin .mp3-tiedostot. Naureskellessamme voimme samalla miettiä toisaalta teknologista kehitystä, mutta myös datamäärän kasvua, jolle ei näy loppua.

Niukkuuden tiede

Koska olen koulutukseltani historioitsija, olen tottunut niukkuuden tieteeseen: tieteenalana historia tutkii menneisyyttä epäsuorasti eli havainnoimalla menneisyydessä syntyneitä, kirjoitettuja dokumentteja, ei menneisyyttä itseään. Tämä tapahtuu olosuhteiden pakosta, sillä vielä(kään) ei ole keksitty aikakonetta, jolla voisimme matkata menneisyyteen tarkkailemaan tapahtumia etnografisesti (eli paikan päällä havainnoiden). Esimerkiksi emme voi olla paikan päällä havainnoimassa kuinka noitia kuulusteltiin noitavainojen aikana, kuinka ensimmäinen ristiretki valloitti Jerusalemin heinäkuussa 1099 tai mitä muuan nasaretilainen saarnamies tarkalleen sanoikaan patikoidessaan Galileassa ja Juudeassa noin 2000 vuotta sitten. Sen sijaan joudumme tyytymään kuulustelupöytäkirjoihin, kronikoihin ja evankeliumeihin, joista yksikään ei ole niin puolueeton kuin voisi kuvitella tai toivoa. Tästä johtuen emme tiedä paljoakaan varmasti, vaan historiassa joudutaan painimaan aina datan vähyydestä johtuvan epävarmuuden kanssa: emme tänä päivänä tiedä kuin summittain ja varsin suurella virhemarginaalilla esimerkiksi ensimmäiselle ristiretkelle osallistuneiden ihmisten määrän (arviot ovat yleensä haarukassa 50 000–100 000). Tämä ei tietenkään tee historiasta turhaa tai epävarmaa, pelkästään vaikeaa ja luonnontieteisiin verrattuna toisella tavalla toimivaa.

Emme tiedä paljoakaan varmasti, vaan historiassa joudutaan painimaan aina datan vähyydestä johtuvan epävarmuuden kanssa.

Vielä vaikeammaksi tarkkuudella tietäminen muuttuu, kun siirrytään pois yksittäisistä tapahtumista ja tarkastellaan yksittäisiä henkilöitä. Euroopan historian kuuluisimmistakin henkilöistä tiedetään suhteellisen vähän varmaa, koska datamäärä on yksinkertaisesti riittämätön. Jos mietitään aikakautensa (1800-luvun alun) kenties kuuluisinta henkilöä, Napoleon Bonapartea, meillä on hänestä, luonnollisesti, aikansa mittapuilla paljon dataa, joka käsittelee häntä joko suoraan tai epäsuoraan: toisaalta meille on säilynyt hänen kirjeenvaihtoaan, toisaalta tiedämme brittilehdistön kirjoittaneen hänestä paljon. Kaikki tämä käsittelee Napoleonia, mutta ne eivät kerro yksiselitteisiä, konkreettisia asioita hänestä, vaan pikemminkin hänen ylöskirjoittamia ajatuksiaan sekä brittilehdistön mielipiteitä hänestä. Kirjeiden tai lehtikirjoitusten perusteella on vaikea sanoa missä maantieteellisissä koordinaateissa Napoleon oli milloinkin tai ketä hänen seurassaan oli tai millainen hänen vuorokausirytminsä oli. Hän tai joku muu on saattanut sanoa näistä jotakin, mutta ne ovat ainaisesti erehtyväisten ihmisten kirjoittamia asioita, eivät teekkarien, luonnontieteilijöiden tai muiden varmoja vastauksia haluavien henkilöiden mittapuulla riittäviä todisteita.

Jos laskisimme yhteen kaiken Napoleonista suoraan kertovan datan, määrä olisi nykymittapuulla varsin pieni.

Jos laskisimme yhteen kaiken Napoleonista suoraan kertovan datan, määrä olisi nykymittapuulla varsin pieni. Kaikki kirjeet, kaikki muistiot, kaikki puheet – kaikki asiakirjat, joihin on kirjoitettu Napoleonin omia sanoja, ajatuksia tai toimia – täyttäisivät mutuarvioiden joitakin tuhansia konekirjoitusliuskoja tekstiä. Heitetään mukaan vielä aikalaismaalaukset ja -piirrokset, joissa häntä kuvataan mahdollisimman uskottavasti (karikatyyrit ym. putoavat siis pois). Kopioidaan kaikki tekstit .docx tai .txt -tiedostoihin, kopioidaan kuvat .jpeg-tiedostoiksi. Paljonko tilaa tarvitsemme tälle datalle? Vastaus riippuu ensi sijassa kopioitujen kuvien resoluutiosta ja prosessoinnista, mutta jos pidetään kuvien tarkkuus maltillisena, uskallan väittää, että kaikki keräämämme data mahtuu yhteen gigatavuun – ja tämäkin on arvauksena yläkanttiin. Tekstitiedostot eivät paljoa tilaa vie (.txt-muodossa kaikkein vähiten) ja kaikki Napoleonia käsittelevät tekstitiedostot saattaisivat mahtua jopa sille 1980-luvun scifi-kovalevylle.

Keskivertoihmisistä tiedetään vain murusia tästä, jos mitään.

Arkisen dataähkyn äärellä

Digitalisaatio ja datan tallennuskapasiteetti. Lähde: Myworkforwiki / CC BY-SA.

Heitän ilmoille ison väitteen: kenestä tahansa nykyään elävästä ja äly- eli tietotekniikkaa käyttävästä henkilöstä syntyy päivittäin enemmän dataa kuin kenestäkään entisaikojen (1800-luvulla tai aiemmin eläneestä) ihmisestä koko heidän elinaikanaan yhteensä. Yritän todistaa tämän ihmiskokeellani: kirjoitin tänä aamuna ylös kaikki toimeni, joiden luulen tai tiedän jättäneen jäljen jonnekin eli jotka ovat kerryttäneet dataa minusta.

  • Herätyskello kännykässäni soi 7:00, ja torkutin sitä kerran. (Kaikki tämä on epäilemättä tallentunut puhelimeni muistiin tai puhelinvalmistajan palvelimille.)
  • Nousin 7:05 puhelin kädessäni, ja kävelin olohuoneeseen pukeutumaan. (Puhelin tallentaa tai välittää paikkatietoja eli se tietää tarkat liikkeeni.)
  • Sytytin olohuoneeseen valot. (Tämä näkyy sähkönkäytössä, jota sähköyhtiö seuraa ja laskuttaa sen mukaisesti.)
  • Aamutoimieni yhteydessä katsoin kaksi Youtube-videota, joista toisen jätin kesken. (Youtube-applikaatio sekä -tilini tietävät mitkä videot katsoin ja kuinka pitkälle.)
  • Aamiaista kokkaillessa ja syödessä kuuntelin ja katselin Ylen edellisillan puoliyhdeksän uutisia. (Areena-applikaatioon ja/tai -palvelimille jäi tieto tästä.)
  • Kello 7:43 lähdin aamukävelylleni, jonka ajan kuuntelin Bookbeatista äänikirjaa. (Tarkka reittini tallentui puhelimeni kautta jollekin palvelimelle, Bookbeat tietää myös kuuntelusessioni pituuden ja kuuntelemani kirjan.)
  • Aamulenkin jälkeen kävin suihkussa. (Koska vesi tulee jostakin, sen käytöstä kerätään tietoa.)
  • Käynnistin työpuhelimeni sekä -tietokoneeni ja kirjasin työaikani alkaneeksi. (Tiedot näistä menivät luonnollisesti eteenpäin tai tallentuivat jonnekin.)
  • Avattuani läppärin, olen tehnyt töitä kaksi tuntia, ja koneeni, internetpalveluntarjoaja ja selaimeni tietävät kuinka tuo aika on kulunut: kuinka monta kertaa olen googlannut jotakin, kuinka monta kertaa olen katsonut sähköpostiani, kuinka monta viestiä olen laittanut Teamsissa, kuinka pitkiä taukoja olen ottanut töiden tekemisestä… Kaikesta tästä – ja paljosta muusta! – on epäilemättä tietoa, jossakin.

Näitä sanoja kirjoittaessani olen ollut hereillä tänään neljä tuntia ja jo nyt olen kerryttänyt hirmuisen määrän dataa monille eri palvelimille ja laitteille. Jätin ylle kirjoittamastani pois kaikkein spekulatiivisimmat tiedot, joita puhelimet ja tietokoneet eivät virallisesti ainakaan kerää – ne eivät virallisten tietojen mukaan kuuntele jokaista sanaani tai kuvaa minua salaa – mutta silti datan määrä on sanalla sanoen pökerryttävä. Pelkästään tänä aamuna kerryttämäni datan kuvailulla eli metadatalla saa erittäin tarkan kuvan siitä, miten elämääni elän. Tähän kaikkeen kun vielä yhdistää läheisteni, kaverieni, kollegoiden tai ohikulkijoiden datat ja metadatat, koko elämäni ja sen aikana syntyvät kontaktit on kartoitettu.

Se määrä dataa, jota jokainen meistä nykypäivänä kerryttää, on historiallisesti täysin poikkeuksellinen. Jätämme jälkemme kaikkialle minne menemmekin, halusimme sitä tai emme – ja tulevaisuudessa, kun yhä useammat laitteet (jääkaapit, hellat, pesukoneet…) kytketään internettiin, jätämme jälkiämme vielä moninaisimpiin paikkoihin. Jos Napoleonin elämästä kertovat asiat olisivat mahtuneet muutamalle kymmenen megatavun kovalevylle, jokaista meitä varten tarvitaan teratavuja. Ainakin.

Se määrä dataa, jota jokainen meistä nykypäivänä kerryttää, on historiallisesti täysin poikkeuksellinen.

Tulevaisuus on jo (joillekin) täällä

Tulee olemaan kiinnostavaa nähdä, kuinka tulevaisuudessa tutkitaan nykyaikaa. Jos lähdetään niistä naiiveista (?) oletuksista, että tulevaisuudessa A) tutkitaan historiaa ja B) ei olla keksitty aikakonetta, historiantutkimus tulee olemaan hyvin erilaista kuin mitä se on tähän saakka ollut. Niukkuuden tiede hukkuu dataan: Napoleonin sijaintitietoja voimme päätellä loogisesti hänestä kertovista faktoista (esimerkiksi Austerlitzin taistelun, 1.12.1805, aikana on suhteellisen varmaa, että Napoleon himmaili nykyisen Tšekin alueella sijaitsevan Brunn-nimisen kaupungin lähellä), mutta jos joku haluaisi kartoittaa (syistä joita en edes halua arvuutella) allekirjoittaneen liikkeitä vapaavalintaisena päivänä, hänellä olisi käytössään säännöllisesti päivittyvä lista tarkoista GPS-sijainneistani. Kaikesta muusta datasta ja metadatasta puhumattakaan.

Historiantutkimuksessa on otettu enenevissä määrin käyttöön ”kaukolukuun” tukeutuvia metodeja – eli asioita tarkastellaan perinteisen rivien väleihin jäävien ja piilotettujen merkitysten etsimisen (eli lähilukemisen) sijaan isolla pensselillä, koneavusteisesti, suurpiirteisesti ja trendejä havainnoiden. Tällaisilla tutkimusmetodeilla saadaan aikaan täysin toisenlaisia tulkintoja menneisyydestä kuin mihin aiemmin on ollut mahdollisuuksia, ja ainakin itse jään (ihan työnkin puolesta) suurella mielenkiinnolla seuraamaan, mitä tuleman pitää. Kiinnostavia esimerkkejä uudenlaisesta digitaalisesta historiantutkimuksesta löytyy esimerkiksi Helsinki University Pressin julkaisemasta ja avoimesti saatavilla olevasta Digital Histories -teoksesta.

Tällaisilla tutkimusmetodeilla saadaan aikaan täysin toisenlaisia tulkintoja menneisyydestä kuin mihin aiemmin on ollut mahdollisuuksia.

Historiantutkimus, uusissa hienoissa metodeissaankin, rakentuu vielä kuitenkin niukkuudelle, sillä vaikka analysointi tapahtuukin uusilla tavoilla, analysoitavana on sama rajattu datamäärä. Napoleonin elämää voi tutkia lähiluvun sijaan kaukolukien, mutta uusia Napoleonin ja Joséphinen välisiä kirjeitä ei ilmaannu käytettäväksi ilman aikakonetta.

Vie vielä aikaa ennen kuin nykypäivän dataähkyä voidaan alkaa purkaa historiantutkimuksessa, mutta muilla tutkimusaloilla näin ei ole, vaan niillä (historiantutkimuksen) tulevaisuus on jo täällä. Kuten aluksi mainitsin, esimerkiksi luonnontieteellisissä tutkimuksissa syntyy tai hyödynnetään niin jättimäisiä määriä dataa, että niiden pelkkä käsittäminen nyrjäyttää varomattoman aivot radaltaan. Kokeillaan kuitenkin esimerkin avulla: Objektiivisesti mitattuna maailman paras videopeli, Doom II (1994), vie kovalevytilaa 20 MB eli tuplasti sen, mitä vuosikymmen aiemmin kymppitonnilla kaupattu scifi-kovalevy pystyi tarjoamaan. Doom II mahtuu yhteen petatavuun pyöreästi 50 000 000 (eli viisikymmentämiljoonaa) kertaa – ja joissakin tutkimuksissa kerätään useita petatavuja dataa. Se on paljon Doomia.

Vähemmästäkin tämä humanistiparka pökertyy.


Humanisti datamaailmassa -kirjoitussarja: