Sosiaalisesta mediasta kertyvä laaja tutkimusaineisto vaatii huolellista suunnittelua

Sosiaalinen media on monelle arkipäivää. Siellä voi keskustella tuttavien ja tuntemattomien kanssa, jakaa valokuvia, ajatuksia ja linkkejä omille seuraajilleen, sekä seurata itseään kiinnostavia henkilöitä ja keskustelunaiheita. Sosiaalinen media onkin tutkijoille mielenkiintoinen aineistolähde, sillä tavalliset ihmiset tuottavat sinne paljon sisältöä tekstien, kuvien, videoiden ja paikkatietojen muodossa.

Keräämällä ja louhimalla sosiaalisen median tietoa voidaan tuottaa uutta tietoa esimerkiksi siitä, missä ja milloin sosiaalisen median käyttäjät urheilevat, mitä kieltä he käyttävät missäkin yhteydessä sekä minkälaisia kuvia ja videoita tietyistä paikoista tai aiheista jaetaan. Näistä yksittäisistä tiedonmurusista voidaan koostaa tietoa, jota voidaan käyttää tutkijoita askarruttaviin tutkimuskysymyksiin vastaamiseen, päätöksenteon tukena esimerkiksi ulkoilualueiden kehittämisessä, liiketoiminnan suunnittelussa sekä poliittisissa päätöksissä asti. Tällainen informaatio on arvokas lisä myös YLLI-hankkeen tutkimuksissa, joissa selvitetään uusia tapoja hyödyntää maantieteellistä tietoa ja paikkatietoa asuinalueiden asukkaisen liikuntakäyttäytymisestä ja liikkumisen ympäristöistä.

Sosiaalisen median aineistojen kerääminen tutkimukseen vaatii huolellista suunnittelua usealla osa-alueella: aineiston keräämisessä, tallentamisessa, käsittelyssä sekä näiden teknisen toteutuksen osalta. Vaikka käytettäisiin käyttäjien avoimesti jakamaa sisältöä, tutkijoilla on suuri vastuu toteuttaa tutkimus eettisesti, läpinäkyvästi, sekä siten, että tutkimuksen toistettavuus (yksi tieteen peruspilareista) säilyy. Aineistoa kerätessä tulee noudattaa myös aineiston minimoimisen periaatetta, joka ohjaa keräämään vain tarvittavan aineiston eikä yhtään enempää. Tallentamisessa taas tulee miettiä, mihin aineisto tallennetaan ja täytyykö se salata. Esimerkiksi aineisto, josta pystyy tunnistamaan yksityishenkilöitä, joko suoraan tai välillisesti, tulisi salata. Tällöin esimerkiksi tietomurron sattuessa aineiston saanut taho ei voisi tehdä aineistolla mitään. Mikäli aineisto on suurikokoinen ja useampi tutkija käyttää sitä samanaikaisesti, se olisi hyvä tallentaa tietokantaan eikä yksittäiseksi tiedostoksi ja sen kopioiksi tutkijoiden omille kovalevyille. Aineistoa käsiteltäessä ja yhdisteltäessä muihin aineistoihin tutkija saattaa tulla luoneeksi uuden aineiston, jokajonka myötä yksilön yksityisyydensuojan rajat voivat tulla vastaan. Tutkijan onkin hyvä noudattaa aineiston minimoimisen periaatetta myös analyysivaiheessa, jolloin kaikkea alkuperäisen aineiston tietoa ei tarvitse kuljettaa analyysin läpi.

Sosiaalisen median aineistojen kerääminen tutkimukseen vaatii huolellista suunnittelua usealla osa-alueella: aineiston keräämisessä, tallentamisessa, käsittelyssä sekä näiden teknisen toteutuksen osalta.

Aineiston käsittelyn tekninen toteutus ja sen jakaminen avoimesti, esimerkiksi GitHubissa, on avainasemassa tutkimuksen läpinäkyvyyden, toistettavuuden ja osittain myös eettisyyden näkökulmasta. Kun keräämisessä, tallentamisessa ja analysoinnissa käytetyt tekniset toteutukset (eli esimerkiksi koodia sisältävät skriptit) ovat jaettu avoimesti, niin periaatteessa kuka tahansa voi tarkastella miten tietoja on käsitelty esimerkiksi yksityisyydensuojan kannalta, onko tietojen käsittelyssä tapahtunut virheitä ja ehdottaa parannuksia. Avoimuus myös edesauttaa saman menetelmän ja aineiston käyttämistä uudelleen, jolloin tuloksen toistettavuus toteutuu paremmin. Samalla avoimuus myös parantaa luottamusta tiedettä ja tieteentekijöitä kohtaan. Usein aineiston keräämiseen luodut skriptit ja tietokannat muodostavat hieman monimutkaisemman kokonaisuuden, jolloin kokonaisuudesta olisi hyvä olla havainnollistava kaaviokuva samalla sivustolla (esimerkiksi kuvan 1 kaltainen ratkaisu) missä avoimesti jaetut aineistojen keräämiseen ja käsittelyyn käytetyt skriptit sijaitsevat.

Kuva 1. Havainnollistava kaavakuva Digital Geography Lab -tutkimusryhmän luomasta sosiaalisen median aineistojen keräys-, tallennus- ja käsittelyinfrastruktuurista.

Kuvassa 1 kuvataan miten Digital Geography Lab -tutkimusryhmä toteuttaa päivittäisen Twitter-aineiston keräyksen omassa uudessa infrastruktuurissaan. Vaiheessa 1 Data Collection, keräimenä toimiva palvelin ajaa joka päivä samaan aikaan skriptin, joka kerää kaikki edellisen päivän julkiset Twitter-viestit halutuilta maantieteellisiltä alueilta. Tämän jälkeen nämä viestit salataan kryptografisin menetelmin ja tallennetaan yliopiston sisäisessä verkossa sijaitsevaan pilvipalveluun vaiheessa 2. Kun tutkija haluaa pääsyn kerättyyn Twitter-aineistoon tietyltä aikajaksolta, hän tekee aineistopyynnön aineistonkäsittelyyn tarkoitetulle palvelimelle vaiheessa 3. Tämän jälkeen palvelin kerää halutun aineiston pilvipalvelusta, purkaa salauksen, luo PostgreSQL-tietokannan, jonne haluttu Twitter-aineisto ladataan. Tämän jälkeen vaiheessa 4 tutkijalla (ja hänen projektillaan) on pääsy tietokantaan, johon kyseinen aineisto ladattu. Tämänlainen infrastruktuuri parantaa tietosuojaa, sillä aineiston keräys, tallennus ja käsittely tapahtuvat eri palvelimilla. Se lisää myös resilienssiä, koska yhden palvelimen kaatuminen ei vie muita mukanaan. Erillisten tietokantojen luominen yksittäisille projekteille varmistaa yksityisyydensuojan toteutumisen myös tutkimuksen tekemisen aikana, sillä tutkijoilla on pääsy vain aineistoon, johon heillä on tarve eikä koko tutkimusryhmän kaikkeen aineistoon.

Miksi tämmöinen infrastruktuuri ylipäätään haluttiin luoda? Tutkimusryhmän vanha tietokanta alkoi näyttämään ikääntymisen merkkejä, ja siksi tehtiin päätös uudistaa ryhmän tietokantainfrastruktuuri. Infrastruktuurin luomisessa ideana oli luoda yksinkertainen, GDPR:n mukainen ja helposti skaalautuva keräys- ja tallennusjärjestelmä, johon tutkimusryhmän nopeasti kasvavat aineistot saataisiin tallennettua ja eri tutkimusprojektit saisivat omat tietokantansa yhden yhteisen jättimäisen tietokannan sijaan. Tavoite on myös päästä eroon siitä, että infrastruktuuri nojaa yhden henkilön tekniseen osaamiseen, sillä kun henkilö siirtyy urallaan eteenpäin, usein kaikki osaaminen lähtee hänen mukanaan. Tämän vuoksi kyseinen infrastruktuuri pyritään pitämään erittäin yksinkertaisena ja tarkoin dokumentoituna, jolloin infrastruktuuria pystytään jatkuvasti ylläpitämään ja kehittämään.

Massa-aineistoilla, kuten sosiaalisella medialla, tehtävä tutkimus vaatii siis melko paljon ajattelua usean asian tiimoilta, joihin päivittäisessä elämässä ei juurikaan käytetä aikaa. Huolellisella suunnittelulla ja tutkimusryhmän aineistotarpeiden kartoittamisella pääsee siis jo todella pitkälle. Tällainen huolellinen etukäteen tehty suunnittelutyö mahdollistaa tulevaisuudessa hyvinkin erilaisten tutkimushankkeiden ja -ideoiden toteuttamisen.

Helsingin ylioiston Digital Geography Labissa sosiaalisen median aineistoja on käytetty tutkimuksessa vuodesta 2014 saakka. Alustoina ovat olleet mm. Twitter, Instagram ja Flickr. Nyt YLLI-hankkeessa hyödynnetään tätä osaamista lähiöliikunnan tutkimuksessa. Samalla tietoinfrastruktuuria kehitetään  taas askeleen paremmaksi.

Kirjoittaja: Tuomas Väisänen (Helsingin yliopisto)

Tämä blogikirjoitus on aiemmin julkaistu 26.5.2021 YLLI-projektin blogissa.