Maantieteellinen saavutettavuus asukkaiden elämänlaadun edistämisen työkaluna

Maantieteellisella saavutettavuudella tarkoitetaan sitä, miten helposti tiettyyn paikkaan pääsee matkustaen tai liikkumalla esimerkiksi eri kulkuvälineillä tai liikennevälineillä. Käsite perustuu siis ihmisten tai hyödykkeiden liikkumiseen tai palveluiden luokse pääsemiseen. Maantieteessä saavutettavuutta mitataan useimmiten matka-aikana, matkan pituutena tai matkan kustannuksena – ja juuri nämä rajoittavat omalta osaltaan ihmisten mahdollisuuksia osallistua aktiviteetteihin tai käyttää palveluita kodin ulkopuolella. Maantieteessä saavutettavuutta tarkastellaan tai analysoidaan usein paikkatietoanalyysien ja erityisten saavutettavuusanalyysien avulla.

Lähiöohjelmaan 2020-2022 kuuluva tutkimushanke Yhdenvertainen liikunnallinen lähiö (YLLI) tutkii yhtenä yhdenvertaisten liikunnallisten elämäntapojen rajoittajana myös maantieteellistä saavutettavuutta. Alustavia maantieteellisen saavutettavuuden laskelmiamme voi tarkastella webkartoistamme kohdekaupungeistamme Jyväskylästä ja Helsingistä. Jos otamme tarkasteluun näistä kartoista yhden esimerkin, ja katsomme, että mitä maantieteellisen saavutettavuuden avulla aiheesta saadaan irti, voimme saada käsityksen tämän maantieteellisen tarkastelun mahdollisuuksista. Esimerkkitarkastelussa syvennymme uimahallien ja kylpylöiden eli sisäuimapaikkojen maantieteelliseen saavutettavuuteen (~spatiaalinen saavutettavuus) pääkaupunkiseudulla (Kuva 1).

Kuva 1. Matka-ajat autolla lähimpään uimahalliin tai kylpylään pääkaupunkiseudulla (Kuva: YLLI-projekti)

Liikenne ja liikenneverkosto tärkeässä roolissa

Esimerkin kartassa (Kuva 1) on esitetty pääkaupunkiseudun sisäuimapaikkojen (uimahallit ja kylpylät) sijainnit alueella sekä esimerkkinä matka-ajat niihin omalla autolla kuljettaessa. Koska sisäuimapaikat sijaitsevat harvassa ja monilta asuinalueilta on niihin pitkä matka, asukkaat tyypillisimmin ajavat niiden luokse autolla. Tällöin matka-aikoihin ja maantieteelliseen saavutettavuuteen vaikuttavat liikenneyhteydet. Liikenneyhteyksien tärkeimpiä tekijöitä ovat tieverkoston kattavuus sekä katujen ja teiden nopeusrajoitukset, mikä näkyy kartassa. Lähellä olevat asukkaat tyypillisesti kävelevät tai pyöräilevät lähimpään sisäuimapaikkaan. Uintia voi käydä esimerkiksi harrastamassa nuoret, joilla ei ole mahdollisuutta kulkea autolla, vaan he kulkevat välimatkat polkupyörällä tai kävellen. Jotkut taas suosivat joukkoliikennettä ekologisista syistä tai pyöräilyä liikunnallisista syistä. Meitä asukkaita on moneen lähtöön, ja meillä on liikkumiseen omat motiivimme. Arjen kiireessä saatamme usein valita helpoimman tavan liikkua eli omalla autolla kulkemisen. Kulkeminen muulla tavalla kuin omalla autolla voi tehdä paikoin matka-ajoista pidempiä kuin matka-aikakartassa (Kuva 1), ja liikuntapaikkojen maantieteellinen saavutettavuus on heikompaa kuin kartta esittää. Siksi laskemme tutkimushankkeessamme matka-aikoja 1) kävellen, 2) pyöräillen, 3) yksityisautolla ja 4) joukkoliikenteellä. Katso lisää alustavista webkartoistamme kohdekaupungeistamme Jyväskylästä ja Helsingistä.

Matka-aikojen laskentamme huomioi keskimääräisen kävelyajan parkkipaikalle, keskimääräiset ruuhkat, liikennevaloristeyksien, risteyksien ja käännösten tyypilliset hidastamat sekä keskimääräisen ajan, joka menee parkkipaikan etsimiseen kohteessa. Kehittyneissä maantieteellisen saavutettavuuden laskennoissa ei siis nojauduta vain nopeusrajoitustietoon (vrt. kuva 2), koska käytännössä koko matkaa ei voi toteuttaa nopeusrajoituksen nopeudella.

Kuva 2. Nopeusrajoitukset ja sisäuimapaikkojen sjainnit pääkaupunkiseudulla (YLLI-projekti).

Kun tarkastellaan maantieteellistä saavutettavuutta jollakin alueella tai jonkun palvelun käytön näkökulmasta, alueen liikenneverkolla on suuri merkitys. Liikkenneverkkoa pitkin kulkevat niin yksityisautot kuin joukkoliikenteen linja-autot. Lisäksi on raideliikenne ja kevyenliikenteen verkosto. Useimmiten suurimmilla teillä nopeusrajoitukset ovat korkeammat, mikä vaikuttaa myös sisäuimapaikkojen saavutettavuuteen yksityisautolla. Suuret tiet lyhentävät myös syrjäisten reuna-alueen asukkaiden matka-aikoja liikuntapaikkoihin. Tällaiset logistisen ja liikenneverkon analyysit ovat tyypillisiä analyystyökaluja maantieteilijän ja maantieteen tutkijan työkalupakissa – ja varsinkin, kun tutkija tai asiantuntija on erikoistunut paikkatietoon ja sen hyödyntämiseen.

Liikuntapalveluiden palveluverkoston spatiaalinen kattavuus

Esimerkkikartat kertovat meille, että sisäuimapaikkoja sijaitsee alueella melko tasaisin välimatkoin. Ainoastaan reuna-alueilla niitä sijaitsee vähemmän. Lisäksi kartta asukastiheydestä (Kuva 3) kertoo meille, että sisäuimapaikkoja sijaitsee alueella paikoissa, joissa asukkaita asuu enemmän. Tällaisten kalliiden liikuntapalveluiden kannattaa sijaita lähellä suurempaa määrää potentiaalisia asiakkaita. Maantieteessä puhumme palveluverkoston kattavuudesta tai sen spatiaalisesta kattavuudesta.

Kuva 3. Asukastiheys ja sisäuimapaikkojen sijainnit pääkaupunkiseudulla (Kuva: YLLI-projekti)

Asukastiheyskartasta nähdään, että alueella on asumattomia tai harvaanasuttuja alueita, joita ovat muun muassa teollisuusalueet, metsät, pellot ja niityt. Näitä paljon sisältävillä alueilla ei sijaitse sisäuimapaikkoja, koska potentiaalisia käyttäjiä ei olisi riittävästi. Sisäuimapaikat on siis sijoitettu lähelle potentiaalisia asiakkaita.

Asukastiheyskartta ei sellaisenaan kerro, missä uinninharrastajat asuvat tai ketkä todellisuudessa sisäuimapaikkoja käyttävät. Asukastiheyskartta esittää vain asukkaiden kokonaismäärän eri alueilla. Aineistojen pohjalta voidaan miettiä, asuuko eri alueilla esimeriksi eri ikäisiä asukkaita (esimerkiksi lapsiperheitä tai vanhuksia), jotka kenties harrastavat eri liikuntamuotoja.

Liikuntapaikkojen maantieteellinen saavutettavuus vaikuttaa asukkaiden elämänlaatuun

Jos liikuntapaikat sijaitsevat lähellä asukkaiden koteja ja niihin on lyhyt matka, asukas todennäköisesti käyttää niitä useammin. Karkeasti voidaan sanoa, että mitä enemmän asukas liikkuu, sen terveemmin hän elää. Näin hän harrastaa enemmän liikuntaa. Toisaalta jos liikuntapaikalle on pitkä matka ja matkaan kuluu paljon aikaa, saattaa asukas olla harrastamatta liikuntaa. Tämä vähentää hänen harrastamansa liikunnan määrää. Toisaalta jos liikuntapaikat ovat kaukana ja niihin matkustetaan paljon omalla autolla joukkoliikenteen tai jopa pyöräilyn ja kävelyn sijaan, lisää se sekä kasvihuonepäästöjä että ilman pienhiukkasia. Pienhiukkasilla on kielteisiä terveysvaikutuksia.

On hyvä myös muistaa, että kaikki eivät kulje liikuntapaikoille vain autolla, kuten esimerkkikartat esittävät, vaan monet kulkevat niille kävellen tai polkupyörällä, mikä lisää asukkaan harrastaman liikunnan määrää. Lisäksi lähellä sijaitsevat liikuntapaikat myös säästävät aikaa asukkaan arjessa, mikä vähentää kiirettä ja stressiä arjessa. Lisäksi kattava ja monipuolinen liikuntapaikkojen tarjonta asuinalueella tai sen lähellä lisää yleisesti asukkaiden harrastaman liikunnan määrää. Näin edistetään kattavammin alueen asukkaiden liikunnallisia elämäntapoja. On hyvä kuitenkin muistaa, että liikuntaa harrastetaan muuallakin kuin rakennetuilla liikuntapaikoilla. Monet asukkaat käyvät esimerkiksi kävelyllä, marjastamassa tai lenkillä lähimetsässä. Metsä on monille tärkeä virkistysympäristö.

Lisätietoja tutkimushankkeestamme Yhdenvertainen liikunnallinen lähiö (YLLI) löydät hankkeen kotisivuilta https://blogs.helsinki.fi/yhdenvertainen-liikunnallinen-lahio/.

Kirjoittaja: Petteri Muukkonen, Helsingin yliopisto

Twitteristä uutta tietoa liikunnasta pääkaupunkiseudulla

Miksi tutkia liikuntaa sosiaalisen median avulla?

Liikunta on tärkeä osa terveellistä elämäntapaa. Liikunnan tiedetään ehkäisevän ylipainoa ja siten se pienentää riskiä sairastua moniin (kroonisiin) sairauksiin. Maailmanlaajuisesti liikkumattomuus on todettu neljänneksi yleisimmäksi kuolinsyyksi. Jopa Sanna Marinin hallitus on noteerannut liikunnan tärkeyden kirjaamalla hallitusohjelmaan tavoitteita liikunnan edistämiseksi ja urheilun tukemiseksi.

Alueellista tutkimusta siitä, miten eri puolilla pääkaupunkiseutua liikutaan, on tehty yllättävän vähän. Harva liikuntapaikkakaan kerää tarkkaa tietoa kävijämääristä ja usein nämä tiedot eivät ole avoimesti saatavilla. Siksi päätin tutkia aihetta sosiaalisen median datan kautta. Halusin selvittää, miten missäkin päin pääkaupunkiseutua liikutaan ja mitkä alueelliset tekijät vaikuttavat urheilu-aiheisten päivitysten määrään.

Tilastokeskuksen mukaan 80% suomalaisista seuraa sosiaalista mediaa, ja alle 45-vuotiaiden keskuudessa luku on yli 95%. Sosiaaliseen mediaan päivitetään usein itselle tärkeistä aiheista tai mieluisista aktiviteeteista, kuten esimerkiksi liikunnasta. Whatsapp (68% suomalaisista käyttää), Facebook (55%) ja Instagram (33%) ovat suosituimpia sosiaalisen media alustoja Suomessa. Nämä alustat eivät kuitenkaan jaa dataansa tutkimuskäyttöön, toisin kuin mikroblogialusta Twitter. Twitteriä käyttää reilu kymmenesosa suomalaisista.

Miten liikuntaa voidaan tutkia twiiteistä?

Tehdessä tutkimusta sosiaalisen median datalla etuna on, että päivityksiä on saatavilla valtavasti. Tässä tutkimuksessa analysoin 38,5 miljoonaa twiittiä. Valtava datan määrä aiheuttaa myös haasteita data tehokkaalle käsittelylle. 

Ensin halusin poimia aineistosta vain liikuntaan ja urheiluun liittyvät twiitit. Siksi prosessoin kaikki twiiteissä olevat sanat niiden perusmuotoon luonnollisen kielen käsittelyn metodeilla (NLP). Sitten tarkistin ohjelmoinnin avulla sisältävätkö twiitit samoja sanoja kuin kokoamassani urheilu-avainsanojen listassa.

Kun aineisto oli rajattu teeman mukaan, halusin vielä rajata sen alueellisesti Suomen pääkaupunkiseudulle. Osa twiiteistä (noin 1 %) sisältää valmiiksi geotägin, eli tiedon paikasta, jossa se on julkaistu. Geotägätyistä twiiteistä valitsin analyysiin ne, jotka olivat pääkaupunkiseudulta. Twiiteistä, joissa ei ollut geotägiä, etsin pääkaupunkiseudulla olevien paikkojen nimiä ohjelmoinnin avulla. Jos paikan nimi löytyi, lisäsin twiittiin tiedon kyseisen paikan koordinaateista. Lopulta jäljellä oli 20 599 twiittiä, joista kaksi kolmasosaa oli käyttäjien geotägäämiä ja kolmasosaan olin itse lisännyt tiedon paikasta vastaavan paikan nimen avustuksella. Jatkoanalyysissä ryhmittelin twiitit niiden mainitseman urheilun mukaan ja käytin tilastollisia metodeja twiittien määrän ennustamiseen.

Eri urheilulajien twiitit sijoittuvat eri puolille pääkaupunkiseutua

Urheilu- ja liikunta-aiheiset twiitit ovat keskittyneet Helsingin niemelle. Myös muita asumis- ja urheilukeskittymiä on havaittavissa, kuten Tapiola, Leppävaara ja Tikkurila. Postinumero alueisiin aggregoituna ja asukaslukuun suhteutettuna urheilutwiitit eivät kuitenkaan ole klusteroituneet, vaan jakautuneet tasaisemmin.

Käyttämistäni muuttujista parhaiten urheilutwiittien määrää mallinsivat liikuntapaikkojen lukumäärä per henkilö, työllisyysaste ja lapsien (0-14 vuotiaat) osuus postinumeroalueella. Liikuntapaikkojen määrä per henkilö sekä työllisyysaste vaikuttivat positiivisesti twiittien määrään per henkilö kun taas lapsien osuus asukkaista vaikutti negatiivisesti. Yhteensä nämä muuttujat selittivät 38% twiittien määrän henkilöä kohden variaatiosta.

Eri urheilulajeista tuli esiin mielenkiintoisia yksityiskohtia. Yleisesti urheilua koski noin 20% twiiteistä (avainsanat: urheilu, liikunta, treeni, hiki jne.). Toiseksi eniten twiittejä oli juoksusta ja kolmanneksi eniten kävelystä. Harrastajamääriin suhteutettuna salibandysta, jääkiekosta ja jalkapallosta puhuttiin twiiteissä enemmän kuin niillä on harrastajia. Tämä voi johtua siitä, että lajeja seurataan aktiivisesti penkkiurheiluna. Uintia ja hiihtoa taas harrastetaan enemmän kuin niistä twiitataan.

Urheilulajit ovat jakautuneet pääkaupunkiseudulle eri tavoin. Useilla lajeilla on twiittien keskittymä Helsingin keskustassa ja muissa asuin- ja urheilukeskittymissä. Tiettyjen urheilulajien twiitit ovat taas keskittyneet urheilupaikkojen ympärille. Hiihtotwiittejä löytyy eniten Olarista, Paloheinästä, Leppävaarasta, Hakunilasta ja Tikkurilasta, joissa on hyvät ladut. Mailapelitwiitit (tennis, sulkapallo, squash ja pingis) ovat keskittyneet Smash-centeriin Myllypurossa ja Talin tenniskeskukseen. Vesiurheilutwiittit (melonta, soutu ja purjehdus) ovat asettuneet tasaisesti pitkin rannikkoa ja hotspot löytyy Nuuksiosta.

Johtopäätökset

Tutkimuksesta saatiin uutta tietoa siitä, mikä vaikuttaa urheilu- ja liikunta-aiheisten twiittien määrään ja miten twiitit jakautuvat pääkaupunkiseudulla. Urheilutwiitit ovat jakautuneet pitkälti samoin kuin asukkaat, enemmän twiittejä löytyy todennäköisesti sieltä, missä on paljon urheilupaikkoja ihmisiä kohden.

Osa urheilulajeista on twiiteissä yliedustettuna ja osa taas aliedustettuina harrastajamääriin nähden. Tähän vaikuttavat todennäköisesti kuinka suosittu laji on penkkiurheilijoiden kesken, lajin trendikkyys ja harrastajien ikäjakauma sekä aktiivisuus Twitterissä. Joidenkin lajien twiittien alueelliseen jakautumiseen urheilupaikoilla on suurempi merkitys kun toisilla lajeilla. Esimerkiksi juoksua ja kävelyä voi helposti harrastaa missä vain, kun taas hiihtäjät tarvitsevat usein hoidetun ladun ja mailapeliharrastajat kyseisen lajin kentän.

Kirjoittaja: Sonja Koivisto, Helsingin yliopisto

Kuntayhteistyötä liikuntapaikkojen strategisessa suunnittelussa

Tutkimushankkeemme oleellisiin tavoitteisiin kuuluu läheinen yhteistyö kuntien kanssa. Kuntayhteistyö saa hankkeissa monia muotoja temaattisista pienryhmätapaamisista hankkeen tulosten esittelytilaisuuksiin. Lisäksi on käyty spesifimpiä, kuntien tarpeista nousevia kommentointikierroksia ja keskusteluja. 

Yhtenä yhteistyöesimerkkinä tutkijat ja Helsingin kaupungin edustajat jakoivat ajatuksia Helsingin liikuntapaikkarakentamisen tukena käyttämästä arviointimallista, jossa potentiaalisia uusia hankkeita pisteytetään ja verrataan toisiinsa mallissa esitetyin kriteerein. Kommentoimme ja keskustelimme sekä matriisiin liittyvistä sisällöllisistä seikoista, että eri aspektien arvioimisesta ja mittaamisesta käytännössä. Keskustelu oli kaksisuuntaisesti hedelmällistä ja auttoi tutkijoita ymmärtämään paremmin kaupungin näkökulmaa ja sekä toimintaa ohjaavia säädöksiä. Yhtymäkohtia hankkeemme teemojen kanssa löytyi mallista runsaasti ja kommentoimmekin mallia erityisesti hankkeen tematiikan näkökulmasta: keskustelua käytiin erityisesti eriarvoisuuden vähentämiseen, saavutettavuuteen ja liikuntapaikan tarpeen arvioimiseen liittyvistä kohdista. Lisäksi pohdimme, kuinka hankkeessa tuotettavia karttatyökaluja ja aineistoja voitaisiin mahdollisesti hyödyntää liikuntapaikkojen strategisessa suunnittelussa. Hankkeessa tuotettavia karttoja (joita tullaan jakamaan hankkeen nettisivuilla), sekä Lipas.fi palveluun lisättyjä toiminnallisuuksia (vielä koekäytössä) voidaan käytännössä käyttää liikuntapaikkojen palveluverkon ja tarjonnan, potentiaalisen kysynnän, ikäryhmittäisten väestömäärien sekä maantieteellisen saavutettavuuden arviointiin. 

Sosiaalisesta mediasta kertyvä laaja tutkimusaineisto vaatii huolellista suunnittelua

Sosiaalinen media on monelle arkipäivää. Siellä voi keskustella tuttavien ja tuntemattomien kanssa, jakaa valokuvia, ajatuksia ja linkkejä omille seuraajilleen, sekä seurata itseään kiinnostavia henkilöitä ja keskustelunaiheita. Sosiaalinen media onkin tutkijoille mielenkiintoinen aineistolähde, sillä tavalliset ihmiset tuottavat sinne paljon sisältöä tekstien, kuvien, videoiden ja paikkatietojen muodossa.

Keräämällä ja louhimalla sosiaalisen median tietoa voidaan tuottaa uutta tietoa esimerkiksi siitä, missä ja milloin sosiaalisen median käyttäjät urheilevat, mitä kieltä he käyttävät missäkin yhteydessä sekä minkälaisia kuvia ja videoita tietyistä paikoista tai aiheista jaetaan. Näistä yksittäisistä tiedonmurusista voidaan koostaa tietoa, jota voidaan käyttää tutkijoita askarruttaviin tutkimuskysymyksiin vastaamiseen, päätöksenteon tukena esimerkiksi ulkoilualueiden kehittämisessä, liiketoiminnan suunnittelussa sekä poliittisissa päätöksissä asti. Tällainen informaatio on arvokas lisä myös YLLI-hankkeen tutkimuksissa, joissa selvitetään uusia tapoja hyödyntää maantieteellistä tietoa ja paikkatietoa asuinalueiden asukkaisen liikuntakäyttäytymisestä ja liikkumisen ympäristöistä.

Sosiaalisen median aineistojen kerääminen tutkimukseen vaatii huolellista suunnittelua usealla osa-alueella: aineiston keräämisessä, tallentamisessa, käsittelyssä sekä näiden teknisen toteutuksen osalta. Vaikka käytettäisiin käyttäjien avoimesti jakamaa sisältöä, tutkijoilla on suuri vastuu toteuttaa tutkimus eettisesti, läpinäkyvästi, sekä siten, että tutkimuksen toistettavuus (yksi tieteen peruspilareista) säilyy. Aineistoa kerätessä tulee noudattaa myös aineiston minimoimisen periaatetta, joka ohjaa keräämään vain tarvittavan aineiston eikä yhtään enempää. Tallentamisessa taas tulee miettiä, mihin aineisto tallennetaan ja täytyykö se salata. Esimerkiksi aineisto, josta pystyy tunnistamaan yksityishenkilöitä, joko suoraan tai välillisesti, tulisi salata. Tällöin esimerkiksi tietomurron sattuessa aineiston saanut taho ei voisi tehdä aineistolla mitään. Mikäli aineisto on suurikokoinen ja useampi tutkija käyttää sitä samanaikaisesti, se olisi hyvä tallentaa tietokantaan eikä yksittäiseksi tiedostoksi ja sen kopioiksi tutkijoiden omille kovalevyille. Aineistoa käsiteltäessä ja yhdisteltäessä muihin aineistoihin tutkija saattaa tulla luoneeksi uuden aineiston, jokajonka myötä yksilön yksityisyydensuojan rajat voivat tulla vastaan. Tutkijan onkin hyvä noudattaa aineiston minimoimisen periaatetta myös analyysivaiheessa, jolloin kaikkea alkuperäisen aineiston tietoa ei tarvitse kuljettaa analyysin läpi.

Sosiaalisen median aineistojen kerääminen tutkimukseen vaatii huolellista suunnittelua usealla osa-alueella: aineiston keräämisessä, tallentamisessa, käsittelyssä sekä näiden teknisen toteutuksen osalta.

Aineiston käsittelyn tekninen toteutus ja sen jakaminen avoimesti, esimerkiksi GitHubissa, on avainasemassa tutkimuksen läpinäkyvyyden, toistettavuuden ja osittain myös eettisyyden näkökulmasta. Kun keräämisessä, tallentamisessa ja analysoinnissa käytetyt tekniset toteutukset (eli esimerkiksi koodia sisältävät skriptit) ovat jaettu avoimesti, niin periaatteessa kuka tahansa voi tarkastella miten tietoja on käsitelty esimerkiksi yksityisyydensuojan kannalta, onko tietojen käsittelyssä tapahtunut virheitä ja ehdottaa parannuksia. Avoimuus myös edesauttaa saman menetelmän ja aineiston käyttämistä uudelleen, jolloin tuloksen toistettavuus toteutuu paremmin. Samalla avoimuus myös parantaa luottamusta tiedettä ja tieteentekijöitä kohtaan. Usein aineiston keräämiseen luodut skriptit ja tietokannat muodostavat hieman monimutkaisemman kokonaisuuden, jolloin kokonaisuudesta olisi hyvä olla havainnollistava kaaviokuva samalla sivustolla (esimerkiksi kuvan 1 kaltainen ratkaisu) missä avoimesti jaetut aineistojen keräämiseen ja käsittelyyn käytetyt skriptit sijaitsevat.

Kuva 1. Havainnollistava kaavakuva Digital Geography Lab -tutkimusryhmän luomasta sosiaalisen median aineistojen keräys-, tallennus- ja käsittelyinfrastruktuurista.

Kuvassa 1 kuvataan miten Digital Geography Lab -tutkimusryhmä toteuttaa päivittäisen Twitter-aineiston keräyksen omassa uudessa infrastruktuurissaan. Vaiheessa 1 Data Collection, keräimenä toimiva palvelin ajaa joka päivä samaan aikaan skriptin, joka kerää kaikki edellisen päivän julkiset Twitter-viestit halutuilta maantieteellisiltä alueilta. Tämän jälkeen nämä viestit salataan kryptografisin menetelmin ja tallennetaan yliopiston sisäisessä verkossa sijaitsevaan pilvipalveluun vaiheessa 2. Kun tutkija haluaa pääsyn kerättyyn Twitter-aineistoon tietyltä aikajaksolta, hän tekee aineistopyynnön aineistonkäsittelyyn tarkoitetulle palvelimelle vaiheessa 3. Tämän jälkeen palvelin kerää halutun aineiston pilvipalvelusta, purkaa salauksen, luo PostgreSQL-tietokannan, jonne haluttu Twitter-aineisto ladataan. Tämän jälkeen vaiheessa 4 tutkijalla (ja hänen projektillaan) on pääsy tietokantaan, johon kyseinen aineisto ladattu. Tämänlainen infrastruktuuri parantaa tietosuojaa, sillä aineiston keräys, tallennus ja käsittely tapahtuvat eri palvelimilla. Se lisää myös resilienssiä, koska yhden palvelimen kaatuminen ei vie muita mukanaan. Erillisten tietokantojen luominen yksittäisille projekteille varmistaa yksityisyydensuojan toteutumisen myös tutkimuksen tekemisen aikana, sillä tutkijoilla on pääsy vain aineistoon, johon heillä on tarve eikä koko tutkimusryhmän kaikkeen aineistoon.

Miksi tämmöinen infrastruktuuri ylipäätään haluttiin luoda? Tutkimusryhmän vanha tietokanta alkoi näyttämään ikääntymisen merkkejä, ja siksi tehtiin päätös uudistaa ryhmän tietokantainfrastruktuuri. Infrastruktuurin luomisessa ideana oli luoda yksinkertainen, GDPR:n mukainen ja helposti skaalautuva keräys- ja tallennusjärjestelmä, johon tutkimusryhmän nopeasti kasvavat aineistot saataisiin tallennettua ja eri tutkimusprojektit saisivat omat tietokantansa yhden yhteisen jättimäisen tietokannan sijaan. Tavoite on myös päästä eroon siitä, että infrastruktuuri nojaa yhden henkilön tekniseen osaamiseen, sillä kun henkilö siirtyy urallaan eteenpäin, usein kaikki osaaminen lähtee hänen mukanaan. Tämän vuoksi kyseinen infrastruktuuri pyritään pitämään erittäin yksinkertaisena ja tarkoin dokumentoituna, jolloin infrastruktuuria pystytään jatkuvasti ylläpitämään ja kehittämään.

Massa-aineistoilla, kuten sosiaalisella medialla, tehtävä tutkimus vaatii siis melko paljon ajattelua usean asian tiimoilta, joihin päivittäisessä elämässä ei juurikaan käytetä aikaa. Huolellisella suunnittelulla ja tutkimusryhmän aineistotarpeiden kartoittamisella pääsee siis jo todella pitkälle. Tällainen huolellinen etukäteen tehty suunnittelutyö mahdollistaa tulevaisuudessa hyvinkin erilaisten tutkimushankkeiden ja -ideoiden toteuttamisen.

Helsingin ylioiston Digital Geography Labissa sosiaalisen median aineistoja on käytetty tutkimuksessa vuodesta 2014 saakka. Alustoina ovat olleet mm. Twitter, Instagram ja Flickr. Nyt YLLI-hankkeessa hyödynnetään tätä osaamista lähiöliikunnan tutkimuksessa. Samalla tietoinfrastruktuuria kehitetään  taas askeleen paremmaksi.

Kirjoittaja: Tuomas Väisänen (Helsingin yliopisto)