Twitteristä uutta tietoa liikunnasta pääkaupunkiseudulla

Miksi tutkia liikuntaa sosiaalisen median avulla?

Liikunta on tärkeä osa terveellistä elämäntapaa. Liikunnan tiedetään ehkäisevän ylipainoa ja siten se pienentää riskiä sairastua moniin (kroonisiin) sairauksiin. Maailmanlaajuisesti liikkumattomuus on todettu neljänneksi yleisimmäksi kuolinsyyksi. Jopa Sanna Marinin hallitus on noteerannut liikunnan tärkeyden kirjaamalla hallitusohjelmaan tavoitteita liikunnan edistämiseksi ja urheilun tukemiseksi.

Alueellista tutkimusta siitä, miten eri puolilla pääkaupunkiseutua liikutaan, on tehty yllättävän vähän. Harva liikuntapaikkakaan kerää tarkkaa tietoa kävijämääristä ja usein nämä tiedot eivät ole avoimesti saatavilla. Siksi päätin tutkia aihetta sosiaalisen median datan kautta. Halusin selvittää, miten missäkin päin pääkaupunkiseutua liikutaan ja mitkä alueelliset tekijät vaikuttavat urheilu-aiheisten päivitysten määrään.

Tilastokeskuksen mukaan 80% suomalaisista seuraa sosiaalista mediaa, ja alle 45-vuotiaiden keskuudessa luku on yli 95%. Sosiaaliseen mediaan päivitetään usein itselle tärkeistä aiheista tai mieluisista aktiviteeteista, kuten esimerkiksi liikunnasta. Whatsapp (68% suomalaisista käyttää), Facebook (55%) ja Instagram (33%) ovat suosituimpia sosiaalisen media alustoja Suomessa. Nämä alustat eivät kuitenkaan jaa dataansa tutkimuskäyttöön, toisin kuin mikroblogialusta Twitter. Twitteriä käyttää reilu kymmenesosa suomalaisista.

Miten liikuntaa voidaan tutkia twiiteistä?

Tehdessä tutkimusta sosiaalisen median datalla etuna on, että päivityksiä on saatavilla valtavasti. Tässä tutkimuksessa analysoin 38,5 miljoonaa twiittiä. Valtava datan määrä aiheuttaa myös haasteita data tehokkaalle käsittelylle. 

Ensin halusin poimia aineistosta vain liikuntaan ja urheiluun liittyvät twiitit. Siksi prosessoin kaikki twiiteissä olevat sanat niiden perusmuotoon luonnollisen kielen käsittelyn metodeilla (NLP). Sitten tarkistin ohjelmoinnin avulla sisältävätkö twiitit samoja sanoja kuin kokoamassani urheilu-avainsanojen listassa.

Kun aineisto oli rajattu teeman mukaan, halusin vielä rajata sen alueellisesti Suomen pääkaupunkiseudulle. Osa twiiteistä (noin 1 %) sisältää valmiiksi geotägin, eli tiedon paikasta, jossa se on julkaistu. Geotägätyistä twiiteistä valitsin analyysiin ne, jotka olivat pääkaupunkiseudulta. Twiiteistä, joissa ei ollut geotägiä, etsin pääkaupunkiseudulla olevien paikkojen nimiä ohjelmoinnin avulla. Jos paikan nimi löytyi, lisäsin twiittiin tiedon kyseisen paikan koordinaateista. Lopulta jäljellä oli 20 599 twiittiä, joista kaksi kolmasosaa oli käyttäjien geotägäämiä ja kolmasosaan olin itse lisännyt tiedon paikasta vastaavan paikan nimen avustuksella. Jatkoanalyysissä ryhmittelin twiitit niiden mainitseman urheilun mukaan ja käytin tilastollisia metodeja twiittien määrän ennustamiseen.

Eri urheilulajien twiitit sijoittuvat eri puolille pääkaupunkiseutua

Urheilu- ja liikunta-aiheiset twiitit ovat keskittyneet Helsingin niemelle. Myös muita asumis- ja urheilukeskittymiä on havaittavissa, kuten Tapiola, Leppävaara ja Tikkurila. Postinumero alueisiin aggregoituna ja asukaslukuun suhteutettuna urheilutwiitit eivät kuitenkaan ole klusteroituneet, vaan jakautuneet tasaisemmin.

Käyttämistäni muuttujista parhaiten urheilutwiittien määrää mallinsivat liikuntapaikkojen lukumäärä per henkilö, työllisyysaste ja lapsien (0-14 vuotiaat) osuus postinumeroalueella. Liikuntapaikkojen määrä per henkilö sekä työllisyysaste vaikuttivat positiivisesti twiittien määrään per henkilö kun taas lapsien osuus asukkaista vaikutti negatiivisesti. Yhteensä nämä muuttujat selittivät 38% twiittien määrän henkilöä kohden variaatiosta.

Eri urheilulajeista tuli esiin mielenkiintoisia yksityiskohtia. Yleisesti urheilua koski noin 20% twiiteistä (avainsanat: urheilu, liikunta, treeni, hiki jne.). Toiseksi eniten twiittejä oli juoksusta ja kolmanneksi eniten kävelystä. Harrastajamääriin suhteutettuna salibandysta, jääkiekosta ja jalkapallosta puhuttiin twiiteissä enemmän kuin niillä on harrastajia. Tämä voi johtua siitä, että lajeja seurataan aktiivisesti penkkiurheiluna. Uintia ja hiihtoa taas harrastetaan enemmän kuin niistä twiitataan.

Urheilulajit ovat jakautuneet pääkaupunkiseudulle eri tavoin. Useilla lajeilla on twiittien keskittymä Helsingin keskustassa ja muissa asuin- ja urheilukeskittymissä. Tiettyjen urheilulajien twiitit ovat taas keskittyneet urheilupaikkojen ympärille. Hiihtotwiittejä löytyy eniten Olarista, Paloheinästä, Leppävaarasta, Hakunilasta ja Tikkurilasta, joissa on hyvät ladut. Mailapelitwiitit (tennis, sulkapallo, squash ja pingis) ovat keskittyneet Smash-centeriin Myllypurossa ja Talin tenniskeskukseen. Vesiurheilutwiittit (melonta, soutu ja purjehdus) ovat asettuneet tasaisesti pitkin rannikkoa ja hotspot löytyy Nuuksiosta.

Johtopäätökset

Tutkimuksesta saatiin uutta tietoa siitä, mikä vaikuttaa urheilu- ja liikunta-aiheisten twiittien määrään ja miten twiitit jakautuvat pääkaupunkiseudulla. Urheilutwiitit ovat jakautuneet pitkälti samoin kuin asukkaat, enemmän twiittejä löytyy todennäköisesti sieltä, missä on paljon urheilupaikkoja ihmisiä kohden.

Osa urheilulajeista on twiiteissä yliedustettuna ja osa taas aliedustettuina harrastajamääriin nähden. Tähän vaikuttavat todennäköisesti kuinka suosittu laji on penkkiurheilijoiden kesken, lajin trendikkyys ja harrastajien ikäjakauma sekä aktiivisuus Twitterissä. Joidenkin lajien twiittien alueelliseen jakautumiseen urheilupaikoilla on suurempi merkitys kun toisilla lajeilla. Esimerkiksi juoksua ja kävelyä voi helposti harrastaa missä vain, kun taas hiihtäjät tarvitsevat usein hoidetun ladun ja mailapeliharrastajat kyseisen lajin kentän.

Kirjoittaja: Sonja Koivisto, Helsingin yliopisto

Tämä blogikirjoitus on julkaistu aiemmin YLLI-hankkeen blogissa 11.8.2021