Hajontakuva luokitellun muuttujan visualisoinnissa

Hajontakuva (scatterplot) on yksinkertainen ja helppo tapa kuvata kahden jatkuvan muuttujan välistä yhteyttä. Tavallisesti y- eli pystyakselille on tapana piirtää selitettävä (dependent variable) muuttuja ja x-akselille selittäjä (independent variable). Muuttujien arvojen leikkauspisteissä ovat havaintoyksiköt (observational units) eli esimerkiksi kyselytutkimuksessa vastaajat. Hajontakuvaa voidaan kuitenkin käyttää myös luokitellun muuttujan visualisoitiin. Tällöin havaintoyksikköinä ovat luokitellun muuttujan arvot ja y- ja x-muuttujina sellaiset luokkien eroja ja yhtäläisyyksiä kuvaavat muuttujat, jotka ovat tutkimuksen kiinnostuksen kohteina. Esittelen seuraavaksi askel askeleelta, kuinka kyseinen toimenpide voidaan toteuttaa SPSS Statistics -ohjelmistolla. Datana käytän Yleisradion verkkopalveluiden kyselyä, joka on Ylen tutkimusdataa ja julkaistu avoimena datana Ylen Kehitys kehittyyblogissa.

Aineisto

Data sisältää 27.4.–28.5.2013 web-lomakkeella kerättyä palautetta verkkosivujen käyttökokemuksista. Datasta löytyy yhteensä 9000 vastaajaa ja muuttujia on mukana 8 kappaletta. Valitaan kiinnostuksenkohteiksi kolme muuttujaa: sivusto, jolla kävijä on vieraillut (Sivusto), kiinnostavuus asteikolla 0–6 (Kiinnostavuus) sekä suosittelu (halu suositella sivustoa muille) asteikolla 0–10 (Suosittelu). Muuttujien arvot määräytyvät siten, että pienet arvot tarkoittavat vähemmän tai ei ollenkaan muuttujan mittaamaa ominaisuutta. Luokiteltu muuttuja Sivusto saa arvoja sen mukaan, millä sivustolla kävijä on vieraillut eli mihin sivustoon hänen arvionsa kohdistuvat (esim. Elävä arkisto, Uutiset…). Tavoitteena olisi siis kuvata eri sivut hajontakuvassa siten, että y- ja x-akseleilla kulkevat käyttäjien arvioimat kiinnostavuus ja halu suositella sivustoa ja näiden arvojen leikkauspisteissä ovat sivustot. Näin voisimme verrata, mitkä sivut koetaan kiinnostaviksi ja mitä halutaan suositella suhteessa toisiin sivuihin.

Muuttujien standardointi

Ennen kuin ryhdymme muuttamaan dataa sellaiseen muotoon, että sen visualisointi hajontakuvana on mahdollista, muuttujien asteikkoja on syytä tarkastella hieman lähemmin. Koska muuttujien vaihteluväli on erilainen (0–6 ja 0–10), ne voidaan standardisoida eli saattaa vertailukelpoisiksi. Tämä voitaisiin suorittaa normeeraamalla eli laskemalla kummastakin muuttujasta Z-pisteet, jossa jakauma “pakotetaan” sellaiseen muotoon, että keskiarvo on 0 ja keskihajonta 1. Normaalijakauman mukaisesti normeeratut arvot vaihtelevat käytännössä välillä -3 ja 3. Vanhat lukuarvot menetetään, mutta uudet ovat keskenään vertailukelpoisia. Lisäksi saadaan tietoa siitä, kuinka monen keskihajonnan päähän keskiarvosta arvot sijoittuvat. Voimme esimerkiksi arvioida, kumpi mitattu ominaisuus on keskiarvoltaan toista suurempi (kiinnostavuus vai halu jakaa). Tämä toiminto tapahtuu SPSS-ohjelmistossa esimerkiksi valitsemalla Descriptives-valikosta “Save standardized values as variables”. Tässä tapauksessa lukuarvoilla ei kuitenkaan ole mitään merkitystä, sillä olemme kiinnostuneita vain visualisoimaan sivustojen suhteellisia eroja hajontakuvan avulla. Normeerauksen sijaan voimme yksinkertaisesti pakottaa muuttujien arvot välille 0 ja 1. Tämä tapahtuu kaavalla

\ X_{0-1}=\frac{X_{i}-X_{min}}{X_{max}-X_{min}}

missä “X0-1” on uusi, standardoitu muuttuja, “Xi” on vanha standardoimaton muuttuja ja “Xmin” ja “Xmax” ovat vanhan muuttujan minimi- ja maksimiarvot. Koska muuttujan Kiinnostavuus arvo 0 tarkoittaa “En tunne palvelua”, voidaan kyseinen arvo merkitä puuttuvaksi. Lasketaan uudet muuttujat seuraavalla syntax-kommennolla:

1
2
3
descriptives Suosittelisitko Kiinnostavuus.
compute suosittelu_norm = (Suosittelisitko - 0) / (10 - 0).
compute kiinnostavuus_norm = (Kiinnostavuus - 1) / (6 -1).

Datan aggregointi

Koska tavoitteena on kuvata luokiteltu Sivusto-muuttuja kahden jatkuvan (tai sellaiseksi tulkittavan) muuttujan avulla, täytyy data aggregoida Sivusto-muuttujan luokkien tasolle. Käytännössä tämä tarkoittaa sitä, että luomme uuden datan, jossa Sivusto-muuttujan eri luokkien tasolle lasketaan keskiarvot (tai jotkut muut tiivistävät tunnusluvut). Vaikka muuttujien jakaumat eivät ole täysin normaaleja, voimme tässä tyytyä keskiarvoihin. Aggregointi tapahtuu valitsemalla Data/Aggregate ja sijoittamalla halutut muuttujat kenttiin (Sivusto on “Break variable”) tai seuraavalla kommennolla:

1
2
3
4
5
6
DATASET DECLARE agre.
AGGREGATE
/OUTFILE='agre'
/BREAK=Sivusto
/suosittelu_norm_mean=MEAN(suosittelu_norm)
/kiinnostavuus_norm_mean=MEAN(kiinnostavuus_norm).

Uuden aineiston tulisi näyttää siltä, että ensimmäisellä sarakkeella ovat sivustojen nimet ja seuraavilla muuttujien keskiarvot ensimmäisen muuttujan eri luokissa/arvoilla. Nyt olemme valmiita hajontakuvan piirtämiseen.

Hajontakuvan piirtäminen

Hajontakuvaksi kannattaa valita “Simple scatter”. Perinteisiä konventioita noudattaen pystyakselille valitaan se muuttujan, jota selitetään, ja vaaka-akselille selittäjä eli se, josta pystyakselin muuttuja ikään kuin voisi seurata: X -> Y. On luontevaa ajatella, että sivuston kiinnostavuus (X) selittää (ainakin osin) halua suositella sivustoa (Y) sosiaaliselle verkostolleen, eikä toisin päin. Piirretään kuva siis näin päin. SPSS:n Chart editorilla voidaan lisäksi asettaa luokitellun muuttujan arvojen nimet (label) mukaan kuvaajaan, piirtää kummankin jatkuvan muuttujan keskiarvojen kohdalle referenssiviivat sekä skaalata vaaka- ja pystyakselit samanpituisiksi. Erityisesti viimeinen toimenpide on tärkeä, sillä muuten kuva saattaa vääristää muuttujien välistä suhdetta. Keskiarvosuorien piirtämä nelikenttä auttaa hahmottamaan, mitkä havainnoista osuvat kunkin muuttujan keskiarvon ylä- ja alapuolelle. Kun yhteys on positiivinen, oletettavaa on että ne sivustot, jotka ovat keskiarvon yläpuolella kiinnostavuudessa, ovat sitä myös suosittelussa. Näin näyttäisi pääpiirteissään olevan. Lisäksi voidaan todeta, että yhteys kiinnostavuuden ja suositteluhalun välillä on lineaarista: mitä kiinnostavampi sivusto, sitä todennäköisemmin sitä voitaisiin suositella myös muille.

Hajontakuva Ylen verkkosivustoista kiinnostavuuden ja suositteluhalun suhteen.

Hajontakuva Ylen verkkosivustoista kiinnostavuuden ja suositteluhalun suhteen.

Postaus on julkaistu alun perin 29.5.2013.

Leave a comment

Your email address will not be published. Required fields are marked *