Ruudun takaa

Neljännellä kurssikerralla tutustuttiin ruutukarttoihin ja rasteriaineiston kanssa työskentelyyn. Edellisiin harjoituksiin nähden nyt täytyi olla jo tarkkana prosesseissa käytetyistä luvuista, komennoista ja aineiston rajaamisesta, sillä ruutuaineisto sisältää helposti tuhansia tietueita. Ensimmäistä kertaa oli jo hyvät mahdollisuudet saada ohjelma kaadettua.

Harjoituksen tuloksena sain aikaan kartan, joka esittää muunkielisten suhteellisia osuuksia pääkaupunkiseudun väestöstä (kuva 1). Muunkielisillä tarkoitetaan muuta kuin suomea tai ruotsia äidinkielenään puhuvia, tosin kuten ensimmäisen kurssikertani blogissa totesin, on määritelmä usein epäselvä. En tiedä käytetyn aineiston metatietoja, joten en tiedä kuuluvatko saamelaiset muunkielisiin vai eivät. Se ei kuitenkaan ole pääkaupunkiseudulla tilastollisesti merkitsevää.

Ruutuaineistoissa olennaisinta lie ruutukoko ja sen vaikutus ilmiöiden esitettävyyteen. Valitsin karttaani 500 x 500 metrin ruutumatriisin, joka tuntui sopivalta koko pääkaupunkiseutua esittävälle kartalle. Kilometrin ruutukoko olisi yleistänyt jo liikaa ja pelkäsin, että pienemmällä ruutukoolla aineisto olisi ollut liian raskas prosessoitavaksi. Kokeilinkin soveltaa ohjeiden mukaisen 1 km ruudun jälkeen heti 100 metrin ruutuja mielenkiinnosta kahteen kertaan, mutta molemmilla kerroilla ohjelma kaatui. Kolmannella kerralla prosessi olisi saattanutkin onnistua tai olisin voinut rajata aineiston koskemaan vain Helsinkiä tai jotakin suuralueista. Olisikin mielenkiintoista vertailla samaa muuttujaa samalla luokittelulla mutta huomattavasti pienemmällä ruutukoolla jollakin alueella, kuten suuralueella ja verrata sitä ison kartan arvoihin.

Kuva 1. Muunkielisten osuus väestöstä pääkaupunkiseudulla 500 x 500 metrin ruutuaineistolla.

Absoluuttisten arvojen esittäminen on ruutuaineistossa on toisinaan perusteltua, vaikkei sitä muissa tapauksissa suositellakaan. Ruutuaineistossa jokainen ruutu saa vain yhden arvon ja on jo itsessään yleistettyä tietoa. Siksi sillä onkin mielekästä esittää sellaisia muuttujia, jotka eivät ole pistemäisiä mutta eivät tasaisen jatkuviakaan, kuten koropleettikartat. Pistekarttaan verrattuna sijainnin tarkkuus on jonkin verran huonompi ruutukoosta riippuen, eivätkä ruudut noudata nimettyjen alueiden rajoja, kuten Ahonenkin (2019) toteaa blogissaan. Tässä tapauksessa absoluuttisten arvojen esittäminen tai ainakin esittävyyden kokeileminen olisi ollut näin jälkeen päin ajatellen järkevää, sillä nyt suuri osa korkeimman arvon saavista (100%) ruuduista on nyt sellaisia joissa asuu vain yksi asukas, joka sattuu olemaan muunkielinen. Toinen vaihtoehto olisi ollut poistaa kyseiset ruudut esityksestä, mikä toisaalta myös vääristää dataa. Esityksellisesti lisäarvoa olisi tuonut se, että tiedon selventämiseksi jokaisen luokan perään olisi merkitty kyseisten ruutujen lukumäärä sulkeissa. En ole kovin tyytyväinen siis valintaani esittää teemaa suhteellisina osuuksina (etenkin, kun kerrankin olisi voinut käyttää absoluuttisia arvoja) tai valittuihin luokkarajoihin. 

Hieman alempien arvojen ruudut, kuten 10-50 prosentin muunkielisen väestön ruudut tuntuvat antavan paremmin kuvaa trendeistä: kantakaupunki ja muut keskukset erottuvat korkeammilla arvoillaan. Kantakaupunkia tarkastellessa suhteelliset arvot antavat paremmin kuvaa ilmiön jakaantumisesta – Ruoholahden ja Kalasataman seudut erottuvat korkeammilla arvoillaan. Näillä alueilla vieraskielisten edustamat kieliryhmät poikkeavat jonkin verran muista alueista, ja vallitsevina kielinä on venäjän lisäksi englanti ja espanja ja korkeakoulutettujen määrä on suurempi kuin esimerkiksi itäisen suurpiirin vieraskielisimmillä alueilla (Helsinki alueittain 2019). Uusille kasvualueille muutetaan tietotyön perässä.

Karttaa visuaalisesti ja sisällöllisesti tarkastellessa pääväylien muodostama verkosto hahmottelee pääkaupunkiseutua tuntevalle aluetta hieman mutta ei avaa esimerkiksi kuntien rajoja tai nimiä. Tuomalla suuralueiden nimet esitykseen yritin hieman helpottaa esittävyyttä, sillä pienalueiden nimistä olisi tullut liian pieniä. Espoon ja Vantaan kohdilla muutamat keskukset tulevat nimikoiduksi oikein ja oikeille kohdille, mutta Helsingin suuralueet (läntinen, eteläinen jne.) ovat hieman hämmentävät ja valinta ei siksi ollut kaikista toimivin.

Kurssikerran lopuksi tutustuimme myös rasteriaineiston kanssa työskentelyyn. Rinnevarjostusta olin tehnyt ennenkin, mutta piirtäminen QGIS:llä oli minulle jokseenkin uutta. Muistan piirtäneeni vain yksittäisiä viivoja, joten oli mielenkiintoista seurata miten omista piirtelyistä muodostui tietokanta.

Kuva 2. Peruskarttalehden korkeuskäyrärasteri ja korkeusmallista 5 metrin välein  mallinnetut korkeuskäyrät. 

Opimme myös, miten rasteriaineistosta on mahdollista mallintaa ominaisuuksia QGIS:ssä. Kuvassa 2 on visualisoituna peruskarttalehden korkeuskäyriä ruskealla (päällekkäisten rasteritasojen kanssa joutuu aina kikkailemaan, keksin vaihtaa korkeuskäyrärasterin valkoisen värin läpinäkyväksi, jolloin sain peruskarttalehteä taustalle näkyviin helpottamaan tulkintaa) ja laserkeilausaineistosta 5 metrin välein mallinnettua korkeuskäyrää vihreällä.  Kuvan keskiössä on mielivaltaisesti valittu Kumpula, sillä sellainen hauska nimi sattui karttalehdeltä löytymään. ”Loogisilla” korkeusvaihteluilla, kuten korkeammilla mäillä, käyrät noudattelevat samoja linjoja, mutta esimerkiksi kuvassa näkyvä ojantörmä on visualisoituna vain mallinnuksessa. Mallinnuksen datassa on vain jonkin ajankohdan korkeudet, ja oja on saattanut hetkellisesti olla hyvin kuiva tai sitä ympäröivä kasvusto on tallentunut mallinukseen. Karttalehden korkeuskäyrissä puolestaan on otettu huomioon vain pysyvät ja relevantit korkeuserot ja siksi siitä on luotettavampaa tehdä päätelmiä. Toisaalta uuden laserkeilausaineiston perusteella voidaan havaita sellaisia uusia eroja, joita tulisi uusissa kartoissa huomata.

Ensi viikon bufferointeja odotellessa, heissulivei!

Lähteet:

Ahonen, P.  (2019) Kurssikerta 4.  Blogiteksti.  https://blogs.helsinki.fi/piah/

Helsinki alueittain 2019. Helsingin kaupunki, kaupunginkanslia, kaupunkitutkimus ja -tilastot. Helsinki 2020.

Tietokantoja ja tulvia

Kolmannen kurssikerran alussa harjoiteltiin erilaisten tietokantojen tuomista QGis:iin sekä niiden yhdistämistä toisiinsa  relaatiotietokannaksi ja lopulta yhdeksi tietokannaksi. Olennaisinta on, että aineistoista löytyisi aina jokin kohteita yksilöivä tunnus. Tässä harjoituksessa esikäsittelimme tietokantaa niin, että jokaista aineiston maata koski vain yksi rivi päällekkäisyyksien välttämiseksi tulevissa sarakelisäyksissä eli yhdistimme alueita niin, että maan nimestä tuli yksilöivä tunnus.

Afrikan tietokantojen sisällöistä löytyy mielenkiintoisia yhdistelmiä, joiden korrelaatioita voidaan tarkastella. Luonnonvarojen käyttöönotto, kuten timanttikaivoksen tai öljykenttien löytäminen, aiheuttaa jonkinlaisia muutoksia ympäristöön ja yhteiskuntaan. Tähän liittyy vahvasti esimerkiksi kysysmyksiä siitä, kuka luonnonvarat omistaa, kenellä on oikeus käyttää niitä sekä millaisia ympäristövaikutuksia niillä on.  Näin ollen konfliktien syttymiset saattavat johtua käynnistyneestä toiminnasta, mutta eivät luonnollisestikaan ole ainoa selittävä tekijä.  Kuitenkin esimerkiksi sellaisilla alueilla, joilla sijaitsee timanttikaivoksia, konfliktien on huomattu kestävän pidempään kuin muualla (Raleigh et al. 2010).

Volyymiltään riittävän kattavalla aineistolla, joka sisältäisi käytetyn datan lisäksi muun muassa lisää temporaalista ulottuvuutta,  voitaisiin esimerkiksi koittaa arvioida, sijoittuvatko konfliktien tapahtumisajankohdat heti kaivosten löytymisen aikaan vai vasta poraamisen aloittamiseen sekä toisaalta konfliktien mahdollista vaikutusta kaivosten tuottavuuteen. Lisäksi sellaisten alueiden kohdalla, joissa on ollut pitkään konflikteja voitaisiin arvioida tapahtumien vaikutuksia kehitykseen. Eräänä modernin yhteiskunnan ja infrastruktuurin ’kehittyneisyyden’ mittarina voidaan käyttää internetin käyttöä, joka resurssien keskittyessä konflikteihin ja niiden seurauksiin saattaa viivästyä. Toisaalta taas hyvin tuottavat öljykentät ja timanttikaivokset saattavat kiihdyttää tätä kehitystä. Kaikki esitetyt riippuvuudet ovat hyvin kapeakatseisia ja riittämättömiä tarkasteluun sellaisenaan, mutta ovat esimerkkejä mahdolisista analyyseistä. Tästä saisi hienon interaktiivisen kartan, josta voisi tarkastella myös esimerkiksi yksittäisten konfliktien tapahtumavuosia klikkaamalla. Se kuitenkin oikaisisi esitettävyyteen liittyviä haasteita turhankin paljon.

Kurssikerralla tehtiin myös itsenäisesti Afrikka-harjoituksen oppien mukaisesti tietokanta- ja aineistoliitoksia niin, että saatiin aikaan kuvan 1 kaltainen karttaesitys Suomen valuma-alueiden tulvaherkkyyksistä eli tulvaindeksistä, joka laskettiin keskiylivirtaaman suhteella keskialivirtaamasta; suhteessa korkeampi keskiylivirtaama implikoi korkeaa tulvaherkkyyttä.

Kuva 1. Suomen valuma-alueiden tulvaherkkyysindeksit.

Saatu kartta on puutteellinen, ja sen huomaisi kenties maallikkolukijakin, sillä legendassa on esitetty mystinen sininen merkki järsvisyysprosentista, jota kartasta ei löydy lainkaan. Internetistä etsittyänikään en löytänyt selitystä sille, miksi pylväsdiagrammini eivät näy kartassa, mutta vähintään kävin kuitenkin läpi diagrammien kaikki asetukset ja opin niistä paljon. Tähän toivottavasti palaan vielä myöhemmin.

Toisaalta karttaan on merkitty järvet ja siitä näkee jo melko helposti, että tulvaherkimmät alueet eivät sijaitse samoilla alueilla suurimpien järvien kanssa. Vaikka järvisyysprosentti onkin suhteellinen osuus valuma-alueesta ja järven koolla ei sinänsä ole merkitystä, varmistui tieto taulukkoa tarkkailtaessa. Eskelinen (2019) hyvin toteaa blogissaan, että järvet ovat vesivarastoja ja näin ollen säätelevät virtaamaa. Järvet siis saattavat hetkellisesti varastoida potentiaalisia tulvavesiä mutta järvien tilavuuden ollessa suurempi eivät vain hieman nousseet pinnat aiheuta vielä tulvatilannetta. Samalla järvien esiintyminen viittaa paikallisesti suhteellisiin korkeuseroihin – epätasaisemmassa maastossa on myös painaumia, joihin järvet muodostuvat.

Kuva 2. Suomen valuma-alueiden tulvaherkkyysindeksit ja järvisyysprosentit, vaihtoehtoinen visualisointi.

Tehtävät uudelleen tehtyäni nyt kertausvuonna lisään ainakin hieman parannellun version edellisestä esityksestä. Kuvan 2 karttaesityksessä ovat nyt myös näkyvillä järvisyysprosentit, jotka siis kertovat kunkin valuma-alueen järvien osuuden kokonaispinta-alasta. Päädyin prosenttiosuuden mukaan skaalautuviin ympyrädiagrammeihin esitettävyyden vuoksi. Pylväiden kokoeroja (etenkin kapeina, jollaiseksi ne täytyi muokata erottuakseen toisistaan) oli vaikea nähdä – usein visualisoinneissa pinta-alaan nojaavat visualisoinnit antavat katsojalle nopeammin suuntaa-antavan kuvan ilmiöistä. Lisäksi ehdotettu maa-alan ja järvien osuuden suhdetta vertaileva ympyrädiagrammi, joka olisi toki antanut tarkemman kuvan todellisista prosenttiosuuksista, mutta diagrammien koon kanssa tuli ongelmia esitettävyyden kannalta. Lisäksi järvisyysprosentit vaihtelevat välillä 0-20, joten eroja on vaikea vertailla.

Tällä kertaa karttaesityksessä itse järvet eivät enää olekaan niin tärkeitä esitettäviä, joten olisin voinut jättää lisäämättä ne. Visualisointi ja moni muu asia on kaukana täydellisestä, mutta tarkoituksenani ei olekaan viettää tuntikausia jokaisen kartan ja blogiesityksen kanssa. Tavoitteena on vain kerrata aikaisemmin tekemääni ja oppia menetelmiä niin sanotusti kantapään kautta. Onneksi sisällöt eivät sinänsä tutnuneet hankalilta – tietokantaliitokset on aika perusjuttu tässä vaiheessa. Hauskaa kylläkin on se, että aina välillä joku kohta jää ruksimatta tai eksyn työskentelemään väärässä ohjelmistoversiossa ajatuksissani. Google on ystävä.

Lähteet:

Eskelinen, V. (2019) Kolmas kurssikerta: sekoilua tietokantojen kanssa.  https://blogs.helsinki.fi/veesvees/

Raleigh, C., Linke, A., Hegre, H., & Karlsen, J. (2010). Introducing ACLED: an armed conflict location and event dataset: special data feature. Journal of peace research47(5), 651-660.