Kurssikerta 3: Uutta ja yhdisteltyä tietoa

Käytimme koko kurssikerran tällä kertaa tutustuen tietokantoihin ja tiedon yhdistelemiseen. Monesti tarvittavat tiedot löytyvät useista paikoista ja tietoa voi joutua muokkaamaan. Harjoitusta varten lisäsimme QGIS:siin aineiston Afrikan maista. Tavoitteena oli ikään kuin tiivistää tietoja, jotta saataisiin yhden maan tiedot yhdelle riville. Tähän oli vaihtoehtona useampikin toiminto. Merge selected features-toiminto sopii parhaiten yksittäisiin muutoksiin. Dissolve-työkalulla saa taas kerralla tehtyä muutoksia koko aineistoon, mutta sillä ei voi esimerkiksi summata kaikkien yhdistettävien rivien arvoja. Monimutkaisempiin yhdistämisiin paras vaihtoehto on aggregate, jolla pystyy tekemään myös laskutoimituksia kun muokkaa koko aineistoa. Tietojen yhdistely on hyödyllistä selkeyden takia ja se voi olla tärkeää, jotta voimme taas muokata ja luoda uutta tietoa. Menetelmä kannattaa siis valita riippuen siitä, mitä on tekemässä ja kuinka laajasti haluaa tehdä muutoksia.

Laskimme pinta-alat uudeksi sarakkeeksi. QGIS:in avulla pystyy tekemään laskutoimituksia helposti ja lisätä tietoa mitä alkuperäisessä tietokannassa ei ole. Laskettuani pinta-alat aggregatella, päätin vielä tarkistaa, että ne tulivat oikein. Huomasin kuitenkin, että pinta-alat olivat edelleen vain yhdeltä riviltä, eikä kaikkien yhden maan alueiden yhteenlaskettu summa. Lopulta ymmärsin, että olin käyttänyt “pohjana” väärää kerrosta (dissolvella tehtyä), kun olisi pitänyt käyttää alkuperäistä, jolloin kaikki pinta-alat ovat mukana. Uutta tietoa tehtäessä syntyykin monesti uusia layereita, joten pitää olla tarkkana mitä niistä käyttää ja että kaikki tarvittava tieto on mukana. Kannattaa varmasti myös poistaa vanhoja layereita. Silloinkin pitää tietysti olla tarkkana, ettei poista mitään tärkeää.

Toinen uusi asia oli tietokantaliitokset. Ensin olimme siis työskennelleet vain yhden tietokannan sisällä. Uusi data voi kuitenkin sijaita jossain ihan muualla, kuten excel-tiedostossa. Afrikan maihin liittyen meillä oli väkiluvut ja internetin sekä sosiaalisen median käyttämisestä tietoa excel-taulukossa. Ensimmäiseksi muutimme sen cvs-tiedostoksi, koska se toimii paljon paremmin yhteen QGIS:sin kanssa. Tietokantaliitos onnistuin join-toiminnolla, joka vaikutti ensimmäisen käyttökerran perusteella aika yksinkertaiselta. Tärkeintä on se, että löytyy jokin sarake, jolla on kaksoiskappale valmiissa aineistossa ja tiedot saadaan liitettyä toisiinsa. Uusien tietojen avulla laskin uuden sarakkeen eri Afrikan maiden Facebookin käyttäjien prosenttiosuuksista.

Seuraavaksi lisäsimme tietoa konflikteista, timanttilouhoksista ja öljykentistä. Kaksi ensimmäistä olivat pistetiedostoja, mutta öljykentät olivat polygoneina. Kun tiedettiin esimerkiksi konfliktien sijainnit, saatiin laskettua taas uutta tietoa siitä paljon konflikteja on ollut maittain. Sama tehtiin timantti- ja öljykenttäaineistoilla. Aineistoon on tallennettu myös konfliktien vuodet, joten sen perusteella pystyttiin tarkastelemaan, kuinka pitkäkestoisia epävakaat ajat ovat olleet. Loimme siis paljon uusia sarakkeita yhdistelemällä eri aineistoista saatua tietoa. Kun tiedetään timanttikaivosten ja öljykenttien löytämis- ja käyttöönottoajankohdat, voitaisiin myös tutkia sitä, onko konflikteja tapahtunut samoina aikoina niiden lähellä tai ylipäätään samassa maassa. Internetin käytön lukumäärä eri vuosina taas kertoo paljon maan kehityksestä. Sitäkin voitaisiin tutkia konfliktien yhteydessä ja miettiä, ovatko konfliktit mahdollisesti vaikuttaneet siihen.

Tulvaindeksi ja järvisyys

Lisäksi saimme itsenäiseksi tehtäväksi teemakartan tekemisen Suomen vesistöjen valuma-alueiden tulvaindekseistä. Aineistoissa oli valmiina projekti, josta löytyi tarvittavat tiedot. Ne oli kuitenkin hieman eri paikoissa, joten käytin join-toimintoa ja sain kaiken samaan taulukkoon. Tulvaindeksin laskemiseen tarvitsin keskiylivirtaaman ja keskialivirtaaman, eli tulva-ajan virtaamien keskiarvot ja kuivien kausien virtaamien keskiarvot. Se kertoo paljon virtaaman vaihtelusta, koska käytämme joen virtaaman ääripäitä. Samalle kartalle tarvittiin myös järvisyysprosentti, joka oli excel-tiedostona. Muutin sen cvs-tiedostoksi ja toin QGIS:siin. Laskin sitten tulvaindeksin, joka saadaan jakamalla keskiylivirtaama keskialivirtaamalla calculatorissa ja sain siitä uuden sarakkeen.

Aiemmalla kurssikerralla olimme jo tutustuneet siihen, miten teemakartta saadaan tehtyä. Jonkun muuttujan, eli tässä tapauksessa tulvaindeksin, arvojen avulla kartan alueet jaetaan luokkiin. Tutkittuani ensin histogrammissa arvojen jakautumista päädyin kolmeen luokkaan, vaikka olisin varmaan voinut laittaa enemmänkin. Huomasin myös että yksi arvo oli erityisen poikkeava, 1100, kun muut olivat arvoltaan suurimmaksi osaksi alle kolmen sadan. Menin siis katsomaan taulukosta ja se oli Aurajoki. Sen kummatkaan luvut eivät kuitenkaan olleet mitenkään erityisen poikkeavat muista vesistöistä, keskialivirtaama vain oli todella alhainen ja keskiylivirtaama siihen verrattuna korkea. On vielä hieman vaikeaa tehdä karttoja, koska oma arviointi ei oikein kerro mitään siitä, onko tulokset edes lähellä oikeaa. Päädyin nyt kuitenkin siihen lopputulokseen, ettei arvo ole mitenkään epätavallinen tai väärä.

Aineistossa oli myös järvi- ja joki-layerit ja mietin tekevätkö ne kartasta liian sekavan, jos ne sisällyttää karttaan. Toisaalta ne liittyvät aiheeseen, ja niistä voisi päätellä jotain, joka auttaa kartan tulkinnassa. Päätin siis ottaa ne mukaan kartan ensimmäiseen versioon (kuva 1), mutta laitoin ne vaalealla värillä, jotta ne eivät hirveästi häiritsisi kartan lukemista. Halusin myös lisätä suurimpien tulvaindeksien vesistöjen nimiä kartalle, joten menin labels-osioon. Päätin että sopiva raja olisi 300, jotta nimiä ei tulisi liikaa. Kartalla siis näkyvät niiden vesistöjen nimet, joiden tulvaindeksi on 300 tai yli. Säädin hetken työkalun kanssa, jotta nimet näkyisivät tarpeeksi ja erottuisivat, mutta jottei ne peittäisi liikaa. Parhaan tuloksen sain, kun laitoin niille valkoisen taustavärin.

Kuva 1. Suomen valuma-alueiden tulvaindeksit.

Seuraavaksi lisäsin karttaan järvisyysprosenttia kuvaavat pylväät. Ne sai layerin diagrams osiosta, mutta työkalu oli hieman hankala enkä ensin keksinyt miten se toimii. Sain apua Tapion kurssiblogista, koska hänellä oli ollut sama ongelma. Ratkaisu löytyi diagrams-työkalun size kohdasta, josta sai valittua muuttujan ja lisättyä sen maksimiarvon. Toisesta kartasta otin vesistöt ja nimet pois, jotta kartta olisi selkeämpi. Pylväät ovat aika pieniä, koska osa valuma-alueistakin on pieniä ja osa niistä näyttää vain vaakaviivoilta. Kuva 2 on saamani karttakuva järvisyyspylväiden kanssa. Olisin voinut vielä lisätä järvisyysprosentille paremman selityksen, joka kertoisi pylväiden korkeudesta jotain, mutta se nyt jäi.

Kuva 2. Suomen valuma-alueiden tulvaindeksit ja järvisyysprosentit.

Kartalta erottuu ensimmäisenä se, että kaikki tulvaherkimmät alueet, eli joissa on korkea tulvaindeksi, sijaitsevat rannikolla. Niissä on myös alhainen järvisyysprosentti. Suurilla valuma-alueilla sisämaassa taas on korkea järvisyysprosentti ja pieni tulvariski. Varsinkin nyt karttaa tulkitessa on selvää, että olisin voinut lisätä luokkia, koska pystyisi tulkitsemaan pienempiä eroja alueiden välillä. Monet kuuluu alimpaan luokkaan, mutta järvisyysprosenteissa on suuria eroja. Sen voi kuitenkin päätellä, että järvisyys todennäköisesti mataloittaa tulvariskiä.

Lähteet:

Turpeinen, T. (2021) 3: Konflikteja ja tulvaindeksejä, luettu 9.2.2021. https://blogs.helsinki.fi/tapiotur/2021/02/04/3-konflikteja-ja-tulvaindekseja/

Kurssikerta 3: Uutta ja yhdisteltyä tietoa

Tulvaindeksi ja järvisyys

One Reply to “Kurssikerta 3: Uutta ja yhdisteltyä tietoa”

Leave a Reply Cancel reply