Kurssikerta 3: Datan käsittelyä ja päävaluma-alueet Suomessa

Datan käsittelyn perusasiat haltuun MapInfossa Afrikka-datan avulla

Kurssikerran ensimmäisen puoliskon aikana Arttu opetti meille datan käsittelyä MapInfolla. Tarkoituksena oli oppia muokkaamaan dataa sellaiseen muotoon, että teemakarttojen luominen ja muut datan perusteella tehtävät jatkotoimenpiteet olisivat mahdollisimman vaivattomia. Ensimmäisenä opettelimme yhdistämään taulukossa monelle riville hajautetun, mutta samaa aluetta käsittelevän tiedon yhdelle riville. Seuraava vaihe oli oppia yhdistämään tietoa kahdesta eri tietokannasta samaan tietokantaan, myös sellaisesta tietokannasta, joka on Excel-muodossa. Tärkeää oli myös oppia luomaan taulukkoon uusi sarake ja asettaa sille jokin laskutoimitus, jonka perusteella se laskee arvonsa. Harjoittelimme näitä toimenpiteitä tietokannoilla, joista ilmenivät Afrikan valtioiden väkiluvut, internetin käyttäjät vuonna 2000 ja 2016, Facebookin käyttäjät vuonna 2016, konfliktipaikat, timanttikaivokset ja öljykentät. Näiden tietojen avulla loimme esimerkiksi sarakkeen Internetin läpäisevyydestä ja sen kasvusta vuosina 2000–2016.

Blogitehtävänä oli vielä pohtia, mitä tietokannalla voisi vielä tehdä tai päätellä, jos tiedossa olisi vielä konfliktin tapahtumavuosi, laajuus/säde kilometreinä, timanttikaivosten löytämisvuosi, kaivausten aloitusvuosi, tuottavuusluokittelu, öljykenttien löytämisvuosi, poraamisvuosi, tuottavuusluokittelu ja internetkäyttäjien lukumäärä eri vuosina. Näin laajan aineiston perusteella olisi pääteltävissä jo valtava määrä asioita. Voitaisiin esimerkiksi tutkia, onko timanttikaivausten tai öljynporauksen aloittaminen näkynyt seuraavina vuosina vaurastumisena ja sitä kautta internetin käytön lisääntymisenä, ja mikäli on, niin kuinka monen vuoden viiveellä. Toisaalta voisi tutkia, ovatko konfliktit hidastaneet vaurastumista ja siten internetin käytön lisääntymistä. Näitä erilaisia maita voisi verrata sellaisiin valtioihin, joissa ei ole öljykenttiä, timanttikaivoksia eikä konflikteja. Toisena tutkittavana kysymyksenä voisi olla, onko öljykenttä- ja timanttialueilla enemmän konflikteja kuin muilla alueilla muodostamalla sarakkeen timanttikaivokset/konfliktit-suhteesta sekä öljykentät/konfliktit-suhteesta. Tällaisen yhteyden voisi olettaa löytyvän ihmisen ahneuden vuoksi. Mikäli yhteys löytyisi, voisi suhdelukujen perusteella myös päätellä, lisääkö jommankumman luonnonvaran läsnäolo konfliktien riskiä enemmän kuin toinen. Sonja Koivisto esitti blogissaan hyvän idean, että muodostamalla eri vuosien konflikteista teemakarttoja ja asettamalla ne videolle peräkkäin voisi tarkastella konfliktien syntymistä ja häviämistä eri alueilla. Sonja Koiviston ideaan voisi lisätä esimerkiksi vielä öljykenttien ja timanttien löytymiset eri aikoina, jolloin niiden mahdollinen yhteys näkyisi videolta.

Kuten Valtteri Lehto kirjoittaa blogissaan, tieteentekijän täytyy muistaa, että kahden tekijän välinen korrelaatio ei välttämättä kerro syy-seuraussuhteesta, esimerkiksi timanttikiistojen ja konfliktien välillä. Hätiköityjä johtopäätöksiä ei siis kannata tehdä.

Kartta Suomen päävaluma-alueiden tulvaindekseistä ja järvisyydestä

Kurssikerran karttatehtävänä oli luoda koropleettikartta Suomen päävaluma-alueiden tulvaindekseistä ja liittää siihen pylväsdiagrammit järvisyydestä. Aineistona saimme Artulta kartan Suomen päävaluma-alueista, johon liittyi myös taulukkoaineistona tiedot päävaluma-alueiden keskivirtaamista MQ ja keskialivirtaamista MNQ. Lisäksi käytössämme oli kaksi muuta taulukkoaineistoa: toisessa tiedot valuma-alueiden keskiylivirtaamasta MHQ MapInfo-tietokantana ja toisessa järvisyydestä (%) Excel-taulukkona. Tietokannat piti yhdistää yhteen taulukkoon kurssikerran alkupuolella opittujen tietojen perusteella. Taulukkoon muodostettiin sarake tulvaindeksille, joka tarkoittaa keskiylivirtaaman suhdetta keskialivirtaamaan. Toisin sanoen, mitä suurempi tulvaindeksi on, sitä voimakkaammat ovat virtausvaihtelut. Kun taulukko oli valmis, teemakartta oli helppo luoda aiempien kurssikertojen tietojen perusteella. Histogrammin perusteella valitsin luonnolliset luokkavälit tulvaindeksien luokitteluun.

Kurssikerran loputtua julistin tämän rumimmaksi kartaksi, jonka olen TAK- ja PAK-kurssien aikana tehnyt. Seuraavana päivänä kuitenkin palasin korjailemaan värejä, joten tämä lopullinen tuotos on vain semisti ruma.

Koropleettikartta Suomen päävaluma-alueiden tulvaindekseistä ja järvisyys pylväsdiagrammeina.

 

Valuma-alueiden rajoilla on aina jokin vedenjakaja, joka jakaa veden virtauksen eri suuntiin. Teemakartastani voi siis päätellä korkeampien ja matalampien alueiden vaihteluja valuma-aluerajojen perusteella. Kartasta on myös selvästi nähtävissä, että rannikkoa lähinnä olevat pienet valuma-alueet tulvivat ja laskevat voimakkaimmin. Sisämaassa tulviminen ja jokien virtauksen voimakas vähentyminen ovat vähäisempiä. Mitä järvisempi alue on, sitä pienempi sen tulvaindeksi on. Tämä johtuu siitä, että järvet tasoittavat tulvimista ”keräämällä” vettä virtauksen kasvaessa. Sari Aroalho toteaa aihetta käsitellessään, että järvet myös toisaalta luovuttavat kuivina kausina vettä järviin, jolloin keskialivirtaama ei ole niin alhainen.

-Vilja

Lähdeviitteet

Sari Aroalho, Kolmas kurssikerta: Tietokantojen kulissien takana. <https://blogs.helsinki.fi/ahonenan/> Luettu 8.2.2017

Sonja Koivisto, Tietokantojen käsittelyä. <https://blogs.helsinki.fi/kosokoso/> Luettu 1.2.2017

Valtteri Lehto, Kurssikerta 3: Datatulva. <https://blogs.helsinki.fi/valttele/> Luettu 8.2.2017

Kurssikerta 1: MapInfon perustaidot haltuun ja teemakartta Suomen työllisyydestä

Ensimmäisellä kurssikerralla oli tarkoituksena oppia käyttämään MapInfon perustyökaluja. Aluksi Arttu opetti käyttämään työkaluja, joita ohjelmassa eniten tarvitsee. Loimme yhdessä yhden teemakartan vaihe vaiheelta, jokainen omalla koneellaan. Seuraavana tehtävänä oli valita Artun valmiiksi meille hankkimista aineistoista jokin kiinnostava ja tehdä siitä teemakartta itsenäisesti. Aineistot olivat Tilastokeskuksen tietoja, pääsääntöisesti vuodelta 2015.

Kurssikerralla oli hyödyllistä oppia luomaan MapInfolla kartan peruselementit: pohjoisnuoli, mittakaava ja legenda. Legendan luominen kävi MapInfolla nopeammin ja vähemmällä vaivalla kuin CorelDraw-ohjelmassa, jota olen käyttänyt aiemmilla kursseilla karttojen tekoon. Oli myös hyödyllistä tarkastella värien vaihtelun merkitystä kartan ulkonäköön ja havainnollistavuuteen. Luokkien värien täytyy olla riittävän erilaiset, jotta katsoja huomaa erot. Toisaalta ne eivät saa olla liian erilaiset, jotta kuva säilyy selkeänä kokonaisuutena. Usein paras valinta on saman värin eri tummuusasteet. Valitsin karttaani punaisen ja oranssin sävyjä.

Toinen tärkeä asia kurssikerralla oli, miten teemakartan ulkonäköön vaikuttavat erilaiset luokkajaot ja minkälaista luokkajakoa kannattaa käyttää. Tasaväliset luokat, jossa jokaisen luokan vaihteluväli on yhtä suuri, tai kvantiilit, joissa pyritään jokaisessa luokassa yhtä suureen havaintojen määrään, eivät välttämättä ole parhaita vaihtoehtoja, koska ne voivat hajauttaa hyvin lähellä toisiaan olevien havaintojen ryhmän eri luokkiin. Päätin siksi valita luonnollisen luokkajaon, joka pyrkii luomaan sellaisia luokkia, joihin luonnollisesti osuu paljon havaintoja ja asettamaan luokkavälit sellaisiin kohtiin, joissa havaintoja ei juuri ole.

Työllisyys Suomessa alueellisesti

Kartaltani näkee työssäkäyvien osuuden koko väestöstä eri alueilla Suomessa. Tummimmat sävyt kertovat parhaasta työllisyystilanteesta, vaaleimmat heikoimmasta. Pääkaupunkiseutu, Tampereen, Turun, Vaasan ja Oulun seutu sekä Ahvenanmaa erottuvat selvästi työllistetyimpinä alueina. Itä- ja Pohjois-Suomessa työllisyys on pienintä. Suurten kaupunkien alueilla töitä on eniten johtuen palveluiden suuresta tarjonnasta ja kysynnästä. Pienemmät kaupungit, jotka sijaitsevat kauempana suurista kaupungeista ovat pääsääntöisesti muuttotappioisia, joten palvelujen ja siten myös työpaikkojen tarjonta ovat pienempiä.

Muiden kurssilaisten blogitekstejä lukiessani oli huomattavaa Sonja Koiviston ja Sakari Sarjakosken karttojen samankaltaisuus omaani verrattuna. Heidän kartoiltaan on nähtävissä korkeakoulutettujen osuus väestöstä. Heidän kartoiltaan erottuvat selvästi yliopistokaupungit. Joensuu, Kuopio ja Lappeenranta eivät erotu minun kartassani aivan yhtä selkeinä, mutta niissäkin työllisyys on toisiksi parhaassa luokassa eli 59,6–64,7 %. Yliopistot luovat kaupunkeihin ammattitaitoa ja työpaikkoja, joten karttojen samankaltaisuus ei ole kovin yllättävää. Toisaalta yliopistokaupungeissa muidenkin kuin koulutuspalvelujen ja siten myös työpaikkojen tarjonta on suurta, koska ne ovat vilkkaita kaupunkeja.

Hyvän huomion ensimmäisessä blogitekstissään on tehnyt Alina Ahonen. Hän kirjoittaa, että työllisyys Helsingissä, Vaasassa, Turussa, Tampereella ja Oulussa ei kuitenkaan yllä suurimpaan luokkaan todennäköisesti siksi, että monet kaupungeissa työskentelevät asuvat kuitenkin lähikunnissa ja toisaalta suuri opiskelijoiden määrä vaikuttaa työssä käyvien osuutta vähentävästi.

Karttani onnistui suhteellisen hyvin siihen nähden, että se on ensimmäinen MapInfolla itsenäisesti tuottamani kartta. Värisävyjä olisin voinut hioa vielä paremmiksi näin jälkikäteen ajateltuna. Värisävyjen skaala on nyt turhan laaja.

-Vilja

Lähdeviitteet

Anniina Ahonen, Ensimmäinen kurssikerta: Askelia paikkatiedon maailmaan. <https://blogs.helsinki.fi/ahonenan/Luettu 25.1.2017.

Sonja Koivisto, MapInfon alkeet. <https://blogs.helsinki.fi/kosokoso/> Luettu 25.1.2017.

Sakari Sarjakoski, Kurssikerta 1− Pakki auki. <https://blogs.helsinki.fi/sasakari/> Luettu 25.1.2017.