Datan käsittelyn perusasiat haltuun MapInfossa Afrikka-datan avulla
Kurssikerran ensimmäisen puoliskon aikana Arttu opetti meille datan käsittelyä MapInfolla. Tarkoituksena oli oppia muokkaamaan dataa sellaiseen muotoon, että teemakarttojen luominen ja muut datan perusteella tehtävät jatkotoimenpiteet olisivat mahdollisimman vaivattomia. Ensimmäisenä opettelimme yhdistämään taulukossa monelle riville hajautetun, mutta samaa aluetta käsittelevän tiedon yhdelle riville. Seuraava vaihe oli oppia yhdistämään tietoa kahdesta eri tietokannasta samaan tietokantaan, myös sellaisesta tietokannasta, joka on Excel-muodossa. Tärkeää oli myös oppia luomaan taulukkoon uusi sarake ja asettaa sille jokin laskutoimitus, jonka perusteella se laskee arvonsa. Harjoittelimme näitä toimenpiteitä tietokannoilla, joista ilmenivät Afrikan valtioiden väkiluvut, internetin käyttäjät vuonna 2000 ja 2016, Facebookin käyttäjät vuonna 2016, konfliktipaikat, timanttikaivokset ja öljykentät. Näiden tietojen avulla loimme esimerkiksi sarakkeen Internetin läpäisevyydestä ja sen kasvusta vuosina 2000–2016.
Blogitehtävänä oli vielä pohtia, mitä tietokannalla voisi vielä tehdä tai päätellä, jos tiedossa olisi vielä konfliktin tapahtumavuosi, laajuus/säde kilometreinä, timanttikaivosten löytämisvuosi, kaivausten aloitusvuosi, tuottavuusluokittelu, öljykenttien löytämisvuosi, poraamisvuosi, tuottavuusluokittelu ja internetkäyttäjien lukumäärä eri vuosina. Näin laajan aineiston perusteella olisi pääteltävissä jo valtava määrä asioita. Voitaisiin esimerkiksi tutkia, onko timanttikaivausten tai öljynporauksen aloittaminen näkynyt seuraavina vuosina vaurastumisena ja sitä kautta internetin käytön lisääntymisenä, ja mikäli on, niin kuinka monen vuoden viiveellä. Toisaalta voisi tutkia, ovatko konfliktit hidastaneet vaurastumista ja siten internetin käytön lisääntymistä. Näitä erilaisia maita voisi verrata sellaisiin valtioihin, joissa ei ole öljykenttiä, timanttikaivoksia eikä konflikteja. Toisena tutkittavana kysymyksenä voisi olla, onko öljykenttä- ja timanttialueilla enemmän konflikteja kuin muilla alueilla muodostamalla sarakkeen timanttikaivokset/konfliktit-suhteesta sekä öljykentät/konfliktit-suhteesta. Tällaisen yhteyden voisi olettaa löytyvän ihmisen ahneuden vuoksi. Mikäli yhteys löytyisi, voisi suhdelukujen perusteella myös päätellä, lisääkö jommankumman luonnonvaran läsnäolo konfliktien riskiä enemmän kuin toinen. Sonja Koivisto esitti blogissaan hyvän idean, että muodostamalla eri vuosien konflikteista teemakarttoja ja asettamalla ne videolle peräkkäin voisi tarkastella konfliktien syntymistä ja häviämistä eri alueilla. Sonja Koiviston ideaan voisi lisätä esimerkiksi vielä öljykenttien ja timanttien löytymiset eri aikoina, jolloin niiden mahdollinen yhteys näkyisi videolta.
Kuten Valtteri Lehto kirjoittaa blogissaan, tieteentekijän täytyy muistaa, että kahden tekijän välinen korrelaatio ei välttämättä kerro syy-seuraussuhteesta, esimerkiksi timanttikiistojen ja konfliktien välillä. Hätiköityjä johtopäätöksiä ei siis kannata tehdä.
Kartta Suomen päävaluma-alueiden tulvaindekseistä ja järvisyydestä
Kurssikerran karttatehtävänä oli luoda koropleettikartta Suomen päävaluma-alueiden tulvaindekseistä ja liittää siihen pylväsdiagrammit järvisyydestä. Aineistona saimme Artulta kartan Suomen päävaluma-alueista, johon liittyi myös taulukkoaineistona tiedot päävaluma-alueiden keskivirtaamista MQ ja keskialivirtaamista MNQ. Lisäksi käytössämme oli kaksi muuta taulukkoaineistoa: toisessa tiedot valuma-alueiden keskiylivirtaamasta MHQ MapInfo-tietokantana ja toisessa järvisyydestä (%) Excel-taulukkona. Tietokannat piti yhdistää yhteen taulukkoon kurssikerran alkupuolella opittujen tietojen perusteella. Taulukkoon muodostettiin sarake tulvaindeksille, joka tarkoittaa keskiylivirtaaman suhdetta keskialivirtaamaan. Toisin sanoen, mitä suurempi tulvaindeksi on, sitä voimakkaammat ovat virtausvaihtelut. Kun taulukko oli valmis, teemakartta oli helppo luoda aiempien kurssikertojen tietojen perusteella. Histogrammin perusteella valitsin luonnolliset luokkavälit tulvaindeksien luokitteluun.
Kurssikerran loputtua julistin tämän rumimmaksi kartaksi, jonka olen TAK- ja PAK-kurssien aikana tehnyt. Seuraavana päivänä kuitenkin palasin korjailemaan värejä, joten tämä lopullinen tuotos on vain semisti ruma.
Valuma-alueiden rajoilla on aina jokin vedenjakaja, joka jakaa veden virtauksen eri suuntiin. Teemakartastani voi siis päätellä korkeampien ja matalampien alueiden vaihteluja valuma-aluerajojen perusteella. Kartasta on myös selvästi nähtävissä, että rannikkoa lähinnä olevat pienet valuma-alueet tulvivat ja laskevat voimakkaimmin. Sisämaassa tulviminen ja jokien virtauksen voimakas vähentyminen ovat vähäisempiä. Mitä järvisempi alue on, sitä pienempi sen tulvaindeksi on. Tämä johtuu siitä, että järvet tasoittavat tulvimista ”keräämällä” vettä virtauksen kasvaessa. Sari Aroalho toteaa aihetta käsitellessään, että järvet myös toisaalta luovuttavat kuivina kausina vettä järviin, jolloin keskialivirtaama ei ole niin alhainen.
-Vilja
Lähdeviitteet
Sari Aroalho, Kolmas kurssikerta: Tietokantojen kulissien takana. <https://blogs.helsinki.fi/ahonenan/> Luettu 8.2.2017
Sonja Koivisto, Tietokantojen käsittelyä. <https://blogs.helsinki.fi/kosokoso/> Luettu 1.2.2017
Valtteri Lehto, Kurssikerta 3: Datatulva. <https://blogs.helsinki.fi/valttele/> Luettu 8.2.2017