Kolmas kurssikerta: Tietokantojen kulissien takana

Pitiköhän painaa tästä? Siinä vaiheessa, kun kysyi tätä kysymystä itseltään vähintään kymmenettä kertaa, alkoi jo epäillä olevansa hukkumassa valikkojen suohon. Valitse tuo, älä tätä, tee näin, mutta muista ensin tämä – ei, ei, älä nyt ainakaan siitä paina! Vaikka välillä täytyikin juosta kärryjen perässä kyydistä tiputtuaan, niin tässä sitä silti ollaan. Hieman tulvaindeksit vielä ehkä vilisevät silmissä, mutta en sentään hukkunut, kaikeksi onneksi.

Kolmannella kerralla pääsimme tutustumaan tarkemmin tietokantojen maailmaan, sillä opettelimme muokkaamaan, yhdistelemään ja tuottamaan uutta tietoa niihin. Itsenäisenä harjoituksena oli luoda Suomen valuma-alueiden tulvaindeksistä ja järvisyysprosentista teemakartta, jonka teossa joutui useampaan otteeseen koettelemaan osaamistaan tietokantojen kanssa. Tätä ennen kuitenkin harjoittelimme yhdessä näitä samoja asioita, mutta Suomen valuma-alueiden sijasta aineistonamme toimi Afrikan kartta ja siihen liittyvät erilaiset, osittain vielä työstämistä ja muokkaamista vaativat tietokannat.

Verta ja timantteja Mitä Afrikan kartalta voisi tietokantojen avulla ymmärtää?

Yhteisen harjoittelumme pohjalla olevaan Afrikan karttaan liittyy tietokantoja niin konflikteista, timanttikaivoksista, öljykentistä kuin internetin käytöstä. Tämän datan avulla voidaan paikkatieto-ohjelmassa saada selville uusia asioita, joiden määrässä on lähinnä mielikuvitus rajana.

Konfliktien tapahtumavuoden avulla voitaisiin arvioida konfliktien historiaa ja nykyistä tilannetta riippuen tietenkin siitä, kuinka tuoretta aineisto niistä on. Kun tiedot yhdistetään konfliktien laajuuteen, voidaan esimerkiksi vertailla alueellisella tasolla nykyisten konfliktien merkittävyyttä. Laajuus on tietokannassa ilmoitettu säteenä, jolloin sen avulla voidaan niin halutessa laskea arvioitu pinta-ala ympyrän pinta-alan kaavalla. Kuten Hanna Hirvonen (2017) blogissaan ehdottaa, voitaisiin ympyrät myös sijoittaa karttapohjalle, jolloin saataisiin havainnollisemmin ja visuaalisemmin kuvaa konfliktien todellisesta laajuudesta pelkkien numeroiden sijasta.

Timanttikaivosten löytämisvuoden ja kaivausten aloitusvuoden avulla saadaan laskettua, kuinka pitkään kesti, että löydöksen jälkeen kaivaukset aloitettiin. Voidaan myös esimerkiksi timanttikaivosten tuottavuusluokitteluun vertaamalla saada näistä tiedoista selville, onko tuottoisammat esiintymät otettu nopeammin käyttöön kuin pienemmät. Tuottavuusluokittelu auttaa myös laittamaan timanttikaivokset järjestykseen ja vertaamaan alueellisesti, millä valtiolla on suurimmat timanttivarat.

Öljyistä on tietokannassa saatavilla hyvin samanlaisia tietoja kuin timanteistakin. Löytämisvuoden ja poraamisvuoden erotuksella saadaan jälleen selville viive löydöstä hyödyntämisen aloittamiseen ja tuottavuusluokittelun avulla voidaan vertailla näitä aikoja sekä eri maiden öljyvaroja.

Tietokannasta löytyy myös internetinkäyttäjien määrät eri vuosina. Niiden avulla saadaan laskettua paitsi absoluuttinen kasvu niin myös eri maiden vertailua helpottamaan kasvu prosentuaalisesti. Jos tiedoissa on myös valtioiden väkiluku, voidaan internetin käyttäjien suhteellinen osuus väestöstä laskea, mikä myös osaltaan helpottaa eri maiden vertailua.

Eri aihealueiden tietoja toisiinsa yhdistelemällä voidaan myös selvittää korrelaatioita, mutta syy-seuraussuhteiksi niitä ei voida ilman tarkempia tutkimuksia nimittää. Timanteilla ja konflikteilla on joissain tapauksissa Afrikan historiassa ollut kuitenkin selkeä yhteys toisiinsa, sillä niiden avulla on rahoitettu sotatoimia (Rowntree ym. 2012: 270–271). Tietokantojen aineistojen avulla voidaan vertailla alueellisesti, onko tällaista yhteyttä havaittavissa ja jos on, niin minkälaista. Ovatko konfliktien ajankohta ja timanttikaivoksien käyttöönotto sattuneet samoihin aikoihin? Entä ovatko konfliktialueiden timanttikaivokset tuottavuudeltaan ennemmin suuria vai pieniä?

Voidaan myös miettiä, ovatko nämä tietyt luonnonvarat saattaneet olla ainakin osittain konfliktien alkamisen taustalla. Se saattaa näkyä kartalla alueellisesti samoina sijainteina tai esimerkiksi vuosien yhteneväisyyksinä. Toisaalta esimerkiksi Wise ja Shtylla (Kotsadamin ym. 2017: 53 mukaan) myös toteavat, että konfliktien vastapainona luonnonvarat voivat parhaimmillaan kasvattaa taloutta, tuoda rahaa ja töitä sekä kehittää valtiota eteenpäin. Siksi luonnonvarojen hyödyntämisen aloitusajankohtaa voisi verrata Internetin käyttöön ja sen kasvuun, joita voidaan näistä tietokannan palasista pitää parhaiten vaurautta kuvaavina (Jokinen 2017).

Tietokannan avulla voidaan lisäksi saada selville, onko kyseisillä luonnonvaroilla eli timanteilla ja öljyllä minkäänlaista yhteyttä toisiinsa alueellisesti. Ovatko timanttikaivokset keskittyneet eri alueille kuin öljynporaus vai ovatko ne kenties samojen valtioiden rajojen sisäpuolella? Jos riippuvuussuhteita löytyy, voidaan vertailla myös näiden tuottavuusasteiden korrelaatiota eli onko esimerkiksi suurten timanttikaivosten lähistöllä nimenomaan suuria öljylähteitä.

Entä olisiko internetinkäyttäjien määrissä yhteyksiä konflikteihin? Erilaiset yhteenotot yleensä saattavat hidastaa tai haitata valtion kehitystä, jolloin oletettavasti myös internetinkäyttäjien määrässä tai sen kasvussa voi tapahtua notkahdus. Jos tällaisia korrelaatioita on havaittavissa, voidaan tutkia myös sitä, kuinka pitkään konfliktin jälkeen on kestänyt, että internetinkäyttäjien määrät ovat lähteneet kasvuun vai ovatko ollenkaan. Entä onko tähän mitään yhteyttä sillä, kuinka laaja konflikti on ollut alueellisesti?

Näiden lisäksi on varmasti vielä paljon muitakin tapoja hyödyntää kyseisten tietokantojen tietoja. Niiden löytämiseen tarvittaisiin uusia näkökulmia, luovuutta ja mielikuvitusta, sillä perimmiltään paikkatieto-ohjelman mahdollisuudet ovat loppujen lopuksi kiinni yleensä juurikin siitä, kuinka kekseliäästi aineistoja osaa käyttää. Tietenkin nokkeluuden lisäksi tarvitaan myös tietoa ja taitoa ja ohjelman täytyy tarjota sopivat puitteet, mutta jos tahtoo luoda jotain uutta, on uskallettava ajatella ensimmäistä ajatusta pidemmälle.

Teemakartan rakentaminen

Tällä kerralla itse teemakartan tekeminen oli huolista pienempi, tai ainakin sen oli tarkoitus olla, sillä eri tietokannoissa sijaitsevat ja osittain vielä tuottamattomat tiedot toimivat tämän kerran päätehtävänä. Ideana oli yhdistää tarvittavat tiedot yhteen tietokantaan, jonka avulla sitten pystyisi laskemaan loput tarvittavat tiedot ja tekemään vielä niistä teemakartan.

Kun tehtävänannossa ei sen enempää eritelty jokaista työvaihetta, oli turvauduttava joko omaan muistiin tai vinkkeihin. Näistä itse jonkintasoista oppimista tavoitellessani valitsin ensimmäisen vaihtoehdon, vaikka se olikin yhden harjoittelukerran jälkeen sanalla sanoen haastavaa. Varsinkin aloittaminen meinasi olla kompastuskivi, sillä kun eteen avautuu useampia tietokantoja täynnä dataa, on yksinkertaisesti pakko pysähtyä miettimään, miten tehtävän kannalta on järkevintä edetä.

Vaikka eteneminen olikin hataraa, löytyi kokeilemalla lopulta ilmeisesti oikeat nappulat, sillä jonkinlainen kartta tuli kuitenkin saatua aikaiseksi. Keskiylivirtaaman MHQ:n ja keskialivirtaaman MNQ:n suhteen avulla laskettu tulvaindeksi päätyi koropleettikartan pohjaksi, kun taas Excel-tiedostosta MapInfoon haettu järvisyysprosentti on kartassa kuvattu pylväsdiagrammien avulla.

Sinisen sävyt hallitsevat jälleen karttaa teemaa kuvaavasti. Jos pylväsdiagrammien olisi halunnut erottuvan selkeämmin ja siten kiinnittävän lukijan huomion, olisi voinut olla järkevämpää värittää ne esimerkiksi sinisen vastavärillä oranssilla, jolloin kontrasti olisi tuonut ne helposti esiin kartalla. En kuitenkaan halunnut korostaa kumpaakaan seikkaa toista enemmän, joten päädyin kuvassa 1 näkyvään värimaailmaan. Turkoosinsävyisinä pylväsdiagrammit kuitenkin erottuvat mielestäni tarpeeksi paljon koropleettikartan syvemmistä sinisen sävyistä. Pylväissä päätin lisäksi käyttää neliöjuuriskaalaa, jonka avulla myös pienemmät pylväät erottuvat paremmin.

Tällä kertaa koropleettikartan luokittelu tuotti erityistä päänvaivaa, enkä tiedä, olenko vieläkään siihen täysin tyytyväinen. Tulvaindeksiaineiston jakaumaa voidaan pitää vinona ja epämääräisenä, sillä se on jakautunut hyvin pitkälle alueelle, mutta painottunut selvästi vasemmalle. Aluksi kokeilin siihen kvantiileja, mutta niiden avulla luokat eivät tuntuneet jakautuvan fiksusti. Seuraava ratkaisuni oli viidestä luonnollisesta luokista sovellettu neljän luokan jako, jossa yhdistin yhden ainoan havainnon sisältävän ylimmän luokan, jonka MapInfo ilmoitti olevan 1100 – 1100, toiseksi ylimpään luokkaan 180 – 1100. Silloin luokat olivat melko tasakokoisia, mikä tuntui aluksi järkevimmältä ratkaisulta.

En tullut kuitenkaan heti ajatelleeksi, että näissä luokissa oli eräs harmillinen ongelma, joka koskee erityisesti tätä viimeistä, yhdistettyä luokkaa. Koska aineisto on siinä hyvin laajalle alueelle levinnyt, menetetään samalla yksityiskohtaisempaa tietoa valuma-alueista. Esimerkiksi Valtteri Lehto on käyttänyt kartassaan omaa luokittelua, jonka avulla ääripäät korostuvat hajallaan olevassa aineistossa (Lehto 2017). Omassa kompromissiluokittelussani tämä tieto oli kuitenkin valitettavasti sulautunut osaksi muuta massaa.

Päätin siis vielä kerran muokata kartan luokittelua säilyttäen alimmat luokat luonnollisina, mutta ylimmän luokan jaoin kahtia 400:n kohdalta. Viimeiseen luokkaan tulivat näin ainoastaan Aurajoen tulvaindeksi 1100 ja Halikonjoen 500, joten kartan informatiivisuus parani ehkä hiukan. Lisäksi hienosäädin kartan ulkoasua, jotta valuma-alueiden järvisyysprosenttipylväät erottuisivat toisistaan ja niiden alta kuultaisivat hennosti valuma-alueiden rajat.

Kuva 1. Teemakartta Suomen valuma-alueiden tulvaindeksistä ja järvisyysprosentista. Tulvaindeksi on saatu laskemalla keskiylivirtaaman MHQ ja keskialivirtaaman MNQ suhde. Kuvan saa suuremmaksi klikkaamalla.

Mitä teemakartalta lopulta selviää?

Termi tulvaindeksi tuskin usealle maallikolle itsessään kertoo paljon mitään, eivätkä toisaalta legendassa nähtävät luvut sitä sen enempää avaa. Tulvaindeksin ja järvisyysprosentin muodostaman teemakartan tulkinta vaatiikin edellisten kurssikertojen karttoja enemmän myös tietoa itse asiasta, jotta tulkinta olisi edes jossain määrin järkevää.

Tämän kartan tulvaindeksi on saatu laskettua tietyn ajanjakson keskiylivirtaaman (MHQ) eli virtaaman ylimpien mitattujen arvojen keskiarvon ja keskialivirtaaman (MNQ) eli alimpien mitattujen arvojen keskiarvon välisellä suhteella. Tällöin voidaan päätellä, että mitä suurempi tulvaindeksi on, sitä suurempi keskiylivirtaama on keskialivirtaamaan nähden ja sitä vaihtelevampaa on kyseisen valuma-alueen virtaama.

Järvisyysprosentti sen sijaan kertoo siitä, kuinka suuri osa kyseisestä valuma-alueesta on järvien peitossa. Kartasta voidaan nähdä, kuinka lähes säännönmukaisesti järviä on enemmän sellaisilla alueilla, joissa tulvaindeksi on pienempi. Tämä johtuu siitä, että järvet tasaavat jokien virtaamia toimien veden väliaikaisena varastona, ja siksi jokien virtaus vaihtelee vähemmän. Tulva-aikoina ne pidättävät vettä eivätkä tulvahuiput pääse nousemaan niin korkeiksi, ja toisaalta kuivemmilla ajoilla ne luovuttavat vettä jokiin, jolloin alivirtaamat eivät ole yhtä alhaisia.

Se, miksi järvet ja pienemmät tulvaindeksit ovat keskittyneet ennen kaikkea maan itäisempiin osiin, ei ole itselleni yhtä selvää. Voi olla, että tämän alueen maaperä on otollisempaa järvien synnylle, valuma-alueiden muoto ja koko luovat siellä toisenlaiset olosuhteet tai alueelle on jostain syystä keskittynyt järviksi sopivia altaita.

Pohjamaa on tunnettu tulvivista joistaan. Tulvariskiä lisääviä seikkoja alueella on juurikin esimerkiksi järvien puute, mikä voidaan havaita myös karttaa tulkitsemalla. Suureen tulvaindeksiin tarvitaan toisaalta voimakkaiden ylivirtaamien lisäksi myös alivirtaamia. Pohjanmaallakin luultavasti näkyy tulvien jaksottaisuus, sillä keväisin sulavat lumet ovat yksi suurimmista riskitekijöistä tulvien suhteen, mutta sen sijaan esimerkiksi loppukesästä tai talvella on virtaus joissa varmasti heikompaa. Muita tulvien yleisyyttä nostavia tekijöitä voi olla esimerkiksi maaperän huono vedenläpäisevyys ja metsien vähäisyys.

Suurimmat tulvaindeksit sijaitsevat kuitenkin Lounais-Suomessa Aurajoen ja Halikonjoen valuma-alueilla. Siellä ilmeisesti yhdistyvät useat tulvaindeksiä nostavat tekijät toisiinsa, mutta ilman tarkempaa perehtymistä näihin valuma-alueiseen on niiden tilannetta vaikea arvioida.

Mitä opin ja mitä olisin voinut tehdä toisin?

Tällä kurssikerralla ennen kaikkea käytännön osaaminen MapInfo-ohjelman kanssa sai harjoitusta, mutta nykyisellään osaaminen tuskin riittäisi vielä kovin pitkälle ilman ohjeita. Vaikka jokainen vaihe näytettiinkin ensin lähes kädestä pitäen, on tietokantojen käsittelyssä niin monia eri mahdollisuuksia ja vaiheita, että pitkäaikaiseen muistiin jäi luultavasti vain pintaraapaisu näistä. Kaikeksi onneksi suurimman epätietoisuuden hetkellä voi palata ohjeiden pariin ja kerrata asiat uudelleen vaihe vaiheelta.

Tehty teemakartta vaatisi vielä viilausta, vaikka siinä onkin jo monet palaset kohdallaan. Esimerkiksi värimaailmaa voisi aina säätää, mutta tällä kerralla pyrin tekemään sen hieman tehokkaammin ja vähemmällä muokkauksella kuin edellisillä kerroilla. Luokkarajojen kanssa pitkään taisteltuani olisi mukavaa sanoa olevansa edes niihin vihdoin ja viimein tyytyväinen, mutta valitettavasti näin ei ole. Nykyinen kompromissi pyrkii yhdistämään mahdollisimman monia luokittelun ja informatiivisuuden kannalta olennaisia seikkoja toisiinsa, mutta kompromissi pysyy kompromissina eli kaikkea ei voi saada.

Ennen kaikkea harmittavaa kartan visuaalisessa ilmeessä on kuitenkin se, etteivät pienemmät valuma-alueet tahdo erottua pylväsmeren alta kunnolla. Säädin pylväiden leveyden mahdollisimman minimiin niin, ettei se kuitenkaan haittaisi pylväiden lukemista ja tulkintaa, mutta tästä huolimatta ne tuntuvat liian massiivisilta tälle kartalle. Pylväiden läpinäkyvyyttä säätämällä sai hieman alla olevia valuma-alueiden rajoja esille, mutta liian läpikuultaviksi en niitä tahtonut tehdä, jottei luettavuus kärsisi.

Tietokantojen muokkaus oli kaikesta monimutkaisuudestaan huolimatta loppujen lopuksi mielenkiintoista ja antoi uuden avaimen MapInfon lukemattomien ovien avaamiseen. Mitä enemmän tästä paikkatieto-ohjelmasta tietää, sitä enemmän tajuaa, kuinka paljon opittavaa siinä vielä onkaan jäljellä. Koska aikaa on kuitenkin vain kurssin rajallisuuden mukaisesti, ei tahtia oikein voida hiljentää. Välillä ehkä tuntuu siltä, että tietoa tulee yksinkertaisesti liikaa omaksuttavaksi ja tahtoisi painaa jarrut pohjaan.

Toisaalta, aika ajoin, aivan toisenlainen tunne kolkuttelee sisälläni: kärsimättömyys. Ehkä eteenpäin ajaa halu nähdä vielä hieman enemmän, hiukan pidemmälle seuraavan valikon ja klikkauksen taakse, mutta miksi kiirehtiä? Jossain vaiheessa kuitenkin aina tajuan, etten muista enää, miten tähänkin pisteeseen pääsin. Ehkä olisikin hyvä välillä pysähtyä juuri silloin, kun luulee olevansa kärryillä tai melkein jo niiden edellä, ja miettiä ihan rauhassa, mistä on tulossa ja mihin menossa. Silloin sen oikean nappulan valitseminenkin voisi seuraavalla kerralla olla hieman helpompaa.

 

Lähteet:

Hirvonen, H. (2017). 3. kurssikerta: Tulvia, timantteja ja tuskaa. 17.3.2017. <https://blogs.helsinki.fi/hahihahi/2017/03/08/3-kurssikerta-tulvia-timantteja-ja-tuskaa/>

Jokinen, V. (2017). Kurssikerta 3: Datan käsittelyä ja päävaluma-alueet Suomessa. 7.2.2017. <https://blogs.helsinki.fi/jokinenv/2017/02/02/33/>

Kotsadam, A., G. Østby & S. A. Rustad (2017). Structural change and wife abuse: A disaggregated study of mineral mining and domestic violence in sub-Saharan Africa, 1999–2013. Political Geography 56:  1, 53–65.

Lehto, V. (2017). Kurssikerta 3: Datatulva. 7.2.2017. <https://blogs.helsinki.fi/valttele/2017/02/06/kurssikerta-3-datatulva/>

Rowntree, L., M. Lewis, M. Price & W. Wyckoff (2012). Diversity amid globalization. 5. p. 710 s. Prentice Hall, Upper Saddle River.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *