How can less be more? More is more

Afrikan konfliktit ja resurssit

Tähänastisilla kurssikerroilla aineiston haku tietokannoista ja näistä löytyvien taulukkomuotoisten ja geometristen aineistojen yhteenliittäminen oli tullut yksinkertaisella tasolla kohtalaisen tutuksi, joten nyt on syytä lisätä kierroksia ja mennä hieman syvemmälle. Tämän kerran käyttökelpoisinta antia itselleni oli oppia hyödyntämään Join attributes by location -toiminnon potentiaalia. Siinä missä tähän asti olimme yhdistelleet lähinnä taulukkomuotoisia tietokantoja geometriseen aineistoon ja liimanneet samalle tasolle erilaisia valmiita piste- ja polygonimuotoisia aineistoja, päästiin tehtävissä lisäämään yhden aineistotason geometriatietoa suoraan laskemalla toisen tason attribuuttidataan.

Mutta sitä ennen sananen Afrikan konfliktien, maiden Internetin käyttöasteen ja arvokkaiden kaivannaisten (timantit, öljy) paikkatiedon yhdistävästä karttaesityksestä. Ennen yhdistelyä taulukkomuotoinen data on luonnollisesti siistittävä sellaiseen muotoon, että aineisto voidaan yhdistää vähintään yhden muuttujiltaan identtisen sarakkeen kautta. Afrikan internetin käyttödatassa olikin kohtalaisen paljon siivoamista: muutamien valtionnimien yhdenmukaistamistarpeen ohella etäisimpiä Intian valtameren saarivaltioita ei löytynyt kartta-aineistosta, joten poistin nämä surutta ongelmien välttämiseksi jatkossa. Laskutoimitus internetkäyttäjien osuudesta väestöstä tuotti erikoisia lukuja Komorien ja Djiboutin osalta, joten päättelin näiden kohdalla olevan kymmenkertainen suuruusluokkavirhe, jonka korjasin. Yhdistelyvaiheessa erityseisti piste- ja polygoniaineiston rajaaminen uniikkeihin tapauksiin count-toiminnolla vaikutti hyödylliseltä. Oli myös havainnollista, kuinka monen erilaisia aineistoja samaan karttaesitykseen voidaan yhdistää – ja esittää näitä yhtaikaa eri esitystapoja käyttämällä. Koko aineiston esittäminen (vaikka konflikteja olisikin yhdistelty) johti joka tapauksessa sekavaan lopputulokseen, vaikka värien ja esitystapojen huolellisella hiomisella painajaismaisimmat näkymät saikin siistittyä. Halusin esittää uniikkien konfliktien määrät kussakin valtiossa numeroina pallon sisällä kuten Tomi Kiviluoma (https://blogs.helsinki.fi/tomingeoblogi/2020/01/30/konfliktitulvia-vai-tulvakonflikteja/) ja olisin halunnut yhdistää tähän ympyräsymbolin koon riippuvuuden konfliktien määrästä.  Lukuarvojen esitysominaisuuden löytäminen kesti varsin kauan ja tajusin lopulta, että kyse on label-toiminnosta, eikä tähän voi yhdistää merkintöjen kokoasteikkoa; jälkimmäinen toiminto taas onnistuu esim. piirakkadiagrammin avulla kuten Juho Leskinen on tehnyt (https://blogs.helsinki.fi/juhongem1/2020/02/07/tietokantojen-yhdistelyn-ja-tulvaindeksin-salat/). Internetlähteiden mukaan lukuarvoaineisto pitäisi pystyä esittämään vastaavalla tavalla symboleiden kokoasteikkona Symbology-valikon avulla valitsemalla metodiksi size värin sijaan. Jostain syystä tämä ei ainakaan minulla QGIS 3.4.1:ssä toiminut.

Lopullisesta karttaesityksestä (kuva 1) ei erotu silmämääräistä vahvaa korrelaatiota konfliktien ja kaivannaisten välillä. Eteläisen Keski-Afrikan valtioissa (Kongon dem. tasavalta, Angola, Namibia) sekä Sierra Leonessa ja Liberiassa on jokaisessa paljon sekä timanttikaivoksia että konfliktivuosia, joten timanttiesiintymät ovat yksi mahdollinen konfliktien selitystekijä. Kumpaakin ilmiötä esiintyy tosin myös toisistaan riippumatta. Öljyesiintymät eivät hieman yllättäen näytä suoraan korreloivan konfliktien kanssa – joissakin öljyvaltioissa konflikteja esiintyy keskimääräistä enemmän, muutamissa ei lainkaan. Sen sijaan internetkäyttäjien määrä, joka mitannee karkeasti yhteiskunnallista kehitys- ja elintasoa, vaikuttaa ainakin itäisen Sahelin alueen valtioiden osalta korreloivan käänteisesti konfliktien esiintymisen kanssa.  Data ja varsinkin konfliktien määritelmä herättää kysymyksiä: millaisia nämä konfliktit ovat? Äkkiseltään vaikuttaisi, että tässä aineistossa on listattu ainoastaan valtioiden sisäiset konfliktit. Esimerkiksi kansainvälisesti aggressioistaan tunnettu öljyvaltio Libya ei tässä aineistossa sisällä yhtään konfliktia – mikä on hämmästyttävää ottaen huomioon, että maa on sotinut sekä Tsadin että Egyptin kanssa. Konfliktiaineisto on siis mielestäni puutteellista, jos siitä puuttuu kansainvälinen aineisto. En myöskään pidä täysin tarkoituksenmukaisena harjoitusohjeessa annettua ohjeistusta uniikkien konfliktien laskemisesta – miksei samana vuonna valtiossa voisi olla useampaa rinnakkaista konfliktia? Nythän aineistossa niputetaan saman vuoden tapahtumat yhdeksi.

Kuva 1: Kaivannaisresurssit, Internetin penetranssi ja konfliktivuodet Afrikan valtioissa (klikkaa auki).

Olemassaolevallakin aineistolla on toki mahdollista etsiä tilastollista korrelaatioita konfliktien ja kaivannaisten löytämisvuosien, tuotannon aloittamisen sekä tuottavuuden väliltä. On intuitiivisesti ajatellen luontevaa, että resurssien hallintaan liittyy konflikteja ja että resurssien haltuunotto voisi kytkeytyä yhteiskunnan kehitystasoon, mutta näin ei myöskään välttämättä ole. Tämän selvittämiseen soveltuu todennäköisesti parhaiten aineiston käsittely matriisina monimuuttujaregergessioanalyysin keinoin, mutta tällä aineistolla tilastollinen käsittely menee varsin nopeasti monimutkaiseksi. Jos halutaan rakentaa käsitys ajallisista kausaliteeteista eri tapahtumien välillä – jopa kokonaisia tapahtumaketjuja useampien kartalla näkyvien ilmiöiden välillä – on mukaan otettava bayesilaisia menetelmiä. Tässä kunkin tapahtumaketjun / polun luotettavuuden selvittäminen tapahtuu ns. posteriorij-todennäköisyyksiä approksimoimalla tai esim. Markov Chain Monte Carlo -menetelmällä simuloiden. Bayesilaisessa tilastotieteessä posteriorijakauma muodostetaan ehdollisena tunnettujen tapahtumien priori-todennäköisyyksien pohjalta. Keskeinen ja mahdollisesti ongelmallinen vaatimus tälle on, että jonidenkin konfliktien ja kaivannaisresurssien tunnuslukujen välinen suhde tunnetaan riittävällä luotettavuudella. Itse käyttäisin mallin kalibroimiseen jossain määrin tunnettua timanttieollisuuden osavaikutusta Sierra Leonen sisällisotaan.

Bayes- ja monimuuttujamenetelmien tarkempi esittely ja auki selittäminen vaatisi pitkän ja syvvällisen tekstin sekä itseltäni lisää paneutumista aiheeseen, etten käsittele asiaa tässä yhteydessä enempää. On mahdollista, että jotakin korrelaatioita voisi saada irti jonkinlaisella purkkavirityksellä: esimerkiksi muodostamalla konflikteista ja kaivannaisresursseista koordinaatistoon sidottuja n-ulotteisia ellipsejä, joissa ulottuvuudet muodostuisivat konfliktin tapauksessa sen kestosta, maantieteellisestä säteestä jne. ja kaivannaisresurssin tapauksessa esim. löytämisen ja tuotannon välisen aikajaksosta, tuotannon kestosta, tuottavuudesta jne. Näiden avulla voisi laskea, kuinka suuren tilavuuden osalta tällaiset pyörähdyskappaleet leikkaavat.

Suomen vesistöalueiden tulvaindeksit

Halusin (luonnollisesti) toteuttaa tehtävänannon tulvaindeksien laskemisesta haastavamman vaihtoehdon mukaan, jotta saisin menetelmätasolla mahdollisimman paljon uutta irti. Lisäksi työhjeen spekulointi valmiin järvipinta-alan oikeellisuudesta ja kehotus laskea virtaamavaihteluindeksi yleisen tulvaindeksin sijaan saivat ensimmäisen tehtävävaihtoehdon vaikuttamaan epämääräiseltä. Virtaamavaihteluiden indeksi ei suoraan kerro pelkästään tulvaherkkyydestä, vaan enemmänkin uoman / valuma-alueen alttiudesta kausivaihtelulle molempiin suuntiin, jolloin samaan lukuun sisältyy myös kuivemman kauden normaalia alempi vedenpinta.

Tehtävän hyödyllisin anti oli minusta pinta-alojen summaaminen kahden tason välillä suoraan geometriapisteitä käyttämällä Join attributes by location -toiminnolla. Tämä onnistui yllättävän helposti, kun oli ensin laskenut perusgeometria-attribuutit sekä järville että valuma-alueille. Jouduin muutaman kerran kokeilemaan, millä geometriapredikaatin valinnalla päädyn oikeaan tulokseen tasojen summaamisessa. Ensin asetusta overlap käyttäessäni päädyin samaan ongelmaan, jonka Tomi Kiviluoma blogissaan (https://blogs.helsinki.fi/tomingeoblogi/2020/01/30/konfliktitulvia-vai-tulvakonflikteja/) kuvailee: Laatokan pinta-ala vääristää järvipinta-alaa voimakkaasti ylöspäin muutamissa vesistöissä – esimerkiksi Hiitolanjoen järvipinta-ala nousee viisinkertaiseksi itse valuma-alueen kokoon nähden. Tämä johtuu siitä, että overlap-asetus laskee järvipinta-alaan mukaan myös valtionrajojen ulkopuolella sijaitsevat laskujärvet, jota valuma-alue sivuaa, vaikka ne eivät sisälly itse valuma-alueeseen. Laatokka on tästä dramaattisin esimerkki. Geometric predicate asetuksen tulee siis olla within (suomen kieliversiossa sisältyy), jotta vain kokonaan valuma-alueen sisällä olevat järvet lasketaan mukaan. Tästä eteenpäin aineistojen yhdistely ja käsittely oli erittäin jouhevaa, kun eri aineistojen välillä vesistöalueiden numerot vastasivat kategorisesti toisiaan.

Kuva 2: Suomen vesistöalueiden tulvaindeksejä ja järvisyysprosentteja

Tulkitsemalla tuottamaani vesistöalueiden tulvaindeksikarttaa (kuva 2) voidaan jo silmämääräisesti havaita korrelaatio korkean järvisyyden ja matalan tulvaindeksin välillä. Tämä on loogista, sillä korkeussuuntainen muutos volyyminlisäystilanteessa (kasvanut virtaama) on sitä pienempi, mitä suuremmalle pinta-alalle (järvet) se jakautuu. On luontevaa, että järviä on paljon suurilla valuma-alueilla ja tästä seuraten korkea keskivirtaama itsessään jo jossain määrin laskee tulvaindeksiä. Järvisyyden edellytys on kuitenkin keskimäärin vähäninen prominenssivaihtelu eli tasaisuus ja toisaalta se, että valuma-alueella on myös keksimääräisen mpy-lukeman alapuolella olevaa topografiaa – johon järvi siis on muodostunut. Edelleen on luontevaa, että tällaisia kerääntymäalueita on sisämaassa; rannikon joet laskevat pieneltä valuma-alueelta  suoraan mereen yksittäisen prominenssivaihtelun paikalliseta minimikäyrää pitkin, eikä väliin siis mahdu puskuroivia altaita.

Huomionarvoista on myös, että Lapissa, missä prominenssivaihtelua on enemmän, laajasta valuma-alueesta huolimatta (esim. Tornion-Muonionjoen vesistö, Kemijoen vesistö) järvisyys on suhteellisen pientä ja tulvaindeksi siten vastaavan kokoisia Etelä-Suomen sisämaan vesistöalueita korkeampi. Inarijärjven valtava pinta-ala näkyy välittömästi Paatsjoen vesistön matalana tulvaindeksinä. Lounais-Suomen korkean tulvaindeksin vesistöjen joet kuten Aurajoki ja Halikonjoki ovat sikäli mielenkiintoisia, että niiden uomat ovat melko syviä, hienosedimenttitasankoon uurtuneita, ja niitä ei välttämättä heti miellä tulvariskialueiksi. Kuitenkin juuri uomien jyrkkyys ja raviinimaiset, lyhyet ja jyrkät sivu-uomat altistavat lyhytaikaisille paikallisille tulville. Mahdolliset jääpadot kumuloivat paikallisen tulvan vaikutusta entisestään. Tämän tyyppisten jokien kohdalla myös virtaamavaihteluindeksin laskeminen voisi olla mielenkiintoista ja se todennäköisesti karakterisoisi nämä vesistöalueet omaksi alaryhmäkseen muiden korkean tulvaindeksin vesistöjen joukossa.

Kiviluoma, T. 30.1.2020:
Konfliktitulvia vai tulvakonflikteja, luettu 7.2.2020

Konfliktitulvia vai tulvakonflikteja

Leskinen, J. 7.2.2020:
Tietokantojen yhdistelyn ja tulvaindeksin salat, luettu 7.2.2020
Konfliktitulvia vai tulvakonflikteja, luettu 7.1.2020

Tietokantojen yhdistelyn ja tulvaindeksin salat

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *