About Deleted User

Special user account.

Tuloksia 25.5

Päivä           Smoltteja
22.5             0
23.5             2
24.5             0
25.5             0

Päiviteltiin taas hieman mallia viimeisimmällä, joskaan ei niin kovin tuoreella saatikka runsaalla datalla. Smoltittomia päiviä on sattunut tässä jo useampi, joko rupeaa kalat vedestä loppumaan??

Kokonaismäärän N keski- ja hajontalukuja

Kokonaismäärän N keski- ja hajontalukuja

Arvoi saatiin noin 120 000 iteraatiolla, joista poistettiin 24 000 ensimmäistä ja valittiin joka 15:sta iteraatio konvergoitumisen varmistamiseksi ja autokorrelaation pienentämiseksi. Kuvaajassa näkyvä piikikkyys johtuu arvojen pyöristämisestä mallin sisällä.

N255

Kokonaismäärän N posteriorijakauma

Uusin mallin antama arvio kokonaismäärän todennäköisyysjakauman keskiarvosta on 2272, keskihajonnalla 1181. 95 % todennäköisyysväli löytyy arvojen 582 ja 4975 väliltä. Arvio on siis edelleenkin hyvin varovainen, mutta arviot tarkentuvat kun tieto lisääntyy!

Päätöksen tekoa

Kurssilla ollaan nyt tilanteessa, jossa mallin rakentamisesta on siirrytty päätöksentekoanalyyseihin. Suurimmalta osin ainakin. Rysän ollessa padon edessä, saadaan kerättyä tietoa, kuinka moni taimen joutuu mahdollisesti turbiinien rattaisiin ja sushina padon alla odottavien kalojen suihin. Tai näin ainakin oli ajatus kurssilaisten mielissä.

 

Rysä otettiin pois käytöstä jo muutamia päiviä sitten, eikä dataa saatu kerättyä juuri yhtään. Rysä kerkesi olla padon edessä vain kahdeksan päivän ajan. Tänä aikana n. 25 % pyydetyistä kaloista päätyi padon edessä olevaan rysään. Mikäli luku olisi sama myös todellisuudessa, olisi merelle vaeltavilla taimenilla suuri mahdollisuus päättää vaelluksensa tähän esteeseen.

 

Padon purkamisen päätöksentekoanalyysia rakentaessamme törmäsin itse monesti ongelmaan, jossa osa osioista tuli ehkä ylimietittyäkin, tämän johtaen hyvin yksityiskohtaiseen ongelman tarkasteluun, osan taas jäädessä hyvin yleiselle tasolle. Jotta päätöksenteko ”kartta” olisi toimiva, pitäisi kaikki kohteet saada suunnilleen samalle tarkastelutasolle.?!

 

Toinen ongelma muodostui hyödyn (utility) ajattelusta. Analyysissä pitäisi pystyä arvottamaan kartan eri osiot erilaisilla hyödyillä tai vaihtoehtoisesti haitoilla. Jotta tämä onnistuisi, pitäisi mallissa pystyä jotenkin valitsemaan vaalikonemaisesti näkeekö asiat hyötyinä vai haittoina ja antamaan näille, erilaisia painoarvoja.

Tulokset 21.5.2015

Päivä: 42

Pyydettyjä taimenen smoltteja kaiken kaikkiaan: 70

Merkattuja taimenen smoltteja kaiken kaikkiaan: 70

Uudelleen pyydettyjä taimenen smoltteja kaiken kaikkiaan: 2

Vähän pienempien ja suurempien teknisten ongelmien jälkeen valmistui päivän 42 (21.5.) tulokset. Tässä mallissa olemme päivittäneen pyydystettävyyden prioria, koska pyydystettävyyttä testaava mandariinikoe uusittiin. Kuten myös edellisessä tulospostauksessa, kaikki seuraavat tulokset perustuvat yli neljän mallimme keskiarvostettuihin posterioriestimaatteihin.

Malli tuottaa lähtemisintensiteetille totaaliestimaatin (Kuva 1), jossa 95 % todennäköisyydellä vaeltavien taimensmolttien kokonaismäärä on välillä 483–5035 (Taulukko 1). Todennäköisin yksittäinen arvio kokonaismäärästä on 500 ja 1500 välissä.

N26052015

Kuva 1. Posteriorijakauma vaeltavien taimensmolttien kokonaismäärästä 2015.

Perjantaina 22.5. vaeltavien taimensmolttien lukumäärä (n[43]) on 95% todennäköisyydellä välillä 3–81 (Taulukko 1). Todennäköisin yksittäinen arvio vaeltavien smolttien lukumäärästä on 9 (Kuva 2).

pikkun26052015

Kuva 2. Posteriorijakauma vaeltavien taimensmolttien määrästä perjantaina 22.5.2015.

Perjantaina 22.5. pyydyksiin jäävien taimensmolttien lukumäärä (x[26]) on 95% todennäköisyydellä välillä 0–5 (Taulukko 1). Jälleen kerran todennäköisin yksittäinen arvio on, että pyydyksiin ei jää yhtään taimensmolttia (Kuva 3).

Edellisellä kurssikerralla puhuimme toisen pyydyksen (rysän) uuden sijainnin huomioimisesta mallissa. Aihetta on käsitelty myös aiemmin blogissa, mutta ehdotusta ei ole huomioitu vielä tässä mallissa.

TotalX26052015

 

Kuva 3. Posteriorijakauma pyydyksiin jäävien taimensmolttien määrästä perjantaina 22.5.2015.

 

Taulukko 1. Parametrien N, n[26] ja TotalX[26] posteriorijakaumien tunnusluvut.

mean sd MC_error val2.5pc median val97.5pc start sample
N 1985.0 1212.0 35.16 483.0 1694.0 5035.0 51 164900
n[43] 25.76 20.81 0.5681 3.0 20.0 81.0 51 164900
TotalX[43] 1.363 1.66 0.02455 0.0 1.0 5.0 51 164900

 

Rysän uuden pyyntipaikan huomioiminen mallin sisällä

Tänään tuli puheeksi rysän uusi sijainti ja sen huomioiminen mallin sisällä. Rysä on aikaisemmin sijainnut joen haarautumiskohdassa ja on nyttemmin (13.5.) siirretty joen länsihaaran puolelle, hieman haarautumiskohdan yläpuolelle.

Saimme myös uutta mandariinikoetietoa, jonka mukaan nyt kaikkien kolmen kokeen aikana “vapautetusta” 188 mandariineista 139 on päätynyt joen länsihaaraan. Olemme käyttäneet tätä estimaattina smolttien vaeltamisesta, joten voisimme myös olettaa rysän pyytävän nyt tehokkaammin sen ollessa voimakkaimmin virtaavassa paikassa.

Hahmottelin helpohkon pikaratkaisun ongelmalle, jossa uutta rysää lähdetään yksinkertaisesti arvoimaan kokonaan uudella priorijakaumalla. Tämä ratkaisu ei edellyttäisi suuria muutoksia malliin:

Fyke_q[d]<-q_F*Fyke_op[d]*step(32-d)+q_F2*Screw_op[d]*step(d-32)

q_F2~dbeta(1,3)

Step-funktiot palauttavat yksinkertaisesti nollan erotuksen ollessa <0, jolloin summattava saa arvon nolla. Siis päivillä 1-32 käytetään rysän aiempaa priorijakaumaa q_F ja 32-60 uutta q_F2:ta. q_F2:lle annettu arvio hieman suuremmasta pyyntitehosta.

Tämä ratkaisu ei välttämättä ole ongelmaton. Rysän pyydystävyys päivittyy mielestäni datalla samaan tapaan kuin aikasemminkin. Se tarkoittaa, että kaikki rysän aikasemmassa paikassa sijaitessaan keräämä data pyydystettävyydestä siirtyy nyt “uudelle rysälle”, eli uudelle sijainnille. Tämä on mielestäni ristiriitaista sen kanssa, että rysän uuteen sijaintiin perustuva priori antaa nimenomaan ymmärtää, ettei sen pyydystävyys ole vain sen ominaisuus vaan riippuvainen myös sen sijannista. Tähän on syytä paneutua lisää ja katsoa miten tarkalleen riippuvuudet kulkevat pyydystävyys-mallin sisällä.

 

Missä kalat on?

Pyydettyjä smoltteja on tällä hetkellä vain 60 kappaletta vaikka oletettu vaellus mereen piti asiantuntija tiedon mukaan käynnistyä vedenlämpötilan saavuttaessa 8 astetta. Ympäristö.fi sivuilta katsottaessa vesi on tällä hetkellä Pirttinrannan mittauspisteessä jo 11 asteessa. Lämpötilan nousu olisi siis pitänyt jo näkyä pyydyksissä, suurimpina saalismäärinä. Tällä hetkellä mitään piikkiä ei ole havaittavissa, vaan pyydettyjen smolttien määrä vaihtelee satunnaisesti 1 – 6 smoltin välillä, vaikka pyydysten määrä on tuplattu. Alkujaanhan pyydyksenä toimi vain joensivuhaarassa oleva ruuvi. Nykyään käytössä on myös rysä. Toisen pyydyksen lisääminen luulisi jotenkin näkyvän pyydettyjen smolttien määrässä.

Vanhassa mallissamme päivitimme pyydysten ”tehoa” sitä mukaan kun kaloja saatiin pyydyksiin. Pyydetty kala oli ensin failure ja sitten succes mikäli merkattu kala saatiin pyydettyä uudestaan. Priorit saatiin malliin Vesi- ja Kalatutkimus Oy:n mandariinikokeesta. Mandariini kokeessa mandariineista pyydykseen päätyi 20 %. Jos mandariineja ajateltaisiin merkattuina smoltteina, olisi uudelleenpyydettävyys riittävällä tasolla, jotta voitaisiin arvioida smolttien kokonaismäärää luotettavasti. Tällä hetkellä uudelleen pyydettyjä kaloja on vasta 1, joten kahdella pyydyksellä päästään vain 1,7 % uudelleenpyydettävyyteen. Kurssilla oli tosin puhetta, että smoltit saattavat kuitenkin tulla pyydykseen uudestaan vasta 1-2 viikon päästä siitä, kun ne on edellisen kerran saatu pyydettyä. Pyydykset ovat nyt kuitenkin pyytäneet jo 40 päivän ajan, joten viiveen ei enää pitäisi vaikuttaa siihen, että merkattuja kaloja ei onnistuta pyytämään takaisin. Tällä hetkellä vanhan mallin pyydysteho olisi niin alhaalla, että en tiedä olisiko sillä voinut antaa luotettavaa arvioita vaelluskannan koosta.

Itseäni on myös ihmetyttänyt pyydysten sijoittaminen. Jo kokeen alkaessa puhuttiin, että ruuvi ei toimi kunnolla, koska virtaus on niin pieni, että ruuvi ei pyöri kunnolla. Sitten rysä asetettiin aluksi joen haaraumaan. Ymmärtääkseni pyydykset toimivat sitä paremmin mitä kovempi virtaus on. Tällöin smolttien on vaikeampi välttää ”omituista kapistusta”. Tästä syystä pyydys tulisi sijoittaa joen ”päävirran” kohdalle. Toki pyydysten sijoittamiseen on vaikuttanut moni asia, ja juurikin kovasta virrasta johtuen sitä, ei ehkä ole voitu sijoittaa juuri sinne minne se olisi haluttu.

Uudessa mallissamme otimme mallia kurssinvetäjämme pyydysmallista ja siinäkin pyydysten teho päivittyy ymmärtääkseni samaan tapaan, kuin vanhassakin mallissa, näin ainakin teoriassa. Koodia katsoessani, ei jotkut kohdat tästä kuitenkaan aukea minulle kuten ei myöskään ehkä muillekaan ja toivoisinkin, että seuraavalla kerralla palattaisiin vielä tähän, vaikka olemmekin siirtyneet jo päätöksentekoanalyysin maailmaan. Tässä kohta, mikä on vielä epäselvä tagged[d]~dbin(1,1000)}. Mistä nämä numerot tulevat?

Pohdintaa länsi- ja itähaaran mallintamisesta

Pohdin aikaisemmin mallin kehittämisen näkökulmasta mahdollisuutta mallintaa erikseen joen länsi- ja itähaaraan päätyvien smolttien määrää. Tämä olisi hyödyllistä mikäli halutaan jatkossa selvittää esimerkiksi kuinka suuri osa smolteista joutuu länsihaaraan ja kuinka paljon voimalan läpi kulkeminen vaikuttaa niiden kuolleisuuteen. Olen nyt yrittänyt hieman hahmotella mitä tämänkaltainen mallinnus edellyttäisi. Ongelma ei sinänsä varmastikkaan olet teknisesti mitenkään hankala, mutta omalle hahmottamiselleni löytyy siitäkin runsaasti haastetta ja on siksi hyvää pohdintaa pelkästään oppimista ajatellen.

Tällä hetkellä vedessä on taas kaksi pyydystä, rysä ja smolttiruuvi. Ruuvi pyyntää joen itähaaraa, jossa siis kulkevat kalaportaat. Ruuvin sijainti on haarautumiskohdasta alavirtaan. Rysä on nyt siirretty pyytämään länsihaaraa, eli voimalan puolta, mutta se sijaitsee haarautumiskohdasta hieman ylävirtaan. Sijainnista johtuen ei voida olettaa varmasti, etteivät kalat voisi vielä rysän ohitettuaan siirtyä itähaaraan ja otaksuisin että voi olla jopa mahdollista smolttien ruuvin ohitettuaan palata vielä ylävirtaan ja mahdollisesti toiseen haaraan. Tämä varmasti lisää tuntematonta vaihtelua, mutta pohdintani oletuksena onkin nyt tilanne, jossa molemmat pyydykset sijaitsisivat selkeästi haarautumiskohdasta alavirtaan.

Millä tavalla tätä ongelmaa voitaisiin sitten mielestäni mallintaa?

Päivittäin vaeltavan smolttimäärän muutujan n[i]:n suhteen ei muutoksia tarvittaisi. Smoltteja saapuisi siis haarautumiskohtaan n[i]:n suuruinen määrä, jonka jälkeen ne valitsivat joko itäisen, tai läntisen haaran. Näille voisimme valita priorijakaumat tutkimuksen alussa tehdyn mandariinkokeen perusteella. Jakaumana käyttäsin tuttua beta-jakaumaa:

prob_w~dbeta(7,3)       #prioriodennäköisyys länsihaaran päätymiselle
prob_e~dbeta(3,7)       #prioritodennäköisyys itähaaraan päätymiselle

Nämä valitisin parametreiksi eri haaroihin päätyvien smolttien määrää kuvaavan binomijakaumaan:

nw[i]~dbin(prob_w, n[i])     #jakauma länsihaaraan matkaaville smolteille
ne <- n[i]-nw[i]                  #itähaaraan matkaavat smoltit

Saalis mallinnettaisiin molemmille haaroille erikseen binomijakaumana:

FykeX[i]~dbin(Fyke_q[i], nw[i])         #jakauma länsihaaraan saaliismäärälle
ScrewX[i]~dbin(Screw_q[i], nw[i])    #jakauma itähaaran saalismäärälle

Pyydystävyyden prioriarvoja pitäisi hiukan muuttaa. Rysälle prioritietoa mandariinikokeesta ei ole, ruuvin suhteen on huomiotava että nyt pyydystävyys mallintaisi vain itähaaran osuutta, ei smolttien kokonaismäärän pyydystävyyttä. Mandariinkokeen mukaan itähaaraan päätyi kaksi mandariinia, joista kaksi jäi pyydykseen:

q_S~dbeta (2,1)       #prioritodennäköisyys ruuvin pyydystävyydelle
q_F~dbeta (5,3)       #prioritodennäköisyys rysän pyydystävyydelle, mielivaltainen arvio

Näiden päivittäminen voisi tapahtua mielestäni samaan tapaan kuin ennenkin.

Priorien miettiminen on tässä tapauksessa suhteellisen helppoa. Itselleni alkoi tässä vaiheessa muodostua ongelmaksi juurikin ongelman laskennallinen ja looginen puoli. Itselleni on hankalaa hahmottaa jakaumien välillä tapahtuvia matemaattisia operaatiota ja yhdistää mallin osia loogisesti toisiinsa. Nyt minusta tuntuu, ettei malli näin päivitä ollenkaan eri haaroihin päätymismahdollisuuksien todennäköisyysjakaumia. Joudun vielä pohtimaan tarkemmin miten tämä tapahtuu. Myös kyseisten jakaumien suhteellisuus tulisi ottaa huomioon, kävisikö tämä vain jakamalla kukin molempien summalla? Näinkö saataisiin myös itähaaraan pyydystettävyys siirtymään posteriorijakaumiin?

Neuvot ovat tervetulleita!

Milloin malli on oikeasti valmis?

Olemme blogissa pohtineet paljon mallin kehittämiseen liittyviä kohtia, kuten lisäpyydyksen huomioimista ja vaelluspoikasten muuttointensiteetin mallintamista. Varovainen arvioni on, että kaikesta malliin liittyvästä epävarmuudesta huolimatta, olemme olleet tyytyväisiä sen kehittymiseen. Edelleen mielessämme on ollut useita parannusehdotuksia, kuten veden lämpötilan ja korkeuden sekä vaellusmatkan pituuden huomioiminen. Blogipohdinnat ovat siirtyneet enemmän päätöksentekoon liittyviin kysymyksiin, mutta palaan vielä hetkeksi takaisin mallintamisen maailmaan ja aiheeseen, joka on jäänyt itselleni hyvin epäselväksi, ja jota ei vielä ole nostettu blogissa tarkemmin esille: Milloin malli on oikeasti valmis?

Tutkijana painii jatkuvasti omaan työhön kohdistuvan epävarmuuden kanssa. Työstä pitäisi sanoa jotain konkreettista, mutta samalla joutuu tiedostamaan, että työhön liittyy enemmän tai vähemmän epävarmuutta. Kurssilla olen ensimmäistä kertaa harjoittelemassa todennäköisyysmallintamista, ja oppiminen on kohdistunut perusasioiden haltuun ottamiseen ja BUGS-ohjelman ymmärtämiseen. Bayes-maailma on minulle vielä hyvin uusi, mutta kurssin edetessä olen pohtinut, milloin mallin kehittäjä voi olla tyytyväinen aikaansaannokseensa ja valmis esittelemään sen yleisölle.

Biologina jotenkin kuvittelisi, että malli on valmis silloin, kun se kuvaa luonnossa tapahtuvia prosesseja parhaiten. Miten tämä voidaan varmistaa, onkin sitten toinen tarina. Tuleeko kaikki mahdolliset (ympäristö)tekijät olla mukana mallissa? Tilastotiedettä opiskelevat kurssikamut ovat kuitenkin saaneet minut pohtimaan asiaa toisesta näkökulmasta. Ehkä malli onkin valmis silloin, kun se on rakennettu ”oikein ja ammattitaidolla”. Aiemmissa blogipostauksissa on nostettu esiin myös asiantuntijatieto. Olettaen, että asiantuntijatieto on lähellä ”oikeaa totuutta”, onko valmis malli sellainen, joka vastaa asiantuntijan tietoa tai näkemystä?

Myönnettäköön, että kysymys on tällä erää ehkä lähinnä filosofinen, mutta käsitys kehitysprosessista kokonaisuutena on minulle vielä melko tuntematon. Varsinkin kun olemme jättämässä mallin kehittelyn, jotta voimme käsitellä päätösanalyysiä loppukurssin ajan. Pääsimmekö kunnolla edes vauhtiin vai raapaisimmeko vasta pintaa?

Rysä jälleen käytössä

Ajaessani tänään Vanhankaupunginkosken yli, huomasin sivusilmällä smolttirysän olevan jälleen käytössä tauon jälkeen. Rysä oli asennettu nyt pyytämään eri kohtaan jonkin matkaa ylävirtaan edellisestä paikasta ja tällä kertaa enemmän uoman länsipuolelle. Liekö virtaus jälleen käynyt epäsuotuisaksi ruuvipyydyksen käytölle.

 

Kuten porukalla keskustelimme edellisellä kokoontumiskerralla, olisi pyydysten pyyntitehon määrittämisen kannalta paras vaihtoehto, mikäli pyydykset olisivat mahdollisimman ”tasapaksussa” kohdassa jokea, mistä kalat laskeutuisivat mahdollisimman sattumanvaraisesti ohi. Tällöin voitaisiin arvioida pyydyksen pyyntitehoa suoraan osuutena uoman poikkileikkauksen pinta-alasta, jonka pyydys kattaa. Ruuvin pyytäessä tällä hetkellä hyvin epätasaisessa kohdassa jokea itähaaran puolella, selkeän päävirran kohdalla, ei pystytä näin selkeätä laskelmaa tekemään. Epätasaisessa, leveydellään virtauksien puolesta vaihtelevassa uomassa saattaa laskeutumisreiteissä etenkin eri virtaamilla esiintyä suuriakin vaihteluita. Smolttiruuvin asentamispaikkaan vaikuttaa pyydyksen tekniset edellytykset, sen vaatiessa tietyn virtauksen ja hiljaa virtaavan, tasaisen suvannon virtaus ei riitä pyörittämään ruuvin rumpua. Rysällä puolestaan ei ole vastaavia vaatimuksia virtauksen suhteen. Rysän edellinen pyyntipaikka oli kuitenkin heti saarekkeen yläpuolella, missä ainakin silmämääräisesti näyttää, että virta alkaa vaihdella enemmän, kuin ylempänä suvannossa ja esimerkiksi toista haaraa suosivat kalat ovat saattaneet jo ryhmittyä tietylle puolelle jokea epäsattumanvaraisesti.

 

Rysän uusi pyyntipaikka hieman ylempänä vastaa paremmin kalojen koko uoman leveydelle satunnaisesti levittäytymisen edellytyksiä. Muuttamalla pyydysten paikkoja tutkimusjakson aikana, tulee kuitenkin pyydysten tehon ja hierarkkisesti edelleen myös vaeltavien smolttien kokonaismäärän arvioimiseen mukaan lisää epävarmuustekijöitä.

 

Tietysti huolellisellakaan tutkimussuunnittelulla ei pystytä aina vaikuttamaan muuttuviin olosuhteisiin ja suunnitelmia joudutaan muuttamaan. Meidän osalta hommahan etenee lähtökohtaisestikin melko nurinkurisesti. Parempaan lopputulokseen varmastikin päästäisiin, mikäli koko projekti olisi aloitettu mallien alustavalla suunnittelulla ja tutkimusasetelmaa olisi lähdetty kehittelemään mallien ehdoilla.

Bayesiläinen mallikeskiarvoistaminen

Bayesiläinen keskiarvoistaminen yleisesti

Bayesilaiseen mallivalintaan kuuluu käytännössä kaksi osaa: ”havainnot generoineen” uskottavuusfunktion sekä tämän funktion parametrien priorin määrittäminen. Ensin mainittuun kuuluu epävarmuutta siinä missä jälkimmäiseenkin. Klassisessa tilastotieteessä on tapana kritisoida priorivalinnan subjektiivista luonnetta antaen ymmärtää tämän valinnan olevan jossain määrin tutkijan omista epätieteellisistä mieltymyksistä riippuvaista. Kuitenkin myös uskottavuusfunktion valinta on tutkijan enemmän tai vähemmän perusteltu valinta siinä missä priorikin. Molemmat valinnat perustuvat (yhtä lailla) tutkijan henkilökohtaiseen ennakkokäsitykseen havainnot tuottaneesta (fysikaalisesta) mekanismista. Uskottavuusfunktion valinta onkin harvoin jos koskaan aukottomasti perusteltu, vaan myös siihen liittyy käytännössä aina huomionarvoista epävarmuutta.
Bayesilaisessa mallin keskiarvoistamisessa (bayesian model averaging BMA) voidaan huomioida mallivalinnan epävarmuus kokonaisuudessaan pitäen sisällään sekä uskottavuusfunktion että priorin tutkijan subjektiiviseen harkintaan perustuneen mallivalinnan pätevyyden. Bayesilainen keskiarvoistaminen perustuu mallikokonaisuuden johtamiselle keskiarvoistamalla malli yli osamalliensa painotten kunkin osamallin vaikutusvaltaa niille datan valossa päivitettyjen posterioritodennäköisyyksien suhteessa (bayesin teoreeman avulla). Posterioritodennäköisyydeltään suurempi malli saa enemmän, pienempi malli vähemmän painoarvoa mallikokonaisuutta johdettaessa.
Tällöin oletetaan (kokonaistodennäköisyyden kaavassa), että jokin esitetyistä malleista on tosi. Esimerkiksi, jos jompikumpi kahdesta mallista M1 tai M2 on tosi ja on havaittu aineisto d, tällöin mallin yksi posterioritodennäköisyys saadaan kaavasta: p(M=1|d)=[p(d|M=1)*p(M=1)]/[p(d|M=1)*p(M=1)+ p(d|M=2)*p(M=2)]. BMA painottaa esimerkiksi posterioriennustavaa jakaumaa johdettaessa kutakin mallia edellä laskettujen posteriorien suhteissa.
Kun bayesilainen päättely yhdistetään toimintaan valitsemalla se toimintamalli, joka tuottaa parhaimman odotusarvoisen hyödyn, keskiarvoistetuilla malleilla saadaan oletettavasti parempi päätöksiä aikaisesti kuin yksittäisillä mallikokonaisuuden osamalleilla. Tämän voisi pyrkiä hahmottamaan siten, että keskiarvoistaminen huomioi paitsi useaan malliin liittyvän epävarmuuden, myös niihin liittyvän informaation. Suuremmalla määrällä informaatiota voidaan oletettavasti tehdä perustellumpi päätöksiä.
Kuten informaatioteoriaan perustuvat mallivalinnan kriteeri DIC ja BIC, myös BMA huomioi mallien yksinkertaisuuden (parsimony) arvona sinänsä mallin dataan sopivuuden (goodness-of-fit) rinnalla. Jälleen – kuten informaatioteoreettiset mallivalinnan kriteerit – myöskään BMA ei kykene huomioimaan sitä, jos kaikki estimointiin käytetyt/vertaillut mallit ovat huonoja. Roskan keskiarvo on keskimääräinen roska.
Siksi mallivalinnan perusteltavuuteen tarvitaan ennustavia jakaumia, joiden avulla voidaan mallin toimivuutta vertailla aitoon kerättyyn aineistoon. Ei voida tyytyä olettamaan, että joku osamalleista on tosi ja että mallikokonaisuus siksi toimii. Tulee tarkastella, kuinka hyvin (keskiarvoistetun) mallin ennusteet vastaavat todellisuutta. Paras tilanne on, jos voidaan ennustaa tulevia todellisia havaintoja, kuten Vantaanjoen smoltteja arvioitaessa johtamalla seuraavan päivän havaintojen posterioriennustava jakauma. Ennusteiden ja havaintojen yhteensopivuuden tarkastelu voidaan suorittaa paitsi visuaalisella tarkastelulla, myös määrämittaistamalla arvio esimerkiksi laskemalla niin sanottuja ”bayesilaisia p:n arvoja” (bayesian p-values). Logiikka toimii analogisesti nollahypoteesin testauksen logiikan kanssa, ainoastaan, että nollahypoteesi koskee (keskiarvoistettua) mallivalintaa sisällöttömän nollahypoteesin sijaan. Voidaan siis arvioida todennäköisyys havaita havaitun kaltainen (tai harvinaisempi/oudompi) aineisto, jos (keskiarvoistettu) mallivalintamme olisi oikea. Jos posterioriennusteet ovat huonoja, on malli todennäköisesti huono.
Smolttien totaalia estimoitaessa on keskeisenä ongelmana ollut juuri mallivalinta liittyen smolttien lähtötodennäköisyyksien jakauman muodolle tarkasteluaikavälin päivien yli. Tällä mallivalinnalla on myös kohtalaisen paljon vaikutusta saatuihin totaaliestimaatteihin. Kuten aina, yhtäkään mallivalintaa ei voida tässäkään varmuudella pitää totena tai epätotena, vaan ne ovat kaikki enemmän tai vähemmän epävarmoja. Lisäksi keskiarvoistamisen toimivuuden kannalta hyvänä asiana voitaneen pitää sitä, että mallit huomioivat ikään kuin hieman erilaisia vaihtoehtoisia näkökantoja smolttien muuttokäyttäytymiseen. Näin ollen on oletettavaa, että BMA -menetelmää soveltamalla saadaan mallivalinnan epävarmuuden paremmin huomioiva ja oletettavasti luotettavampi estimaatti mereen Vantaanjoesta muuttavien smolttien kokonaismäärälle.

Malliparametrien vertailu BMA-menetelmällä

Osana päivän tehtävänantoa yritimme soveltaa oppimaamme Carling & Chib-menetelmää omaan malliimme. Muodostimme vertailevan mallin kolmesta vaihtoehtoisesta smolttien lähtemistodennäköisyyttä kuvaavasta p-jakaumastamme.

Jakaumat muotoiltiin seuraavasti:

#p for the linear distribution
p[i,1]<-1/60

#p for the normal distribution
pl[i] <- exp(- pow((i-myy_p)/sd_p,2)*0.5)
p[i,2] <- pl[i] / sum(pl[1:60])

#p for the log-normal distribution
pn[i] <- (1/i)*exp(- pow(log(i)-location, 2) / scale)
p[i,3] <- pn[i] / sum(pn[1:60])

# Number of leaving trouts at day i
n[i]~dbin(p[i,model],N)

Muodostettiin jakaumia vertaileva malli. Painot eri malleille annettiin omiin kokemuksiimme niiden toiminnasta perustuen. Log-normaali jakauma sai pienimmän painon, sillä sen toimivuus on ollut kyseenalaista.

#prior for the model BMA for p

model~dcat(z[1:3])
z[1]<-2/5 #weight for the uniform distribution
z[2]<-2/5 #weight for the normal distribution
z[3]<-1/5 #weight for the log-normal distribution
Z[1]<-equals(model, 1)
Z[2]<-equals(model, 2)
Z[3]<-equals(model, 3)

Lisättiin vielä alkuarvot ladattavaksi ketjuille ennen mallin ajoa.

#Inits: use different initial value for each chain
list(model=1)
list(model=2)
list(model=3)

Alkuarvojen antamisessa ennen ajoa oli pieni ongelma, joka poistui kuitenkin, kun ne generoitiin ensin ja ladattiin vasta sitten.

1

Ajon aikana todennäköisyyksien Z[1] ja Z[2] havaittiin selkeää ketjujen hyppimistä. Miksi Z[3] ei toiminut samoin?

2

Myös statistiikka Z[3]:n osalta näytti oudolta. Sen arvo oli tasan nolla.

Model-jakaumakin näytti sivuuttavan Z[3]:n kokonaan. Mistä tämä johtuu?

4

 

Opittavaa BMA:sta – teoria ja käytäntö

Tämän kappaleen alkuun on rehellisyyden nimissä todettava, että harva asia Bayeslaisen analyysin teoriassa tuskin tuntuu yhdellekään kurssilaiselle vielä täysin selkeältä. Bayesin kaavaan ja todennäköisyyksien päivittämiseen perustuva Bayeslaisen mallin perusajatus on toki suhteellisen suoraviivainen, mutta käytännössä on vaikeaa intuitiivisesti ymmärtää, miten esimerkiksi erilaiset priorivalinnat vaikuttavat posteriorijakaumiin. Lisäksi, koska käytännössä laskukaavoja ei koskaan voida soveltaa suoraan ja joudutaan turvautumaan laskennallisiin menetelmiin, tulee rakennetun mallin ymmärtämiseen mukaan uusi välivaihe – ohjelmisto, jolla itse laskenta suoritetaan, kuten projektissa käyttämämme BUGS.
Erilaisten mallin parametrien priorijakaumien vaikutus mallien posterioritodennäköisyyksiin BMA-analyysissa aiheutti ryhmässä pohdintaa. Lukemamme mukaan malleja vertailtaessa epäinformatiiviset priorijakaumat johtavat ’hyvin suuriin’ posterioritodennäköisyyksiin yksinkertaisten mallien tapauksessa. Miksi näin on? Millä perusteella eri mallien prioritodennäköisyydet täsmälleen päivittyvät?
Pohdimme myös erilaisten mallien prioritodennäköisyyksiä ja sitä, millä perusteella ne kannattaa määrittää. Kannattaako esimerkiksi aina käyttää tasaista prioria, vai kannattaako mieluummin käyttää omaa asiantuntija-arviota eri mallien sopivuudesta? Jos on jo havaittu tuloksia, voiko näitä huomioida arviossa vai pitääkö ne jättää huomioimatta?
Bayeslaisten p-arvojen käsite jäi myös toistaiseksi hieman hämäräksi.
Carlin & Chib – metodin käyttö BMA:n implikoinnissa BUGS – koodiin vaikutti mielestämme jokseenkin intuitiiviselta, mutta herätti silti useita kysymyksiä BUGSin muuttujiin ja funktioihin liittyvistä yksityiskohdista. Ymmärsimme, että eri mallien todennäköisyyksien päivittyminen varmasti tapahtuu samalla tapaa, kuin mallin muidenkin prioritodennäköisyyksien päivittyminen, mutta silti tähän liittyvä uusi syntaksi aiheutti pohdintaa siitä, miksi ja mitä kautta päivittyminen oikeastaan tapahtuu.
model –muuttujan määrittely tuntui esimerkkikoodeissa epäintuitiiviselta ja tuntui tapahtuvan hieman salaa allaolevan rakenteen mukaisesti
x ~ dnorm(mu[model],tau)
mu[1] < – a
mu[2] <- b

Tulkintamme mukaan ylläoleva määrittele model nimisen (1,2) vektorin.

Tämän lisäksi pohdimme BUGSin equals() –funktion toimintaa. Mitä täsmälleen tarkoittaa koodi P <- equals(model,1)

Luentokalvoilla myös sanotaan, että malli-indokaattoria ei yleensä tarvita sellaisille prioreille, jotka ovat malleille yhteisiä. Onko siis olemassa tilanteita, jossa tälle on kuitenkin tarve?

Pohdintaa mallista ja sen kehittämisestä

Mallissamme on vielä nykyisellään joitakin ratkottavia ongelmia mm. pyydystettävyyden suhteen. Toinen pyydys, hieman smolttiruuvista ylävirtaan sijoitettu rysä on mutkistanut mallinnusta huomattavasti. Emme vielä ole keksineet täysin toimivaa ratkaisua, jolla saisimme kerättyä informaation molempien pyydyksien suhteellisesta pyydystävyydestä. Tätä ratkotaan edelleen, mutta mielestäni on silti hedelmällistä pohtia myös mallin kehittämistä edelleen paremmaksi., vaikka teknisiä ratkaisuja en pystykkään oman osaamiseni puolesta juurikaan tarjoamaan.

Kalojen parveutuminen

Erilaisten biologisten prosessien mallinnus on hyvinkin haastavaa, sillä huomioon otettavia muuttujia on niin runsaasti. Esimerkiksi pyydystettävyyden arvioinnissa huomionarvoinen asia on taimenten vaelluspoikasten parveutumiskäyttäytyminen. Taimenen jokipoikasen reviirikäyttäytyminen muuttuu huomattavasti sen smolttiuduttua, eli sen käytyä läpi sitä mereen siirtymiseen valmistavan fysiologisen muutoksen. Tällöin taimen jättää reviirinsä ja yleensä parveutuu muiden vaelluspoikasten kanssa. Tämä muodostaa ongelman silloin, kun käytettävä malli olettaa kalojen olevan jakautuneen tasaisesti ja toimivan riippumattomasti yksilöinä. Silloin malli antaa liian optimistisen kuvan tarkkuudestaan. Kalojen parveutuminen tulisi ottaa huomioon, mikäli estimaattia smolttien määrästä halutaan tarkentaa.

Nykyinen mallimme käyttää pyydystettävyyden mallintamiseen beta-jakaumaa, jossa pyydyksen “onnistumiset” ja “epäonnistumiset” muodostavat jakauman tiheysfunktion, eli määräävät sen muodon. Tämä ei ota huomioon parveutumiskäyttäytymistä ja sen aiheuttamaa dispersiota. Ratkaisuja tähän ongelmaan on viisaampien toimesta kehitetty ja näitä menetelmiä voisi yrittää myös tämän projektin puitteissa soveltaa, mikäli resursseja siihen riittää. Näitä ovat mm. jonkinlaisen beta-binomiaalisen jakauman käyttäminen, joka sisältää erityisen dispersio-parametrin, tai negatiivisen-binomijakauman soveltaminen. Näiden aukeaminen ainakin allekirjoittaneelle tulee kuitenkin olemaan suuren työn takana.

Mitä tapahtuu joen länsihaarassa?

Mielestäni mielenkiintoinen ajatus mallin laajentamisesta olisi kerätä tarkemmin tietoa myös siitä, kuinka suuri osa kaloista matkaa mereen joen padotun länsihaaran kautta. Tieto olisi erityisen arvokasta nyt, kun padon kohtalosta kiistellään. Jatkossa olisi myös hedelmällistä selvittää kuinka suuri osuus taimenen vaelluspoikasista selviää hengissä voimalan turbiineista. Tällöin tarvittaisiin myös padon alajuoksulle jonkinlainen pyydys.

Tällä hetkellä voimma antaa vain jonkinlaisen estimaatin perustuen alun “mandariinikokeeseen”. Tällöin (hyvin epätarkka) arvio olisi, että länsihaaraan päätyy noin 80% mereen matkaavista taimenista. Tällä hetkellä estimaattia ei ole mahdollista tarkentaa, sillä länsihaaran puolella ei ole minkäänlaista havainnointivälinettä.

Mikäli tälläinen mahdollisuus joskus suotaisiin, olisi varmasti tarpeen mallintaa molempia joenhaaroja erikseen. Tällöin haaroille pitäisi muodostaa todennäköisyysjakaumat myös sen suhteen, kumpaan haaraan kala joutuu, pyydystettävyyden lisäksi. Tämä mutkistaisi mallia hieman, mutta tuottaisi varmasti arvokasta ja ajankohtaista lisätietoa.