Huomioita tulosten raportoinnista

Tilastollista päättelyä voidaan harrastaa kahdesta hieman filosofisesti toisistaan poikkeavasta näkökulmasta. Tämä blogi keskittyy ns. Bayeslaisen koulukunnan tarjoamiin menetelmiin. Toinen päättelyn koulukunta on ’perinteisempi’ ja suositumpi frekventistinen päättely. Teoreettisesti ero näiden kahden välillä muodostuu pienestä yksityiskohdasta: Bayes-päättelyssä kiinnostuksen kohteena oleviin mallin parametreihin kiinnitetään todennäköisyysjakauma, kun taas frekventisessä päättelyssä ne ajatellaan tuntemattomiksi, mutta kiinteiksi.

 

Tämä yksityiskohta osoittautuu hyvin merkitykselliseksi ja määrittelee oikeastaan kaksi hyvin toisistaan poikkeavaa näkökulmaa tilastolliseen päättelyyn. Frekventistisessä näkökulmassa aineiston tuottaneen tilastollisen mallin parametrit ajatelleen siis kiinteiksi, jolloin kaikki käsiteltävä satunnaisuus liittyy itse aineistoon. Aineisto ajatellaan satunnaiseksi leikkimällä sillä mahdollisuudella, että oltaisiin voitu kerätä/havaita myös toisenlaisia aineistoja, mikäli sama koe oltaisiin toistettu samoissa olosuhteissa.

 

Bayeslaisessa näkökulmassa tilastollisen mallin parametreille kiinnitetään todennäköisyysjakauma, jota päivitetään havaitun aineiston perusteella. Tämä ns. priorijakauma kvantifioi ilmiöön liittyvän enakkotiedon ja siihen liittyvän epävarmuuden. Asetelma on siis päinvastainen kuin frekventistisessä päättelyssä; aineisto on kiinteä ja sen tuottaneen tilastollisen mallin parametrit satunnaisia (epävarmoja).

 

Tyypillisesti tilastotieteilijöille opetetaan lähinnä pelkästään frekventististä päättelyä. Sellainen asetelma, jossa kaikki onkin toisinpäin aiheuttaa hieman totuttelemista. Olemme esimerkiksi tässä blogissa raportoineet laskentamallimme tuloksia osittain epäselvästi johtuen omalta osaltani kokemattomuudesta analysoida bayslaisen laskentamallin tuloksia. Puutun nyt muutamaan virheelliseen ilmaisuun ja selvennän, mitä yritettiin sanoa ja mitä olisi pitänyt sanoa.

 

Kokonaismäärän odotusarvon piste-estimaatti

 

Laskentamallimme tarkoituksena on tuottaa taimenten kokonaismäärän todennäköisyysjakauma. Kun olemme onnistuneet tämän jakauman tuottamaan, on sen odotusarvo meille tunnettu. Käytämme kuitenkin laskennallisia menetelmiä, joten emme aivan täsmälleen pysty tuottamaan haluamaamme jakaumaa, vaan BUGS-ohjelmiston tuottaman estimaatin siitä. On aivan oikein puhua piste-estimaatista, mutta on syytä ymmärtää, että kysymyksessä on estimaatti laskennallisista syistä. Tämä liittyy alempaan kohtaan.

 

Odotusarvon piste-estimaatin 95% luottamusväli

 

Luottamusväli on frekventistisen päättelyn termi. Frekventistisessä päättelyssä 95% luottamusväli tarkoittaa, että muodostettu väli sisältää todellisen parametrin arvon 95 kertaa sadasta, perustuen sellaiseen mielikuvitusleikkiin, jossa kerätään vastaavia aineistoja ja muodostetaan uusia välejä.  Tällä nimikkeellä olemme raportoineet kokonaismäärään liittyviä todennäköisyysvälejä (Näistä käytetään Bayeslaisessa analyysissa joskus termiä uskottavuusväli, engl. credible interval), eli sellaisia välejä, joiden sisällä kokonaismäärä on 95% todennäköisyydellä.

 

Vaikkakin oletettavasti lukijat ovat tienneet mitä näillä luvuilla on tarkoitettu, on niiden kohdalla tarkalleen ottaen tehty paha virhe liittyen edellisen kohdan huomioihin. Kuten todettu, liittyy odotusarvon piste-estimaattiin laskennallista epävarmuutta, joka on tunnettua, sillä laskentaohjelmistot kuten BUGS raportoivat samplaykseen liittyvän epävarmuuden (MCMC error), joka kunkin tunnusluvun kohdalla kuvaa siihen liittyvää laskennallista epävarmuutta. Tämä epävarmuus voitaisiin (ja kuuluisikin) raportoida, jolloin voitaisiin esimerkiksi kertoa piste-estimaattiin liittyvä 95% todennäköisyysväli (uskottavuusväli). Tämä väli on kuitenkin aivan eri asia, kuin mallin antama todennäköisyysväli kokonaismäärälle, sillä piste-estimaatin todennäköisyysvälissä kysymyksessä on parametriin liittyvä laskennallinen epävarmuus, ei mallin epävarmuus.

 

Raportoimamme luvut ovat siis olleet kokonaismäärän 95% todennäköisyysvälejä – välejä, joiden sisällä kokonaismäärä on mallimme mukaan 95% todennäköisyydellä.

 

Mietteitä Bayes-mallintamisesta ja päätöksenteosta

Tässä blogipostauksessa on luvassa alustavia mietteitäni Bayes-mallintamisen roolista ja hyödyllisyydestä ympäristöä koskevassa päätöksenteossa, tässä tapauksessa erityisesti Vantaanjoen meritaimenen kohdalla. Toisin sanoen, mihin Bayes-mallintamista tarvitaan, ja mikä mallintamisen hyöty on/voi olla?

Oma taustani on ympäristötieteissä ja kehitysmaatutkimuksessa. Kehitysmaatutkimuksessa painotetaan mahdollisimman yksinkertaisen ja helppokäyttöisen teknologian arvoa, jonka nähdään olevan omiaan lisäämään itse teknologian käyttöä, ja sitä kautta myös hyvinvointia globaalin etelän maiden eri yhteisöissä. Esimerkkinä voisi pitää vaikka aurinkopaneeleiden käyttöä: jos yhteisö ei pysty omaksumaan paneeleiden käyttöä, eikä osaa niitä itse käyttää tai huoltaa, aurinkopaneeleiden edut jäävät pieniksi. Samalla tavalla myös osallistavaa päätöksentekoa lisäävien eri työkalujen ja välineiden nähdään edesauttavan yhteisöiden hyvinvointia ja päätöksenteon oikeudenmukaisuutta. Oletuksena siis on, että nykyisen muotoisen ylhäältä alaspäin toimivan säännöstelyn lisäksi, horisontaalisen päätöksenteon sekä yhteisöstä käsin lähtevä päätöksenteon lisääminen edesauttaisi säännöstelyn legimiteettiä ja toimivuutta.

Myös täällä Itämeren rannikkolla on tarvetta alhaalta ylöspäin suuntautuvalle päätöksenteolle, ja olenkin kiinnostunut osallistavasta päätöksenteosta, jossa tarkoituksena on eri sidosryhmien ja tekijöiden osallistaminen mahdollisimman yksinkertaisin työkaluin. Tälle kurssille tulin miettimään, miten Bayes-mallintaminen voisi toimia yhtenä osallistavan päätöksenteon välineenä. Itselläni ei ole matemaattista taustaa, ja suhtauduinkin mallintamiseen aluksi epäilevästi. Bayes-laskennan hienous piilee kuitenkin siinä, että koko universumia mallintamista ei nähdä välttämättömänä ennen itse tekoihin ryhtymistä, vaan päätöksenteko voi perustua todennäköisyyksille ja niiden mallintamiselle.

Vanhankaupunginkosken meritaimenia ja muita vaelluskaloja koskeva päätöksenteko eri sidosryhmien välillä on hankalaa: kaikki eivät luonnollisestikaan ole samaa mieltä vaelluskaloja koskevista toimenpiteistä. Aiemmissa blogipostauksissa (Juhani ja Mikko) on jo kiinnitetty huomiota Vanhankaupunginkosken padon haittoihin meritaimenien ja muiden vaelluskalojen kohdalla. Vaikka asiaa vaelluskalojen kohdalla on tutkittu vähän, haitoista merkkinä ovat suvannosta kesäaikana löytyneet turbiinien katkomat ankeriaat1. Vanhankaupunginkosken padon purkamisesta on puhuttu viime syksystä, ja tällä hetkellä purkupäätös on saanut jatkoaikaa2. Vastakkain ovat kaksi osapuolta, joista toinen haluaa säilyttää padon sen kulttuurihistoriallisen arvon takia, ja toinen suojella vaelluskaloja.

Vaelluskaloja suojellaan ja säädellään Vanhankaupuginkoskella lähinnä paikallisella tasolla. Vanhankaupunginkosken kalavesien hoidosta vastaa kalastuslain määrämänä Helsingin kalastusalue, jonka tehtävänä on myös kalastuksen säätely ja valvonta, sekä toimiminen yhteistyössä kalavesien omistajien, ammattikalastajien ja vapaa-ajankalastajien kanssa. Helsingin kaupungin liikuntavirasto sen sijaan vastaa kosken kalastusjärjestelyistä. Taimen ja lohi ovat rauhoitettuja ajalla 11.9- 15.11, jolloin niitä ei saa nostaa edes kuvattavaksi. 3

Myös koko Vantaanjoen valuma-alue ja siihen liittyvä päätöksenteko vaikuttavat meritaimeniin. Joka vuotiset kuntien jätevesipuhdistamoilta ja pumppaamoilta tapahtuvat puhdistamattomien jätevesien päästöt, ja maataloudesta huuhtoutuvat ravinteet ja kiintoainekset aiheuttavat pahimillaan kala-ja eliöstökuolemia ja kuormittavat Vantaanjokea, sekä viime kädessä myös Itämerta. Vantaanjoen vedenlaatu olikin 1980-luvulla vielä huono, mutta on siitä lähtien kehittynyt parempaan kuormituksen vähenemisen myötä, ja Vantaanjoen vedenlaadun ekologinen tila on nykyään EU-kriiterein kuvattu ”tyydyttäväksi”. 4

Vantaanjoen varrella ja Vanhankaupunginkoskella on siis monenlaista toimintaa ja monenlaisia toimijoita. Bayes-mallinnus voi toimia yhtenä työkaluna meritaimeniin liittyvässä eri sidosryhmien välisessä keskustelussa ja päätöksenteossa. Eri sidosryhmät ja asiantuntijat voidaan ottaa mukaan jo Bayes-mallin kehittelyvaiheessa, ja heidän avullaan voidaan pohtia eri prioreja (tässä projektissa meritaimenten vuosittaisen määrän priorit on asiantuntijoiden antamia), eri tekijöiden vaikuttavuutta, sekä eri päätösmalleja ja niiden hyödyllisyyttä. Olisikin mielenkiintoista pohtia vielä lisää, miten tarkalleen ottaen asiantuntijat voivat olla mukana kehittelyvaiheessa ja mikä heidän panoksensa mallintamisessa voikaan olla.

Osallistavassa päätöksenteossa työkalujen pitää olla helppokäyttöisiä ja kustannustehokkaita, ja vaikuttaa, että parhaimmillaan Bayes-mallinnus on molempia. Tutkijoiden ja haastateltavien välinen yhteisymmärrys on mallintamisessa tärkeää, ja haasteena on kehittää mallintamisen selkokielisyyttä. Tästä kuitenkin lisää vasta seuraavissa blogipostauksissa….

  1. Virtavesien hoitoyhdistys Ry, 2015. Vantaanjoen vesistö. Available online: http://www.virtavesi.com/index.php?upperCatId=4&catid=4
  2. Vihreä Lanka, 05.05. 2015. Kohuttu patopäätös sai jatkoaikaa. Available online: http://www.vihrealanka.fi/uutiset-kotimaa/kohuttu-patop%C3%A4%C3%A4t%C3%B6s-sai-jatkoaikaa
  3. Vanhankaupunginkoski, 2013. Vanhankaupunginkoski. Available online: http://www.vanhankaupunginkoski.ota.fi/
  4. Vantaanjoen ja Helsingin seudun vesiensuojeluyhdistys ry, 2015. Vedenlaatu. Available online: http://www.vhvsy.fi/content/fi/1007/1048/Jokiluonto.html

 

 

Tulokset 3.5.2015

Päivä: 25

Pyydettyjä smoltteja: 38

Merkattu: 37

Takaisinpyydettyjä merkittyjä smoltteja: 0

Seuraavassa esitellään tuoreella havaintoaineistolla päivitetyt päivän 25 (3.5.) tulokset käytössä olevista kolmesta eri mallista missä muuttointensiteettiä on kuvattua 1) log-normaali-, 2) normaali- ja 3) tasajakaumilla. Taustat N:n prioriin löytyvät aikaisemmasta tulosbloggauksesta ja lähtokohdat malleihin tästä.

Merkittävin muutos seuranta-asetelmissa, ja tarkemmin kokonaispyyntitehon määrittelemisessä, on Smolttirysän poistaminen käytöstä päivästä 21 eteenpäin. Eli tällä hetkellä pyynnissä on taas ainoastaan ruuvi. Tämän osalta malleja on päivitetty seuraavasti:

lambda[i] <- q_s*n[i]*step(15-i) + q*n[i]*step(i-16) + q_s*n[i]*step(i-22) – q*n[i]*step(i-22)

 

Malli 1 – “log-normaali

Log-normaalimalli lähtemisintensiteetille tuottaa taimenten kokonaismäärän odotusarvon piste-estimaatiksi 1411 kappaletta, jolle 95% luottamusväli on 402–3722 (Taulukko 1). Todennäköisin yksittäinen arvio kokonaismäärästä on (posteriorijakauman moodi) on jossain 500 ja 1000 välissä (Kuva 1).

Maanantaina 4.5. vaeltavien taimensmolttien lukumäärän (n[26]) odotusarvon piste-estimaatti on 33 ja 95 % luottamusväli 7–90 (Taulukko 1). Todennäköisin yksittäinen arvio (posteriorijakauman moodi) vaeltavien smolttien määrästä on 16 (Kuva 2).

Maanantaina 4.5. ruuviin jäävien taimensmolttien lukumäärän (x[26]) odotusarvon piste-estimaatti on 1 ja 95 % luottamusväli 0–4 (Taulukko 1). Todennäköisin yksittäinen arvio (posteriorijakauman moodi) on, että ruuviin ei jää yhtään taimensmolttia (Kuva 3).

Kokonaispyydystettävyyden (q) estimaatti on mallissa 0,073, eli 7,3 % pyydystettävissä olevista kaloista joutuu pyydykseen (Taulukko 1). Toistaiseksi pyydykset eivät ole onnistuneet uudelleenpyydystämään ainuttakaan 37 merkatusta kalasta.

 

 

Kuva 1. Malli 1:n posteriorijakauma vaeltavien taimensmolttien kokonaismäärästä 2015.

Kuva 2. Malli 1:n posteriorijakauma vaeltavien taimensmolttien määrästä maanantaina 4.5.2015

 

Kuva 3. Malli 1:n posteriorijakauma ruuviin jäävien taimensmolttien määrästä maanantaina 4.5.2015

Taulukko 1. Parametrien Nn[26]x[26] ja q posteriorijakaumien tunnusluvut malli 1:ssa.

  mean sd MC_error val2.5pc median val97.5pc start sample
N 1411.0 873.2 19.46 402.0 1177.0 3722.0 51 161900
n[26] 32.53 21.87 0.4414 7.0 27.0 90.0 51 161900
x[26] 0.9503 1.053 0.00358 0.0 1.0 4.0 51 161900
q 0.07326 0.03892 6.637E-4 0.02079 0.06546 0.1682 51 161900

 

Malli 2 – “normaali”

Normaalijakauma lähtemisintensiteetille tuottaa taimenten kokonaismäärän odotusarvon piste-estimaatiksi 2359 kappaletta, jolle 95% luottamusväli on 707–5075 (Taulukko 2). Tulos on selvästi korkeampi kuin log-normaalin mallin saman päivän tulos (1411) ja kuin saman mallin edellinen tulos (1199). Todennäköisin yksittäinen arvio kokonaismäärästä on (posteriorijakauman moodi) on jossain 1500 ja 2000 välissä (Kuva 4).

Maanantaina 4.5. vaeltavien taimensmolttien lukumäärän (n[26]) odotusarvon piste-estimaatti on 68  (95 % luottamusväli 20–150, Taulukko 2), joka on yli kaksinkertainen log-normaalin mallin vastaavaan estimaattiin (33) verrattuna. Todennäköisin yksittäinen arvio (posteriorijakauman moodi) vaeltavien smolttien määrästä on 31–32 (Kuva 5).

Maanantaina 4.5. ruuviin jäävien taimensmolttien lukumäärän (x[26]) odotusarvon piste-estimaatti on 2 ja 95 % luottamusväli 0–6 (Taulukko 2). Todennäköisin yksittäinen arvio (posteriorijakauman moodi) ruuviin jäävien smolttien määrästä on 1 (Kuva 6).

Kokonaispyydystettävyyden (q) estimaatti on mallissa 0,074, eli 7,4 % pyydystettävissä olevista kaloista joutuu pyydykseen (Taulukko 2).

tasaN

Kuva 4. Malli 2:n posteriorijakauma vaeltavien taimensmolttien kokonaismäärästä 2015.

tasapikkun

Kuva 5. Malli 2:n posteriorijakauma vaeltavien taimensmolttien määrästä maanantaina 4.5.2015

tasax

Kuva 6. Malli 2:n posteriorijakauma ruuviin jäävien taimensmolttien määrästä maanantaina 4.5.2015

Taulukko 2. Parametrien N, n[26], x[26] ja q posteriorijakaumien tunnusluvut malli 2:ssa.

  mean sd MC_error val2.5pc median val97.5pc start sample
N 2359.0 1154.0 19.21 707.0 2163.0 5075.0 51 125850
n[26] 67.57 33.88 0.5517 20.0 61.0 150.0 51 125850
x[26] 2.292 1.716 0.007054 0.0 2.0 6.0 51 125850
q 0.07382 0.03459 4.894E-4 0.02592 0.06734 0.1582 51 125850

 

Malli 3 – “tasa”

Tasajakauma lähtemisintensiteetille tuottaa taimenten kokonaismäärän odotusarvon piste-estimaatiksi 2506 kappaletta, jolle 95% luottamusväli on 707–5075 (Taulukko 3). Tulos on korkeampi kuin normaali-mallin saman päivän tulos (2359) ja kuin saman mallin edellinen tulos (1578). Todennäköisin yksittäinen arvio kokonaismäärästä on (posteriorijakauman moodi) on jossain 1500 ja 2000 välissä (Kuva 7).

Maanantaina 4.5. vaeltavien taimensmolttien lukumäärän (n[26]) odotusarvon piste-estimaatti on 42 (95 % luottamusväli 13–90, Taulukko 3), joka on pienempi kuin normaali-mallin tulos (68) mutta suurempi kuin log-normaalin mallin vastaava estimaatti (33). Todennäköisin yksittäinen arvio (posteriorijakauman moodi) vaeltavien smolttien määrästä on 31–32 (Kuva 8).

Maanantaina 4.5. ruuviin jäävien taimensmolttien lukumäärän (x[26]) odotusarvon piste-estimaatti on 1 ja 95 % luottamusväli 0–4 (Taulukko 2). Todennäköisin yksittäinen arvio (posteriorijakauman moodi) ruuviin jäävien smolttien määrästä on 1 (Kuva 9).

Kokonaispyydystettävyyden (q) estimaatti on mallissa 0,082, eli 8,2 % pyydystettävissä olevista kaloista joutuu pyydykseen (Taulukko 2). Tämän estimaatti on korkeampi kuin mallin 1 ja 2 vastaavat tulokset.
tasaN

Kuva 7. Malli 3:n posteriorijakauma vaeltavien taimensmolttien kokonaismäärästä 2015.

tasapikkun

Kuva 8. Malli 3:n posteriorijakauma vaeltavien taimensmolttien määrästä maanantaina 4.5.2015

tasax

Kuva 9. Malli 3:n posteriorijakauma ruuviin jäävien taimensmolttien määrästä maanantaina 4.5.2015.

Taulukko 3. Parametrien Nn[26]x[26] ja q posteriorijakaumien tunnusluvut malli 3:ssa.

  mean sd MC_error val2.5pc median val97.5pc start sample
N 2506.0 1134.0 11.63 902.0 2302.0 5232.0 10000 3420903
n[26] 41.78 19.97 0.1914 13.0 38.0 90.0 10000 3420903
x[26] 1.109 1.096 6.281E-4 0.0 1.0 4.0 10001 3150900
q 0.08204 0.03619 2.966E-4 0.03185 0.07518 0.1702 10000 3420903

 

Seuraavissa malliajoissa tulisi tarkemmin kiinnittää huomiota simulaatioketjujen konvergoitumiseen, autokorrelaatioon ja MC-error:iin, ja näiden seikkojen tarkastelemiseen. Sen pohjalta tulisi tehdä tarvittavat toimenpiteet (burn-in, thin, iteraatioiden määrän lisääminen) tulosten laadun parantamiseksi.

 

Bayesiläinen mallikeskiarvoistaminen

Bayesiläinen keskiarvoistaminen yleisesti

Bayesilaiseen mallivalintaan kuuluu käytännössä kaksi osaa: ”havainnot generoineen” uskottavuusfunktion sekä tämän funktion parametrien priorin määrittäminen. Ensin mainittuun kuuluu epävarmuutta siinä missä jälkimmäiseenkin. Klassisessa tilastotieteessä on tapana kritisoida priorivalinnan subjektiivista luonnetta antaen ymmärtää tämän valinnan olevan jossain määrin tutkijan omista epätieteellisistä mieltymyksistä riippuvaista. Kuitenkin myös uskottavuusfunktion valinta on tutkijan enemmän tai vähemmän perusteltu valinta siinä missä priorikin. Molemmat valinnat perustuvat (yhtä lailla) tutkijan henkilökohtaiseen ennakkokäsitykseen havainnot tuottaneesta (fysikaalisesta) mekanismista. Uskottavuusfunktion valinta onkin harvoin jos koskaan aukottomasti perusteltu, vaan myös siihen liittyy käytännössä aina huomionarvoista epävarmuutta.
Bayesilaisessa mallin keskiarvoistamisessa (bayesian model averaging BMA) voidaan huomioida mallivalinnan epävarmuus kokonaisuudessaan pitäen sisällään sekä uskottavuusfunktion että priorin tutkijan subjektiiviseen harkintaan perustuneen mallivalinnan pätevyyden. Bayesilainen keskiarvoistaminen perustuu mallikokonaisuuden johtamiselle keskiarvoistamalla malli yli osamalliensa painotten kunkin osamallin vaikutusvaltaa niille datan valossa päivitettyjen posterioritodennäköisyyksien suhteessa (bayesin teoreeman avulla). Posterioritodennäköisyydeltään suurempi malli saa enemmän, pienempi malli vähemmän painoarvoa mallikokonaisuutta johdettaessa.
Tällöin oletetaan (kokonaistodennäköisyyden kaavassa), että jokin esitetyistä malleista on tosi. Esimerkiksi, jos jompikumpi kahdesta mallista M1 tai M2 on tosi ja on havaittu aineisto d, tällöin mallin yksi posterioritodennäköisyys saadaan kaavasta: p(M=1|d)=[p(d|M=1)*p(M=1)]/[p(d|M=1)*p(M=1)+ p(d|M=2)*p(M=2)]. BMA painottaa esimerkiksi posterioriennustavaa jakaumaa johdettaessa kutakin mallia edellä laskettujen posteriorien suhteissa.
Kun bayesilainen päättely yhdistetään toimintaan valitsemalla se toimintamalli, joka tuottaa parhaimman odotusarvoisen hyödyn, keskiarvoistetuilla malleilla saadaan oletettavasti parempi päätöksiä aikaisesti kuin yksittäisillä mallikokonaisuuden osamalleilla. Tämän voisi pyrkiä hahmottamaan siten, että keskiarvoistaminen huomioi paitsi useaan malliin liittyvän epävarmuuden, myös niihin liittyvän informaation. Suuremmalla määrällä informaatiota voidaan oletettavasti tehdä perustellumpi päätöksiä.
Kuten informaatioteoriaan perustuvat mallivalinnan kriteeri DIC ja BIC, myös BMA huomioi mallien yksinkertaisuuden (parsimony) arvona sinänsä mallin dataan sopivuuden (goodness-of-fit) rinnalla. Jälleen – kuten informaatioteoreettiset mallivalinnan kriteerit – myöskään BMA ei kykene huomioimaan sitä, jos kaikki estimointiin käytetyt/vertaillut mallit ovat huonoja. Roskan keskiarvo on keskimääräinen roska.
Siksi mallivalinnan perusteltavuuteen tarvitaan ennustavia jakaumia, joiden avulla voidaan mallin toimivuutta vertailla aitoon kerättyyn aineistoon. Ei voida tyytyä olettamaan, että joku osamalleista on tosi ja että mallikokonaisuus siksi toimii. Tulee tarkastella, kuinka hyvin (keskiarvoistetun) mallin ennusteet vastaavat todellisuutta. Paras tilanne on, jos voidaan ennustaa tulevia todellisia havaintoja, kuten Vantaanjoen smoltteja arvioitaessa johtamalla seuraavan päivän havaintojen posterioriennustava jakauma. Ennusteiden ja havaintojen yhteensopivuuden tarkastelu voidaan suorittaa paitsi visuaalisella tarkastelulla, myös määrämittaistamalla arvio esimerkiksi laskemalla niin sanottuja ”bayesilaisia p:n arvoja” (bayesian p-values). Logiikka toimii analogisesti nollahypoteesin testauksen logiikan kanssa, ainoastaan, että nollahypoteesi koskee (keskiarvoistettua) mallivalintaa sisällöttömän nollahypoteesin sijaan. Voidaan siis arvioida todennäköisyys havaita havaitun kaltainen (tai harvinaisempi/oudompi) aineisto, jos (keskiarvoistettu) mallivalintamme olisi oikea. Jos posterioriennusteet ovat huonoja, on malli todennäköisesti huono.
Smolttien totaalia estimoitaessa on keskeisenä ongelmana ollut juuri mallivalinta liittyen smolttien lähtötodennäköisyyksien jakauman muodolle tarkasteluaikavälin päivien yli. Tällä mallivalinnalla on myös kohtalaisen paljon vaikutusta saatuihin totaaliestimaatteihin. Kuten aina, yhtäkään mallivalintaa ei voida tässäkään varmuudella pitää totena tai epätotena, vaan ne ovat kaikki enemmän tai vähemmän epävarmoja. Lisäksi keskiarvoistamisen toimivuuden kannalta hyvänä asiana voitaneen pitää sitä, että mallit huomioivat ikään kuin hieman erilaisia vaihtoehtoisia näkökantoja smolttien muuttokäyttäytymiseen. Näin ollen on oletettavaa, että BMA -menetelmää soveltamalla saadaan mallivalinnan epävarmuuden paremmin huomioiva ja oletettavasti luotettavampi estimaatti mereen Vantaanjoesta muuttavien smolttien kokonaismäärälle.

Malliparametrien vertailu BMA-menetelmällä

Osana päivän tehtävänantoa yritimme soveltaa oppimaamme Carling & Chib-menetelmää omaan malliimme. Muodostimme vertailevan mallin kolmesta vaihtoehtoisesta smolttien lähtemistodennäköisyyttä kuvaavasta p-jakaumastamme.

Jakaumat muotoiltiin seuraavasti:

#p for the linear distribution
p[i,1]<-1/60

#p for the normal distribution
pl[i] <- exp(- pow((i-myy_p)/sd_p,2)*0.5)
p[i,2] <- pl[i] / sum(pl[1:60])

#p for the log-normal distribution
pn[i] <- (1/i)*exp(- pow(log(i)-location, 2) / scale)
p[i,3] <- pn[i] / sum(pn[1:60])

# Number of leaving trouts at day i
n[i]~dbin(p[i,model],N)

Muodostettiin jakaumia vertaileva malli. Painot eri malleille annettiin omiin kokemuksiimme niiden toiminnasta perustuen. Log-normaali jakauma sai pienimmän painon, sillä sen toimivuus on ollut kyseenalaista.

#prior for the model BMA for p

model~dcat(z[1:3])
z[1]<-2/5 #weight for the uniform distribution
z[2]<-2/5 #weight for the normal distribution
z[3]<-1/5 #weight for the log-normal distribution
Z[1]<-equals(model, 1)
Z[2]<-equals(model, 2)
Z[3]<-equals(model, 3)

Lisättiin vielä alkuarvot ladattavaksi ketjuille ennen mallin ajoa.

#Inits: use different initial value for each chain
list(model=1)
list(model=2)
list(model=3)

Alkuarvojen antamisessa ennen ajoa oli pieni ongelma, joka poistui kuitenkin, kun ne generoitiin ensin ja ladattiin vasta sitten.

1

Ajon aikana todennäköisyyksien Z[1] ja Z[2] havaittiin selkeää ketjujen hyppimistä. Miksi Z[3] ei toiminut samoin?

2

Myös statistiikka Z[3]:n osalta näytti oudolta. Sen arvo oli tasan nolla.

Model-jakaumakin näytti sivuuttavan Z[3]:n kokonaan. Mistä tämä johtuu?

4

 

Opittavaa BMA:sta – teoria ja käytäntö

Tämän kappaleen alkuun on rehellisyyden nimissä todettava, että harva asia Bayeslaisen analyysin teoriassa tuskin tuntuu yhdellekään kurssilaiselle vielä täysin selkeältä. Bayesin kaavaan ja todennäköisyyksien päivittämiseen perustuva Bayeslaisen mallin perusajatus on toki suhteellisen suoraviivainen, mutta käytännössä on vaikeaa intuitiivisesti ymmärtää, miten esimerkiksi erilaiset priorivalinnat vaikuttavat posteriorijakaumiin. Lisäksi, koska käytännössä laskukaavoja ei koskaan voida soveltaa suoraan ja joudutaan turvautumaan laskennallisiin menetelmiin, tulee rakennetun mallin ymmärtämiseen mukaan uusi välivaihe – ohjelmisto, jolla itse laskenta suoritetaan, kuten projektissa käyttämämme BUGS.
Erilaisten mallin parametrien priorijakaumien vaikutus mallien posterioritodennäköisyyksiin BMA-analyysissa aiheutti ryhmässä pohdintaa. Lukemamme mukaan malleja vertailtaessa epäinformatiiviset priorijakaumat johtavat ’hyvin suuriin’ posterioritodennäköisyyksiin yksinkertaisten mallien tapauksessa. Miksi näin on? Millä perusteella eri mallien prioritodennäköisyydet täsmälleen päivittyvät?
Pohdimme myös erilaisten mallien prioritodennäköisyyksiä ja sitä, millä perusteella ne kannattaa määrittää. Kannattaako esimerkiksi aina käyttää tasaista prioria, vai kannattaako mieluummin käyttää omaa asiantuntija-arviota eri mallien sopivuudesta? Jos on jo havaittu tuloksia, voiko näitä huomioida arviossa vai pitääkö ne jättää huomioimatta?
Bayeslaisten p-arvojen käsite jäi myös toistaiseksi hieman hämäräksi.
Carlin & Chib – metodin käyttö BMA:n implikoinnissa BUGS – koodiin vaikutti mielestämme jokseenkin intuitiiviselta, mutta herätti silti useita kysymyksiä BUGSin muuttujiin ja funktioihin liittyvistä yksityiskohdista. Ymmärsimme, että eri mallien todennäköisyyksien päivittyminen varmasti tapahtuu samalla tapaa, kuin mallin muidenkin prioritodennäköisyyksien päivittyminen, mutta silti tähän liittyvä uusi syntaksi aiheutti pohdintaa siitä, miksi ja mitä kautta päivittyminen oikeastaan tapahtuu.
model –muuttujan määrittely tuntui esimerkkikoodeissa epäintuitiiviselta ja tuntui tapahtuvan hieman salaa allaolevan rakenteen mukaisesti
x ~ dnorm(mu[model],tau)
mu[1] < – a
mu[2] <- b

Tulkintamme mukaan ylläoleva määrittele model nimisen (1,2) vektorin.

Tämän lisäksi pohdimme BUGSin equals() –funktion toimintaa. Mitä täsmälleen tarkoittaa koodi P <- equals(model,1)

Luentokalvoilla myös sanotaan, että malli-indokaattoria ei yleensä tarvita sellaisille prioreille, jotka ovat malleille yhteisiä. Onko siis olemassa tilanteita, jossa tälle on kuitenkin tarve?

Smolttien päivittäisten muuttomäärien arvioinnin pohdintaa

Jatkan seuraavassa Henrin edellisessä postauksessa tekemää oikeellista havaintoa, jonka mukaan smolttien päivittäisen muuttointensiteetin estimoinnissa ei ole (bayesilaisten periaatteiden vastaisesti) käytetty kaikkea käytössä olevaa asiantuntijatietoa.

Siispä kysymys seuraavassa kuuluu: miten sisällyttää (bayesilaiseen tilastolliseen analyysiin) epävarma, mutta samalla huipukas priori? Oletetaan:

1) että menneen tiedon valossa tiedetään kiinnostuksen kohteena olevan satunnaismuuttujan jakauma varsin huipukkaaksi (yhdellä tai useammalla huipulla) sekä

2) että tämän huipun paikan arvioiminen on varsin epävarmaa.

Toisin sanottuna, että tiedetään ennen aineiston keruuta suuren osan käsiteltävän satunnaismuuttujan todennäköisyysmassasta sijaitsevan jollain varsin kapealla, mutta etukäteen huonohkosti tunnetulla tai jopa täysin tuntemattomalla välillä määrittelyjoukkoa.

Tämän kaltainen haaste tulee vastaan smolttien muuttomäärien estimoinnissa, kun tilastollisen mallin puitteissa pyritään määrittämään muuttointensiteetin (eli yksittäisen smoltin merelle lähtemisen todennäköisyyden) jakaumaa tarkasteluajanjakson (1,2,3,4…,60) päivien funktiona. Tiedetään nimittäin, että smoltit (sekä taimenen että lohen) muuttavat melko intensiivisissä, mutta ajoitukseltaan paljon vaihtelevissa muuttopiikeissä. Merkittävän lisähaasteen vaellusmäärien päivittäiselle estimoinnille asettaa se, että havaintopiikkejä vaikuttaisi useimmiten olevan useampia (eli että muuttointensiteetin jakauma on multimodaalinen). Esimerkiksi Tornionjoessa tehdyissä riista- ja kalatalouden tutkimuslaitoksen lohismolttien muuttomäärien arvioinneissa on havaittu kolmehuippuisia muuttojakaumia. Myös taimenten vuosittaisissa muuttomäärissä on havaittu kevään ja kesän kuluessa useita melko jyrkkiä huippuja. (RKTL, 2003, 2008, 2009, 2011, 2012, 2013: kiitos näiden tutkimusten esille nostamisesta kuuluu Sara Enbergille! J)

(Kiinnostava kysymys on, mistä tämä multimodaalisuus johtuu? Modaalisuushan on sinänsä varsin ymmärrettävää huomioiden kalojen ryhmäkäyttäytyminen sekä altistuminen samoille ja oletettavasti jokseenkin samankaltaisesti kuhunkin smolttiin vaikuttaville ympäristötekijöille. Mielestäni toistuva useamman moodin havainto kertoo ainakin siitä, ettei muuttoon lähteminen ole kovin yksinkertainen prosessi, joka olisi suoraan riippuvaista esimerkiksi sopivan lämpötilan saavuttamisesta. Sen sijaan muuttoajankohtaan vaikuttavia ehtoja (”selittäviä ympäristötekijöitä”) on joko useita (ja) tai kalat muuttavat muuttohuipun ympärille muodostuneissa ryhmissä, kalojen kunkin ryhmän sisällä jakamien ominaisuuksien perusteella (”selitettävä” muuttuja eli todennäköinen lähtöpäivämäärä ositettu kalan ominaisuuksin vaihteleviin ryhmiin).

Karkeana esimerkkinä ensin mainitusta voisi olla tilanne, jossa muuttointensiteetin riittävä ehto on riittävän korkea lämpötila, mutta välttämätön ehto sopiva vedenkorkeus. Tällöin vedenkorkeuden vuosittainen vaihtelu kolmessa piikissä voisi selittää kolmihuippuisen muuttointensiteetin jakauman sen jälkeen, kun lämpötilan riittävä ehto on saavutettu. Vastaavasti, jos muuttopäivämäärä riippuu ympäristötekijöiden sijaan tai lisäksi kalan henkilökohtaisista ominaisuuksista, kuten smoltin koosta, smolttien jakautumisesta kutakuinkin kolmeen ryhmien sisällä enemmän kuin välillä vaihtelevaan kokoryhmään selittäisi kolmihuippuisen muuttojakauman.)

Myös kokonaismuuttomäärien arvioinnin kannalta on varsin tärkeää kyetä estimoimaan, milloin muuttohuippu oikein saavutetaan. Muuttomääriä koskevalla priorivalinnalla on aivan erityisen suuri merkitys juuri silloin, kun havainnointi on vaikeaa, eikä estimointia voida tehdä pelkästään aineistoperusteisesti. Jos (ja meidän tapauksessa kun) yksittäisiä pyydykseen jääviä smoltteja on kovin vähän, on vaihtelu absoluuttisissa pyydykseen jääneiden smolttien havaintomäärissä pientä jopa muuttohuipun ja -suvannon välissä. Kuten mallistamme tiedetään, havaitut muuttomäärät ovat todellisten muuttomäärien ja pyydystettävyyden funktio: jos molemmat näistä selittävistä tekijöistä saavat pieniä arvoja, jää myös pyydykseen keskimäärin vähän kaloja. Tästä seuraavat pienet absoluuttiset havaintomäärien vaihtelut voidaan tällöin virheellisesti arvioida muuttohuipuiksi, varsinkin kun tähän pieneen vaihteluun yhdistetään pyydyksen pyydystettävyyden suuri vaihtelu päivien yli. Vedenkorkeudesta riippuen joinain päivänä ruuvi on pyörinyt, toisina ei. Tietoa siitä, kuinka paljon tämä on vaikuttanut pyydystystehoon, ei ole.  Täten pyydystettävyyden vaihtelua ei ole huomioitu vielä yhtään millään tavalla rakentamassamme pyydystettävyyden tilastollisessa mallissa: tämän seurauksena havaintoperusteiset oletukset muuttopiikeistä voisivat selittyä yhtä lailla todellisella muuttomäärien vaihtelulla kuin käytetyn mittausmenetelmän vaihtelulla (jonkinlaisella systemaattisella mittausvirheellä).

Multimodaalista muuttomäärien jakaumaa ei voida approksimoida millään esittämistämme tilastollisista malleista: tasajakaumamalli olettaa muuttomäärän tasaiseksi (huiputtomaksi) päivien funktiona, lognormaalijakauma olettaa yhden huipun saavutettavan tarkasteluajanjakson alkupäässä, normaali keskellä. Mikään ei kuitenkaan estä sovittamasta mitä tahansa muuttojakaumaa halutulla tavalla kuvaava funktiota, kunhan tämä täyttää todennäköisyysjakauman määritelmän summautuen yhteen yli määrittelyjoukkonsa eli 60 havaintopäivän. Yksi vaihtoehto olisi useamman asteen polynomifunktio. Jonkinlainen kenties helpommin hahmotettavissa oleva approksimaatio käytössä olevan prioritiedon mallintamiseksi saattaisi olla osittaa määrittelyjoukko oletettuihin ”moottohuippuryhmiin” (kuten kolmeen osaan), sovittaa kuhunkin näistä väleistä välin päätepisteisiin katkaistu ja melko huipukas normaalijakauma ja normalisoida saadut tulokset sellaisella vakiolla, joka varmistaa y-arvojen summautumisen yhteen koko 60 päivää kattavassa määrittelyjoukossa.

Miten määrittelyjoukkon ositteiden keskipisteet eli muuttohuiput sitten määritettäisiin? Muuttohuippujen paikkaan (eli seurantajakson ajankohtaan) liittyvää epävarmuutta voitaisiin ainakin vähentää estimoimalla huippukohtaa malliperusteisesti. Bohlin ym. (1993: kiitos tämän tutkimuksen esille nostamisesta kuuluu Mikko Hynniselle) havaitsivat, että muuttopiikin sijoittumiseen vaikuttaa 1) (vuosittaisen) smoltin (keskimääräinen) pituus, 2) vedenkorkeus sekä erityisesti vedenkorkeuden muutos, 3) lämpötila sekä erityisesti lämpötilan muutos (viikon takaisesta) ja 4) edellisen vuoden kalakannan kasvu. Näillä tekijöillä Bohlin ym. kykenivät selittämään 47% prosenttia päivittäisten muuttotodennäköisyyksien varianssista.

Periaatteessa meillä olisi käytettävissä kerättyä seurantatietoa 3 ensin mainitusta tekijästä; neljännestäkin tietoa luulisi olevan saatavilla. Muuttointensiteetin jakauman estimointi mainituilla selittävillä muuttujilla on siis harkitsemisen arvoinen asia. Tällaisellakin (polynomiaalisella regressio)mallilla jäisi kuitenkin edelleen oletettavasti selittämättä suurin osa smolttien muuttoon lähtötodennäköisyyden päivittäisestä vaihtelusta, minkä lisäksi ei voitaisi tietenkään mennä takuuseen siitä, että lounais-Ruotsissa tehdyt havainnot siirtyvät sellaisenaan Vantaanjoen kaikin puolin varsin erityislaatuiseen muuttotilanteeseen. Siksi tällaiseenkin regressiomallivalintaan tulisi suhtautua terveellä skeptisyydellä kuitenkin samanaikaisesti ymmärtäen, että kaikki käytössä oleva tieto olisi syytä estimoinnissa myös hyödyntää: lähes täydelliseen a priori tietämättömyyteen perustuva malli on peräti virheellinen (ja tehoton), jos a priori tieto on oikeasti olemattoman sijaan ainoastaan heikkoa.

Muuttomäärien jakaumaa koskeva arvio on vaikutusvaltainen kokonaismääriä estimoitaessa. Tämän voi havaita tarkastelemalla eri mallivalintojen posterioriestimaatteja Vantaanjoen smolttien muuttomääristä (ks. tämän päivän tulospostaus kolmella mallilla). Tästä seuraa yhdessä mallivalintaan liittyvän edellä esitellyn epävarmuuden kanssa, että vuosittaisen muuttomäärän totaalin posterioriestimaattia johtaessa olisi järkevää käyttää melko useaa mallia, joiden yli posterioriestimaatit sitten keskiarvoistettaisiin painottamalla lähtökohtaisesti perustelluimpina pidettyjä malleja suuremmilla prioritodennäköisyyksillä.

Tästä voitaneen luvata tulevan pian lisäpäivityksiä, so stay tuned.

Malliajatuksia ja ajatusmalleja

Kevät etenee ja vesi lämpenee, mikä tarkoittaa sitä että smolttivaelluksen huippu lähenee. Tätä kirjoittaessa elämme tarkastelujakson (eli smolttivaelluksen oletetun keston) 27. päivää, eli olemme kohta puolimatkassa. Useampia malliajoja on tehty ja ennusteita saatu. Mallia on muunneltu, viritelty ja uudella datalla päivitelty, sitä mukaa kun sitä on tullut. Mielenkiintoista on nähdä tarkastelujakson lopussa, datan kerryttyä, mitkä mallit näyttäisivät toimivan parhaiten ja millaisia eroja tuloksissa on, ja toisaalta, miten ja millaisia loppupäätelmiä käytössä olevilla malleilla saadaan aikaiseksi niiden tuloksia yhdistämällä ja keskiarvoistamalla. Näistä, niin kuin myös monista muista asioista saamme toivottavasti oppia vielä paljon lisää kurssin aikana. Mutta tätä odotellessa minulla on tässä vaiheessa joitain mietteitä mallista, niin vähän yleisemmällä kuin yksityiskohtaisemmallakin tasolla, joita ajattelin seuraavaksi yrittää käsitellä.

Tähänastisissa maaleissamme (katso: Lisäpyydyksen huomioiminen ja lähtemisintensiteetin uudelleenmallintaminen) olemme käyttäneet muuttointesiteettiä, p, kuvaamaan yksittäisen smoltin todennäköisyyttä lähteä liikkeelle päivänä i. Malliversiosta riippuen muuttointesiteetin on oletettu noudattavan eri todennäköisyysjakaumia, jotka muodoiltaan epäsuorasti huomioisivat veden lämpötilan vaikutukset ‘muuttopäätökseen’ (approksimaatio lognormaalista jakaumasta sekä normaalijakauma) tai vaihtoehtoisesti olettaisivat muuttotodennäköisyyden vakioksi yli päivien (tasajakauma). Koska tiedämme muuton olevan veden lämpötilasta riippuva, voisi muuttointensiteettiä kuvata jollain veden lämmön suoraan huomioivalla funktiolla tai joitain lämpötilan kynnysarvoja käyttäen, esim. niin kuin aikaisemmassa T. Niemisen blogikirjoituksessa ehdotettiin: “Esimerkiksi voitaisiin olettaa, että muutto on tasaista (sitä kuvaa tasajakauma) tiettyyn päivään asti, jolloin jakauman muoto muuttuu ikään kuin kategorisena muuttointensiteetin tilan muutoksena”. Nykyisessä muodossa mallimme ei mielestäni mitenkään hyödynnä prioritietoamme lämpötilan vaikutuksesta vaellukseen eikä myöskään saatavissa olevaa päivittäistä lämpötiladataa.

Jos mallia yrittäisi viritellä vielä realistisemmaksi, voisi smolttien vaihtelevan vaellusmatkankin huomioida mallirakenteessa. Kun smolttivaelluksen käynnistymisen huipun tiedetään olevan noin 8 C asteessa, voisi vedenlämpötilan kehittymistä seurata eri jokiosuuksilla ja liittää mallirakenteeseen ottamalla huomioon etäisyydestä ja vaellusnopeudesta (joka taas määräytynee aktiivisen uimisen ja passiivisen virrannopeudesta riippuvan liikkumisen summasta) johtuva vaelluksen kesto. Päivänä i mereen vaeltavien smolttien määrä n olisi tuolloin riippuvainen jokiosuuskohtaisesta lähtöintensiteetistä p sekä etäisyydestä jokisuulle d. Tämä tekisi tietenkin mallista monimutkaisemman ja vaatisi tietoa eri jokiosuuksien (koskien) suhteellisesta smolttituotannosta. Jos tällaista tietoa ei kuitenkaan ole, voisi vaihtoehtoisesti lähteä oletuksesta, että joen eri kosket tuottavat tasaiseti smoltteja.

Smolttien pyydystämistä varten käytettävät Smolttiruuvi sekä Smolttirysä ovat myös tuottaneet paljon päänvaivaa. Smolttiruuvi on ollut käytössä tarkastelujakson alusta asti kun tass rysä laitettiin pyyntiin vasta 15. päivänä. Välineiden pyydystysteho päivittyy joka päivä kun aikaisemmin merkityt kalat joko päätyvät tai eivät päädy uudestaan jompaan kumpaan pyydykseen. Tähän mennessä joen itähaarassa (vapaa haara) olevan Smolttiruuvin aloituspriorina on käytetty mandariinikokeesta (katso: Mandariineja ja vaelluspoikasia) saatua pyydystystehoa q = 0,2, joka siis päivittäin muuttuu saaliiden päivittyessä. Smolttirysää koskevan pyydyskohtaisen aloituspriorin puuttuessa on nykyisessä mallissa käytetty samaa alkupyyntitehoa kuin ruuvissa, eli 0,2. Vaikkei tarkkaa tietoa rysästä olekaan, voisi tätä oletusta ehkä hieman tarkentaa asiaa vähän enemmän pähkäilemällä. Pyydyksen pyyntiteho tietyssä joessa riippuu joen koosta, pyydyksen paikasta joessa sekä pyydyksen teknisistä pyyntiominaisuuksista. Lähtökohtaisesti emme tiedä rysästä mitään, eli sen pyyntiteho voi teoriassa olla mikä tahansa 0 ja 1 välillä. Voisi kuitenkin kuvitella että rysä välineenä ohjaisi ehkä hieman tehokkaammin kaloja pyyntivälineeseen kuin ruuvi. Toisaalta emme taas tiedä miten rysä toimii eri virtauksilla tai kuinka nopeasti esimerkiksi rysän suu roskaantuu umpeen. Eli kun ei parempaa välinekohtaista tietoa ole, voisi lähteä olettamuksesta että rysä ja ruuvi toimivat välineinä samalla teholla. Mutta tiedämme kuitenkin sen, että rysä sijaitsee jokisaarekkeen edustalla keskella joen itä- ja länsihaaran haaraumaa. Tiedämme mandariinikokeesta myös sen, että joen itähaaraan päätyi virran vieminä 30 ja länsihaaraan 70 mandariinia. Intuitiivisesti voisi siis kuvitella että rysä pyytäisi sijaintinsa takia ruuvia hieman tehokkaammin. Jos välinekohtaisen pyyntitehon oletetaan olevan sama kuin ruuvin länsihaarakohtainen teho (20/30), riippumatta siitä missä kohtaa jokea pyydys on, voitaisiin arvioida rysän aloituspyyntiteho pyyntipaikasta ja välinekohtaisesta pyyntitehosta seuraavasti: q = 2/3 * (30/100+70/100)/2 = 1/3 = 0,333. Eri pyydysten pyyntitehoa ja kalojen liikkumista ajatellen voisi myös olla mielenkiintoista tarkastella mihin eri pyydyksissä merkityt kalat päätyvät uudestaan (mutta tätä tietoa meillä ei tällä hetkellä ole).

Viimeiseksi jatkan vielä hieman käsittelemällä pyyntitehoa yksityiskohtaisemmalla malliteknisellä tasolla. Tällä hetkellä käytössä oleva smolttimalli (katso: Lisäpyydyksen huomioiminen ja lähtemisintensiteetin uudelleenmallintaminen) käyttää niin sanotusti kiinteää q:ta, joka on päivittynyt tiettyä malliajon päivää vastaavaksi. Kokonaispyyntiteho q määräytyy pyydyskohtaisista q_f:stä ja q_s:stä seuraavanlaisesti:

q <- q_f + q_s – q_f * q_s

Vaihtoehtoisesti voisi ehkä myös q:n summaamisen sijaan laskea pyydyskohtaiset päivittäiset saalisestimaatit x_f[i]x_s[i], jotka sitten voidaan summata kokonaissaaliiksi. Pyydyskohtaiset saalisarviot antaisivat myös mielenkiintoista lisätietoa ruuvin ja rysän ominaisuuksista.

Alla käytässä oleva BUGS-koodi q:n määrittämistä varten (T. Nieminen)

#separate catchabilities for both catching methods

# a=number of recaptures

# b=number of marked smolts not recaptured on the next day

# q_s=catchability of the smolt screw

q_s~dbeta(alpha,beta)

alpha<-(2 + sum(a[1:m[2]]))

beta<-(8 + sum(b[1:m[2]]))

# q_f=catchability of the fyke, that has been operational from day 15

q_f~dbeta(alpha2,beta2)

alpha2<-(2+(sum(a2[15:m[2]])))

beta2<-(8+(sum(b[15:m[2]])))

Tämä rakenne toimii, mutta vaatii jonkin verran manuaalista datan päivittämistä a:n ja b:n suhteen. Kaikki merkityt kalat ovat ns. “failure”-merkintöjä, b, kunnes ovat uudestaan jääneet pyydykseen, a. Kala ei voi samaan aikaan olla sekä b että a. Tämä tarkoittaa sitä, että kun merkittyjä kaloja jää pyydykseen (a) pitää ne niin sanotusti vähentää pyydettävissä olevista merkityistä kaloista (b). Nykyisellä mallirakenteellä tämä vaatii käsityötä. Olen yrittänyt miettiä miten “kiinteän” q:n saisi muutettua päivittäiseksi pyyntitehoksi q[i], joka myös päivittyisi automaattisesti datasta. En kuitenkaan saanut koodia toimimaan eivätkä taidot ainakaan vielä riittäneet ongelman ratkaisemiseksi. Alla lopuksi kuitenkin koodinpätkä tästä (yhdelle pyyntivälineelle), jos vaikka joku tietää mitä tehdä tai saa siitä jonkun idean eteenpäin.

for(i in 1:d)

{

q[i]~dbeta(alpha[i],beta[i])

alpha[i]~dbin(z[i],y[i])

beta[i]~dbin(zz[i],y[i])

zz[i]<-1-z[i]

y[i]<-M[i]-R[i] # cumulative amount of still uncaught marked fish until day i

z[i]<-a[i]/(a[i]+b[i])

a[i]<-2+R[i] # mandarines in the sampler + cumulative recapture until day i

b[i]<-8+y[i] # mandariines elsewhere + marked fish not captured until day i

}

M[1]<-0

R[1]<-0

for(i in 2:d)

{

M[i]<-sum(m[1:i-1])  # cumulative amount of marked fish until day i

R[i]<-sum(r[1:i-1]) # cumulative amount of recaptured fish until day i

}

}

list(d=60) # x[]=catch, m[]=marked and released fish from the day before, r[]=recapture

x[] m[] r[]

0 0 0

0 0 0

0 0 0

1 1 0

2 2 0

2 2 0

0 0 0

0 0 0

0 0 0

1 0 0

1 0 0

1 3 0

0 0 0

2 2 0

1 1 0

0 1 0

0 0 0

0 0 0

1 3 0

3 5 0

NA NA NA

NA NA NA

 

Pohdintaa mallista ja sen kehittämisestä

Mallissamme on vielä nykyisellään joitakin ratkottavia ongelmia mm. pyydystettävyyden suhteen. Toinen pyydys, hieman smolttiruuvista ylävirtaan sijoitettu rysä on mutkistanut mallinnusta huomattavasti. Emme vielä ole keksineet täysin toimivaa ratkaisua, jolla saisimme kerättyä informaation molempien pyydyksien suhteellisesta pyydystävyydestä. Tätä ratkotaan edelleen, mutta mielestäni on silti hedelmällistä pohtia myös mallin kehittämistä edelleen paremmaksi., vaikka teknisiä ratkaisuja en pystykkään oman osaamiseni puolesta juurikaan tarjoamaan.

Kalojen parveutuminen

Erilaisten biologisten prosessien mallinnus on hyvinkin haastavaa, sillä huomioon otettavia muuttujia on niin runsaasti. Esimerkiksi pyydystettävyyden arvioinnissa huomionarvoinen asia on taimenten vaelluspoikasten parveutumiskäyttäytyminen. Taimenen jokipoikasen reviirikäyttäytyminen muuttuu huomattavasti sen smolttiuduttua, eli sen käytyä läpi sitä mereen siirtymiseen valmistavan fysiologisen muutoksen. Tällöin taimen jättää reviirinsä ja yleensä parveutuu muiden vaelluspoikasten kanssa. Tämä muodostaa ongelman silloin, kun käytettävä malli olettaa kalojen olevan jakautuneen tasaisesti ja toimivan riippumattomasti yksilöinä. Silloin malli antaa liian optimistisen kuvan tarkkuudestaan. Kalojen parveutuminen tulisi ottaa huomioon, mikäli estimaattia smolttien määrästä halutaan tarkentaa.

Nykyinen mallimme käyttää pyydystettävyyden mallintamiseen beta-jakaumaa, jossa pyydyksen “onnistumiset” ja “epäonnistumiset” muodostavat jakauman tiheysfunktion, eli määräävät sen muodon. Tämä ei ota huomioon parveutumiskäyttäytymistä ja sen aiheuttamaa dispersiota. Ratkaisuja tähän ongelmaan on viisaampien toimesta kehitetty ja näitä menetelmiä voisi yrittää myös tämän projektin puitteissa soveltaa, mikäli resursseja siihen riittää. Näitä ovat mm. jonkinlaisen beta-binomiaalisen jakauman käyttäminen, joka sisältää erityisen dispersio-parametrin, tai negatiivisen-binomijakauman soveltaminen. Näiden aukeaminen ainakin allekirjoittaneelle tulee kuitenkin olemaan suuren työn takana.

Mitä tapahtuu joen länsihaarassa?

Mielestäni mielenkiintoinen ajatus mallin laajentamisesta olisi kerätä tarkemmin tietoa myös siitä, kuinka suuri osa kaloista matkaa mereen joen padotun länsihaaran kautta. Tieto olisi erityisen arvokasta nyt, kun padon kohtalosta kiistellään. Jatkossa olisi myös hedelmällistä selvittää kuinka suuri osuus taimenen vaelluspoikasista selviää hengissä voimalan turbiineista. Tällöin tarvittaisiin myös padon alajuoksulle jonkinlainen pyydys.

Tällä hetkellä voimma antaa vain jonkinlaisen estimaatin perustuen alun “mandariinikokeeseen”. Tällöin (hyvin epätarkka) arvio olisi, että länsihaaraan päätyy noin 80% mereen matkaavista taimenista. Tällä hetkellä estimaattia ei ole mahdollista tarkentaa, sillä länsihaaran puolella ei ole minkäänlaista havainnointivälinettä.

Mikäli tälläinen mahdollisuus joskus suotaisiin, olisi varmasti tarpeen mallintaa molempia joenhaaroja erikseen. Tällöin haaroille pitäisi muodostaa todennäköisyysjakaumat myös sen suhteen, kumpaan haaraan kala joutuu, pyydystettävyyden lisäksi. Tämä mutkistaisi mallia hieman, mutta tuottaisi varmasti arvokasta ja ajankohtaista lisätietoa.

Bayes-oppia kalojen kanssa

Tässä blogipostauksessa pohdin laskentaprojektiamme yleisesti, siihen liittyvää omaa oppimistani, sekä muutamaa projektin yksityiskohtaa, jotka tässä vaiheessa mietityttävät minua.

Olemme nyt puuhastelleet Vantaanjoen meritaimenkannan arvioinnin kanssa muutaman viikon, ja on selvää, että mielekkään projektin parissa työskentely tarjoaa loistavan tilaisuuden oppia. Olen todella iloinen siitä, että projektia suoritetaan suurilta osin ryhmätyönä ja siinä on mukana paljon eritaustaisia ihmisiä. Tämä tarjoaa jokaiselle hyvän mahdollisuuden oppia toisiltaan. Itselläni on tausta tilastotieteessä ja koen aina hyödylliseksi jos saan tilaisuuden selittää muille sellaisia teoreettisia peruskäsitteitä, jotka minulla pitäisi olla jo hyvin hallussa. Tämä on hyvä tapa varmistaa, että olen todella itse ymmärtänyt kyseiset asiat ja samalla tilaisuus syventää omaa ymmärrystäni niihin. Tieto on paljon hyödyllisempää, jos sen osaa selkeästi välittää eteenpäin, joten kaikki kokemus oman tiedon jakamisesta on minusta arvokasta.

Käytännöllisen projektin kanssa työskentely on myös tarjonnut mahdollisuuden peilata omaa osaamistaan ‘tosielämän tilanteiden’ valossa. Toisaalta keksiessään ratkaisuja projektin osaongelmiin voi tyytyväisenä huomata oppineensa jotain viimeisen kolmen vuoden aikana yliopistolla, mutta toisaalta taas joidenkin asioiden kanssa ymmärtää, että teorian soveltaminen käytäntöön ei ole helppo eikä itsestäänselvä harppaus. Välillä on vaikeaa tunnistaa miten käytännön ongelma muotoillaan matemaattisesti, vaikka ongelma tuntuisikin yksinkertaiselta. Käytännössä tutuilla ongelmilla on aina päällä uudenlaiset vaatteet.

 

eDefined

The definition of e on a T-shirt

 

Koen saaneeni paljon apua projektin biologisen ja tietoteknisen puolen asioihin muilta projektilaisilta. Käyttämämme BUGS -ohjelmisto oli minulle jokseenkin tuttu ennen projektia, mutta nyt koen, että muiden avulla olen saanut hyvän otteen ohjelmasta ja olen kiinnostunut oppimaan lisää mallidiagnostiikasta ja muista ohjelmiston tarjoamista ominaisuuksista. Erityisesti minua mietityttää esimerkiksi se, minkälaisia työkaluja on olemassa eri mallien vertailuun ja miten parhaiten vertailla erilaisten priorien vaikutusta posteriorijakaumiin. Tähän liittyen myös teoria priorijakaumien valinnasta kiinnostaa.

 

JeffreysPrior

Jeffreys prior

 

Yksi haastavimmista osista mallia on ollut kalojen muuttointensiteetin mallintaminen, jota kuvataan mallissa kalojen todennäköisyytenä lähteä liikkeellee tiettynä päivänä. Tämän mallinosan suunnittelu alkoi yksinkertaisesta diskreetistä tasajakaumapriorista, eteni siitä ’normaalin’ näköiseen pistetodennäköisyysfunktioon ja tästä edelleen ’log-normaaliin’ pistetodennäköisyysfunktioon. Pidimme alunperin jälkimmäistä ’parhaana’ ja ’realistisimpana’ priorivalintana, sillä se vaikutti sopivan yhteen vaelluksen dynamiikasta kertovat asiantuntijatiedon kanssa.

 

640px-Lognormal_distribution_PDF.svg

log-Normal distribution

 

Vaikutti kuitenkin siltä, ettei kyseinen priorivalinta saanut mallia käyttäytymään haluamallamme tavalla; lähtöintensiteetin huippu ajoittui ei-haluttuun kohtaan. Kyseinen priorivalinta vaikutti myös huomattavasti tuloksiin; ajattelen tämän johtuvan ainakin osittain siitä, että lähtöintensiteetin jakauma ei päivity mallissa kovinkaan nopeasti, sillä se kuvaa vaelluksen kulkua yli kaikkien vaelluspäivien ja alussa on tietysti dataa vain ensimmäisistä päivistä. Yritän hakea tästä epäonnistumisesta opetusta. Meillä ei ollut kovinkaan paljoa tietoa ilmiöstä ja silti valitsimme melko informatiivisen priorin. Lisäksi tiesimme, ettei data tulisi päivittämään tätä priorijakaumaa kovinkaan tehokkaasti. Ehkäpä voidaan yleisesti sanoa, että tällaisessa tilanteessa tulisi valita epäinformatiivisempi priori?

 

Mandariineja ja vaelluspoikasia

Olemme useaan eri otteeseen pohtineet ruuvin pyydystystehokkuuden määrittämisestä nousevia kysymyksiä. Alkuoletuksemme taimenruuvin pyydystystehokkuudelle perustui mandariinikokeeseen, jossa 100 mandariinia laskettiin joen yläjuoksulle. Mandariineista 20 päätyi ruuviin ja 80 ruuvin ulkopuolelle, joten määritimme taimenruuvin pyydystystehokkuudeksi 20 %. Päivitämme ruuvin pyydystystehokkuutta jatkuvasti uusien havaintojen pohjalta, ja koska yhtään merkittyä vaelluspoikasta ei ole saatu pyydettyä uudelleen, pyydystystehokkuutta koskeva oletus heikkenee jatkuvasti.

Aikani googlailtuani aikaisempia vaelluspoikaspyyntiraportteja minulle selvisi, että mandariinikoe on suoritettu aiemmin ainakin Ingarskilanjoella. Koe toistettiin kahdesti eri veden korkeuksilla ja ruuvin pyydystystehokkuudeksi saatiin 17-27 %. Samassa tutkimuksessa pyydystystehokkuuskoe suoritettiin myös merkityillä kaloilla vaellushuipun aikana, jolloin kahdeksasta merkitystä kalasta kaksi päätyi ruuviin (eli 25 %). Raportin mukaan n. 20 % pyydystystehokkuutta voidaan pitää luotettavana kokonaisarvion laskemiseen (lähdettä ei kerrottu). Vaikka pyydystystehokkuuskoe kaloilla toistettiin vain kerran, kalojen ja mandariinien uimista/päätymistä ruuviin pidettiin riittävän samanlaisena, ja kokonaismäärän laskemisessa käytettiin mandariinikokeesta saatua tehoa (17-27 %).

Vantaanjoen vaelluspoikaspyynnissä ensimmäisinä 19 päivän aikana kaloja merkittiin maksimissaan 3 kappaletta päivässä. Jos kaksi kalaa kymmenestä ui pyydykseen (mandariinikoe), kolmesta merkitystä kalasta todennäköisesti vain yksi (jos sekään) ui pyydykseen olettaen, että merkityt kalat ohittavat pyydyksen vuorokauden aikana eivätkä esimerkiksi jää uimaan yläjuoksulle. Jokainen merkattu vaelluspoikanen, joka ei ole uinut pyydykseen uudelleen, on heikentänyt arviotamme ruuvin pyydystystehokkuudesta. Varmastikin pyydystystehokkuuden päivittäminen tähän mennessä on tehty perustellusti, mutta intuitiivisesti arvion tarkentuminen perustuen muutamaan merkittyyn kalaan/päivä tuntuu epätarkalta ja sattumanvaraiselta. Toivoisinkin, että meillä olisi mahdollisuus tarkentaa oletustamme suuremmalla määrällä merkittyjä kaloja ja mahdollisesti toistaa myös mandariinikoe.

Kurssilaisen mietelmiä 4.5., henkilökohtainen blogipostaustehtävä

Tehtävänantomme kurssin kokoontumiskertojen välille oli melko löyhästi ohjeistettu henkilökohtainen blogipostaus koskien projektia ja siinä mahdollisesti askarruttavia tai kiinnostavia asioita, sekä omia tuntemuksia kurssilta.

 

_DSF4472-2

Vanhankaupunginkosken itähaaran kalatie 20.4.2015.

 

Kurssilla olevat opiskelijat ovat hyvin eri taustoista lähtöisin. Monella heistä on huomattavasti vahvempi tekninen osaaminen tilastotieteellisistä perusasioista, sekä mallintamisohjelmien käyttämisestä, kuin itselläni. Kurssin alussa tämä tuntui hankalalta, sillä etenemistahti oli reippaan puoleinen valtaosalle kurssilaisista perusasioiden ollessa jo entuudestaan selviä. Minä puolestani ympäristötieteelliseltä pohjalta ponnistaessani taistelin yrittäessäni yhdistää eri todennäköisyysjakaumia sekä parametreja konkreettisiin, ymmärrettäviin asioihin ja laahasin koko ajan askeleen perässä. Kurssipäivän lopuksi olo tuntui kaikkensa antaneelta ja tyhjältä, kun yritti viimeisillä pään voimilla miettiä, mitä jonkin mallissa esiintyvän todennäköisyysjakauman keskihajontaa kuvaava todennäköisyysjakauma nyt sitten oikeassa elämässä kuvastaa tai mistä lähteä purkamaan, jos tietokoneohjelma herjasi toimimattomasta mallista.

 

Tässä kohtaa nostan hattua kurssimme vetäjälle, joka päätti parin ensimmäisen kurssikerran jälkeen tarttua tilaisuuteen ja muuttaa kurssimme suoritustapaa käytännönläheisempään suuntaan huomattuaan Vantaanjoella alkavan meritaimenprojektin. Nyt kurssin asioita sovelletaan suoraan käytännön asioihin ja yhteydet mallien ja todellisten kosketeltavien asioiden välillä ovat huomattavasti helpompia hahmottaa. Tämä lisää myös merkittävästi motivaatiota ymmärtää, mitä malleissa ja niiden sisällä tapahtuu.

 

_DSF4691

Smolttirysän sivusaaliina pyytämä laskutaimen mitataan ja siltä otetaan suomunäyte.

 

Vieläkään en koe puhuvani edes ontuvaa ”Bayesia” ja yksinkertaisienkin BUGS -mallien yksin puhtaalta pöydältä kirjoittaminen (siten, että myös BUGS –ohjelma minua ymmärtäisi) tuntuu mahdottomalta tehtävältä. Nyt kuitenkin hahmotan valmiiden, tässä vaiheessa käyttämiemme verraten yksinkertaisen mallien eri osat ja mitä ne kuvastavat.  Kun isommat asiat teknisten yksityiskohtien ympäriltä hahmottuvat paremmin, on varmasti myös mallien kieltä lopulta helpompi opetella ja ymmärtää. Uskon, että paljon kerkeän vielä kurssin loppupuoliskon aikana oppimaan.

 

Jotta saisin postaukseen muutakin sisältöä, kuin omaan oppimisprosessiini liittyviä pohdiskeluita, esitän joitakin projektiin liittyviä mietelmiä. Minulla ollessa hyvin rajallisesti annettavaa vaelluspoikasten kokonaismäärää arvioivan mallimme teknisessä kehittämisessä, katson nyt mallista eteenpäin. Malli tulee laskemaan ja posteriorijakauma kuvastamaan käsitystämme kauden aikana Vantaanjoesta mereen vaeltavien taimensmolttien kokonaismäärästä (mallissa kuvastettuna kirjaimella N). Olisi luontevaa mallia, sekä tutkimusta eteenpäin kehittämällä saada myös tietoa tapetilla olevan länsihaaran voimalapadon aiheuttamasta tappiosta mereen asti lopulta pääsevien smolttien lukumäärässä. Tästä saataisiin paljon kaivattua tietoa päätöksenteon tueksi padon mahdollista purkamista koskien. Mikäli esimerkiksi padon aiheuttama lovi Vantaanjoen taimentuotantopotentiaaliin arvotetaan tarpeeksi korkealle muiden purkamisen tuomien etujen lisäksi verrattuna vaakakupin toisella puolella mm. padon sähköntuotanto-, sekä kulttuuriarvoihin on päätöksentekijöiden helpompaa toimia padon purkamisen puolesta.

 

_DSC9462

Vanhankaupunginkoskella kalassa oleva isokoskelo.

 

Kuten mallin kehittelystä kertovissa aiemmissa postauksissa on kerrottu, saatiin tutkimuksessa käytetyn pyydyksen tehoa alustavasti arvioitua mandariinikokeella, jossa ylävirrasta lasketuista 100 mandariinista 70 ajautui padolle ja 30 itähaaraan, joista edelleen 20 päätyi ruuviin. Smoltit uivat toki mandariineja ketterämmin, mutta voidaan olettaa mandariinien antavan suuntaa myös laskeutuvien kalojen jakautumisesta joen haaroihin. Tästä saamme alustavan oletuksen padolle päätyvistä smolteista. Uutta dataa tarvittaisiin padon aiheuttamasta kuolevuudesta, jotta arvioissa sen aiheuttamasta hävikistä mereen asti pääsevien smolttien määrässä päästäisiin eteenpäin.