Mallin päivitys 20.5.2015

Saimme uutta prioridataa!:) Tämä kummajainen pääsi tapahtumaan, kun ruuvin prioripyydystettävyyden määräämä mandariinikoe toistettiin. Alkuperäisessä kokeessa olimme saaneet tulokset, joiden perusteella 70 mandariinia päätyi pato- ja 30 ruuviuomaan. Ruuviuomaan päätyneistä 20 päätyi ruuviin.

Nyt saimme aineistoa sekä yläuomasta että ainoastaan ruuviuomaan päästetyistä mandariineista. Kuinka yhdistää saatu aineisto?

Olkoon P(ru) mandariinin todennäköisyys päätyä ruuviuomaan, P(pu) todennäköisyys päätyä patouomaan ja P(r) todennäköisyys päätyä ruuviin. Tällöin kokonaistodennäköisyyden kaavasta P(r)=P(r|ru)*P(ru)+P(r|pu)*P(pu).

(Viattomalla apuoletuksella, että mandariini tosiaan päätyy jompaankumpaan uomaan, eikä jää matkan varrelle jonnekin jumiin tai tule syödyksi. :))

Koska todennäköisyys, että mandariini päätyy ruuviuomassa sijaitsevaan ruuviin ehdolla, että mandariini päätyy patouomaan, on toki 0, eli P(r|pu)=0, niin tästä seuraa, että P(r)=P(r|ru)*P(ru). Mandariinin todennäköisyys päätyä ruuviin on siis sama kuin mandariinin todennäköisyys päätyä ruuviuomaan kertaa tämän todennäköisyys päätyä ruuviin ehdolla, että on päätynyt ensin ruuviuomaan. Tämä on tietenkin sama kuin todennäköisyys päätyä ruuviuomaan ja ruuviin, P(r ja ru).

Kun huomioidaan kaikista mandariinikokeista saatu data, ovat parhaat yksittäiset pistearviomme P(ru)=49/188, ja P(r|ru)=30/66. Tällöin P(r)=0,118.

Tässä ratkaisussa arveluttaa, ovatko eri kohtia yläjuoksua päästettyjen mandariinikokeiden tulokset vertailukelpoisia? Tämän edellä koetuloksia yhdistettäessä implisiittisesti tehdyn oletuksen paikkansapitävyys vaikuttaisi epätodennäköiseltä siksi, että alkuperäisessä kokeessa ruuviuomaan päätyneiden osuus oli 30/100, kun taas 1.5.2015 neljännen tien sillalta päästetyistä 50 mandariinista KAIKKI päätyivät patouomaan. Todennäköisyys, että 1.5. tehdyssä binomikokeessa saataisiin 50 toistossa yhteensä 50 epäonnistumista ehdolla, että todennäköisyys yksittäisen toiston onnistumiselle olisi ensimmäisen kokeen 0.3 on häviävän pieni (0.7^50). Oletettavasti kokeet eivät siis ole vertailukelpoisia. Koska emme kuitenkaan tiedä, mikä kokeista vastaa parhaiten kalojen käyttäytymistä, oletamme kaikki koetulokset kokeiden erilaisesta luonteesta huolimatta yhtä tärkeiksi emmekä painota tuloksia yhdistettäessä yhtä koetta toisen yli. (Jos 1.5.2015 tehty koe vastaisi parhaiten kalojen liikkeitä, olisi pyydystettävyyden arviomme selvästi esitettyä alhaisempi ja totaaliestimaattimme vastaavasti korkeampi. Tämä selittäisi osin myös Miken blogissa aprikoimat pienet havaintomäärät.)

Tällöin saadut havainnot vastaavat pseudohavaintoina noin suurin piirtein beta-jakaumaa, jossa onnistumisten ja epäonnistumisten suhde on 1/8.

Emme kuitenkaan missään nimessä halua käyttää mandariinikoeaineistoa siten, että yhteenlasketut havainnot vastaisivat todellisten laskettujen mandariinien määrää. Mandariinit eivät ole kaloja, ja kaloilla kertynyt tieto pyydystettävyydestä on mandariineja tärkeämpää. Jos käyttäisimme kaikkia noin 200 mandariinipseudohavaintoa, olisi (pseudohavainto)priori aivan liian vaikutusvaltainen (varsinaisiin kala)havaintoihin nähden.

Siispä päätimme käyttää samankaltaista, joskin hieman vahvempaa mandariiniaineiston merkitystä suhteessa kalahavaintoihin häivyttävää painoa kuin aikaisemmin (noin 1/20). Täten päivitimme beta-priorin pyydystettävyydelle vastaamaan 1 onnistumista ja 8 epäonnistumista, eli Beta(1,8)

Missä kalat on?

Pyydettyjä smoltteja on tällä hetkellä vain 60 kappaletta vaikka oletettu vaellus mereen piti asiantuntija tiedon mukaan käynnistyä vedenlämpötilan saavuttaessa 8 astetta. Ympäristö.fi sivuilta katsottaessa vesi on tällä hetkellä Pirttinrannan mittauspisteessä jo 11 asteessa. Lämpötilan nousu olisi siis pitänyt jo näkyä pyydyksissä, suurimpina saalismäärinä. Tällä hetkellä mitään piikkiä ei ole havaittavissa, vaan pyydettyjen smolttien määrä vaihtelee satunnaisesti 1 – 6 smoltin välillä, vaikka pyydysten määrä on tuplattu. Alkujaanhan pyydyksenä toimi vain joensivuhaarassa oleva ruuvi. Nykyään käytössä on myös rysä. Toisen pyydyksen lisääminen luulisi jotenkin näkyvän pyydettyjen smolttien määrässä.

Vanhassa mallissamme päivitimme pyydysten ”tehoa” sitä mukaan kun kaloja saatiin pyydyksiin. Pyydetty kala oli ensin failure ja sitten succes mikäli merkattu kala saatiin pyydettyä uudestaan. Priorit saatiin malliin Vesi- ja Kalatutkimus Oy:n mandariinikokeesta. Mandariini kokeessa mandariineista pyydykseen päätyi 20 %. Jos mandariineja ajateltaisiin merkattuina smoltteina, olisi uudelleenpyydettävyys riittävällä tasolla, jotta voitaisiin arvioida smolttien kokonaismäärää luotettavasti. Tällä hetkellä uudelleen pyydettyjä kaloja on vasta 1, joten kahdella pyydyksellä päästään vain 1,7 % uudelleenpyydettävyyteen. Kurssilla oli tosin puhetta, että smoltit saattavat kuitenkin tulla pyydykseen uudestaan vasta 1-2 viikon päästä siitä, kun ne on edellisen kerran saatu pyydettyä. Pyydykset ovat nyt kuitenkin pyytäneet jo 40 päivän ajan, joten viiveen ei enää pitäisi vaikuttaa siihen, että merkattuja kaloja ei onnistuta pyytämään takaisin. Tällä hetkellä vanhan mallin pyydysteho olisi niin alhaalla, että en tiedä olisiko sillä voinut antaa luotettavaa arvioita vaelluskannan koosta.

Itseäni on myös ihmetyttänyt pyydysten sijoittaminen. Jo kokeen alkaessa puhuttiin, että ruuvi ei toimi kunnolla, koska virtaus on niin pieni, että ruuvi ei pyöri kunnolla. Sitten rysä asetettiin aluksi joen haaraumaan. Ymmärtääkseni pyydykset toimivat sitä paremmin mitä kovempi virtaus on. Tällöin smolttien on vaikeampi välttää ”omituista kapistusta”. Tästä syystä pyydys tulisi sijoittaa joen ”päävirran” kohdalle. Toki pyydysten sijoittamiseen on vaikuttanut moni asia, ja juurikin kovasta virrasta johtuen sitä, ei ehkä ole voitu sijoittaa juuri sinne minne se olisi haluttu.

Uudessa mallissamme otimme mallia kurssinvetäjämme pyydysmallista ja siinäkin pyydysten teho päivittyy ymmärtääkseni samaan tapaan, kuin vanhassakin mallissa, näin ainakin teoriassa. Koodia katsoessani, ei jotkut kohdat tästä kuitenkaan aukea minulle kuten ei myöskään ehkä muillekaan ja toivoisinkin, että seuraavalla kerralla palattaisiin vielä tähän, vaikka olemmekin siirtyneet jo päätöksentekoanalyysin maailmaan. Tässä kohta, mikä on vielä epäselvä tagged[d]~dbin(1,1000)}. Mistä nämä numerot tulevat?

Tulokset 15.5.2015

Päivä: 36

Pyydettyjä taimenen smoltteja kaiken kaikkiaan: 60

Merkattuja taimenen smoltteja kaiken kaikkiaan: 60

Uudelleen pyydettyjä taimenen smoltteja kaiken kaikkiaan: 1

Viimeisen tulospostauksen jälkeen olemme lisänneet neljännen mallin smolttien muuttojakaumaa estimoimaan. Tässä mallissa oletetaan muuton noudattavan seuranta-ajanjakson päivien yli Beta –jakaumaa. Ajatuksena on, että koska Beta -jakauma on ”joustava”, kykenee se riippuen parametriensa a ja b arvoista mallintamaan hyvin erilaisia muuttointensiteettien muotoja aina tasajakaumasta normaalijakauman  kautta vinoon jakaumaan. Näin ollen toivomme tämän huomioivan muuttointensiteetin muotoon liittyvän epävarmuuden entistä paremmin. Beta –jakauman määrittelyväli on [0,1], joten olemme tehneet yksinkertaisen muuttujamuunnoksen sovittaaksemme aineiston väliltä [1,60] sopimaan jakauman määrittelyvälille.

Nyt käytössämme on siis neljä vaihtoehtoista muuttointensiteettiä mallintavaa jakaumaa: tasajakauma, normaalijakauma, log-normaali- sekä beta -jakauma. Vielä merkittävämpi muutos on kuitenkin usean mallin keskiarvoistaminen. Tällä muutoksella kykenemme kontrolloimaan muuttointensiteetin mallivalintaan liittyvää epävarmuutta. Päivitetystä mallista sekä mallikeskiarvoistamisen periaatteista löydät lisätietoa täältä: https://blogs.helsinki.fi/taimenlaskenta/?cat=75422

Hieman diagnostiikkaa                                                                                                

Malli on melko raskas. 100 000 Gibbsin otantamenetelmällä kerätyn otoksen kokoamiseen meni lähes 3 tuntia. Poimittua suurempi otos saattaisi jatkossa olla perusteltu, sillä vielä 50 000 otoksen kohdalla vaihtoehtoisten MCMC -ketjujen vertailuun perustuva bgr -ketju ei ole täysin konvergoitunut tavoitearvoonsa yhteen:

 

Bgr

 

Ketjut poukkoilevat historiansa perusteella ainoa lähes 20 000 havaintoon asti. Täten on syytä polttaa kyseiset ketjun alun ensimmäistä 20 000 otosta.

Lisäksi havaitaan, että autokorrelaatio ketjujen välillä on korkea:

autokorrelaatio

MCMC -ketjun peräkkäiset otokset ovat toisistaan riippuvaisia. Liiallisesta autokorrelaatiosta pääsee useimmiten eroon, kun valitsee poimituista otoksista vain esimerkiksi joka kymmenennen. Näin saadaan autokorrelaatio seuraavanlaiseksi:

Aukorrelaatio2

Polttamalla alusta 20 000 ensimmäistä havaintoa ja valikoimalla vain joka kymmenen otoksen saadaan numeerisesti estimoidut posteriorijakauman arvot paremmin vastaamaan todellisen posteriorijakauman arvoja.

Tulokset

Kaikki seuraavat tulokset perustuvat yli neljän mallimme keskarvoistettuihin posterioriestimaatteihin.

Saadaan seuraava totaaliestimaatti muuttavien meritaimenten kokonaismäärälle seuranta-ajanjakson aikana.

Totaalin posterioriestimaatti

Jakauma on muodoltaan epämääräisen rosoinen. Epävarmuus on myös suuri. 95% prosentin todennäköisyydellä muuttavien taimenten smolttien kokonaismäärä on välillä [550, 4700] (Valinta vastaa bayesilaista luottamusväliä,  joka on  poimittu posteriorijakauman kvantiilien väliltä [0.025, 0.975].) Totaalin posteriorijakauman odotusarvo on 1960 ja mediaani 1695.

Seuraavan päivän (37) pyydettyjen smolttien kokonaismäärän posterioriennustava jakauma näyttää puolestaan tältä:

Ennustava

Tämä ennustava jakauma EI mielestäni huomioi riittävällä tavalla viimeisen parin päivän havainto”trendiä”, jonka perusteella 5 tai yli havaintoa ei tulisi päivänä 37 pitää aivan niin epätodennäköisenä, kuin miltä se koko seuranta-ajanjakson yli arvioitaessa vaikuttaisi.

Käytännössä kaikki havaintoja ennustavan mallin todennäköisyysmassa on välillä nollasta kymmeneen. Posterioriennustavan jakauman keskiarvo on 2,5 ja odotusarvo 2.

Jos oletetaan, että joku malleista 1,2,3 tai 4 on tosi ja että kaikkien mallien prioritodennäköisyys on ¼, muuttointensiteettiä mallintavien vaihtoehtoisten mallien posterioritodennäköisyydet ovat seuraavat:

Malli 1 tasajakauma: 0.0%

Malli 2 normaalijakauma: 73.5%

Malli 3 log-normaalijakauma: 25%

Malli 4 Beta -jakauma: 1.5%

Tämän perusteella vaikuttaisi siltä, että mallit 1 ja 4 eivät vastaa havaintoja, kun taas malli 2 saa paljon tukea aineistolta ja malli 4 jonkun verran.

Seuraavassa tulospostauksessa lisää vaihtoehtoisten mallien arviointia mm. näiden ennustamien muuttointensiteettien jakaumia tarkastelemalla.

 

Mallin hiomista: ympäristötekijöiden huomioiminen pyydystettävyydessä

Laskentamallimme Vantaanjoen taimensmolttien kokonaismäärälle on saavuttanut pisteen, jossa mallin kehittäminen on päätetty jättää vähemmälle huomioille. Nykyisessä mallissa yhdistyy neljä mallia, joissa smolttien muuttointensiteettiä kuvataan neljällä erilaisella todennäköisyysjakaumalla. Malli on hyvässä tilassa ja uskomme sen tarjoavan relevanttia informaatiota Vantaanjoen smolttien kokonaismäärästä. Parannettavaa ja viilailtavaa kuitenkin tottakai riittäisi useallakin mallin osa-alueella. Tässä postauksessa keskityn pyydystettävyyteen.

Mallin pyydystettävyyttä vastaava BUGS-koodi on alla. Pyydyksiä on ollut käytössä yhteensä kaksi; rysä ja ruuvi, joista ruuvi on ollut toiminnassa koko ajan ja rysä muutaman päivän.

# Catch
for(d in 1:days+1){

# Daily catch and total catchability
TotalX[d]~dbin(Total_q[d],n[d])
Total_q[d]<-Screw_q[d]+Fyke_q[d]-Screw_q[d]*Fyke_q[d]

Yllä määritellään kokonaispyydystettävyys, joka vaikuttaa päivittäisen saaliin todennäköisyysjakaumaan. Alla määritellään ruuvin suhteellinen pyydystettävyys, jonka avulla malliin välittyy tietoa pyydysten välisistä eroista.

ScrewX[d]~dpois(screw_muX[d])
screw_muX[d] <- Screwprop[d]*TotalX[d]
Screwprop[d]<-Screw_q[d]/Total_q[d]

Screw_q[d]<-q_S*Screw_op[d]
Fyke_q[d]<-q_F*Fyke_op[d]

# prior for the number of tagged fish
tagged[d]~dbin(1,1000)
}

Uudelleenpyydystettyjen lukumäärää mallinnetaan erikseen, mikä päivittää pyydysten pyydystettävyyden prioreja.

# Catchability update
for(d in 2:days+1){

FykeR[d]~dbin(Fyke_q[d],tagged[d-1])
Screw_nR[d]<-tagged[d-1]-FykeR[d]
ScrewR[d]~dbin(Screw_q[d],Screw_nR[d])

}

# prior for catchability
q_F~dbeta(1,4)
q_S~dbeta(2,8)

 

Huomioitavaa pyydystettävyyden määrittelemisessä on se, että malli olettaa pyydystettävyyden pysyvän vakiona yli vaelluspäivien. Kuitenkin käsityksemme mukaan ruuvin pyydystettävyys kyseenalaistettiin joinakin päivinä sääolosuhteiden johdosta. Tarkemmin: joen pinnan laskeminen esti ruuvin pyörimisen, jonka arvioitiin vaikuttavan pyydystettävyyteen. Blogissaan Henri pohti jo aikaisemmin hieman sitä, miten pyydystettävyys voitaisiin määritellä päiväkohtaisesti sen sijaan, että käytettäisiin ylläolevaa päivistä riippumatonta määrittelyä.

Yksi tapa lähestyä asiaa olisi muodostaa pyydystystodennäköisyyttä selittävä regressiomalli, jossa pyydystettävyyttä selitettäisiin ympäristötekijöillä. Regressiomallia voidaan yleisesti pitää mallina havaintojen odotusarvoille. Pyydystettävyyden tapauksessa data on bernoulli-jakautunutta – kala joko jäi pyydykseen, tai ei jäänyt. Nämä havainnot koodataan yleisesti 1: onnistuminen, 0: epäonnistuminen, jolloin havaintoja vastaavat odotusarvot ovat yhtä kuin onnistumistodennäköisyys.

Koska todennäköisyysmitta on määritelty välillä [0,1], ei lineaarista regressiomallia voida suoraan soveltaa binomimuotoisen datan odotusarvon mallintamiseen, sillä tavallisessa lineaarisessa regressiomallissa kohdemuuttujan arvojoukoksi oletetaan (-ääretön, ääretön). Tämä johtuu siitä, että kohdemuuttujan odotusarvo oletetaan normaalijakaantuneeksi.

Asia voidaan kuitenkin hoitaa sopivalla linkkifunktiolla. Yleisesti käytetty linkkifunktio on logit-funktio, jossa todennäköisyys q muunnetaan sitä vastaavan odds-muuttujan logaritmiksi. Odds tarkoittaa onnistumistodennäköisyyden suhdetta epäonnistumistodennäköisyyteen eli odds = q / 1-q. Tämän logaritmilla on se toivottu ominaisuus, että se saa arvoja negatiivisesta äärettömästä positiiviseen äärettömään, kun q lähestyy nollaa ja yhtä. Tällöin kohdemuuttuja (tai regressiomallin virhetermi) voidaan olettaa normaalijakaantuneeksi.

Muotoillen Mäntyniemen ja Romakkaniemen (2002) merkintöjä, voitaisiin pävittäistä pyydystystodennäköisyyttä (q_j) päivänä j mallintaa seuraavasti:

log( q_j / 1 – q_j ) | μ_j, ξ ~N( μ_j , ξ )

μ_j = α0 + α1WT_j + α2WL_j

WT = veden lämpötila

WL = veden korkeus

Mallin mukaan logit muunnos pyydystettävyyksistä q_j, noudattaa normaalijakaumaa, jonka odotusarvo on ympäristötekijöiden lineaarikombinaatio μj ja varianssi ξ. Ylläolevassa mallissa parametreille α0, α1, α2 ja ξ tulee asettaa priorijakaumat, minkä jälkeen malli on määritelty ja selittää päivittäistä pyydystystodennäköisyyttä veden lämpötilalla ja korkeudella.

Pohdintaa länsi- ja itähaaran mallintamisesta

Pohdin aikaisemmin mallin kehittämisen näkökulmasta mahdollisuutta mallintaa erikseen joen länsi- ja itähaaraan päätyvien smolttien määrää. Tämä olisi hyödyllistä mikäli halutaan jatkossa selvittää esimerkiksi kuinka suuri osa smolteista joutuu länsihaaraan ja kuinka paljon voimalan läpi kulkeminen vaikuttaa niiden kuolleisuuteen. Olen nyt yrittänyt hieman hahmotella mitä tämänkaltainen mallinnus edellyttäisi. Ongelma ei sinänsä varmastikkaan olet teknisesti mitenkään hankala, mutta omalle hahmottamiselleni löytyy siitäkin runsaasti haastetta ja on siksi hyvää pohdintaa pelkästään oppimista ajatellen.

Tällä hetkellä vedessä on taas kaksi pyydystä, rysä ja smolttiruuvi. Ruuvi pyyntää joen itähaaraa, jossa siis kulkevat kalaportaat. Ruuvin sijainti on haarautumiskohdasta alavirtaan. Rysä on nyt siirretty pyytämään länsihaaraa, eli voimalan puolta, mutta se sijaitsee haarautumiskohdasta hieman ylävirtaan. Sijainnista johtuen ei voida olettaa varmasti, etteivät kalat voisi vielä rysän ohitettuaan siirtyä itähaaraan ja otaksuisin että voi olla jopa mahdollista smolttien ruuvin ohitettuaan palata vielä ylävirtaan ja mahdollisesti toiseen haaraan. Tämä varmasti lisää tuntematonta vaihtelua, mutta pohdintani oletuksena onkin nyt tilanne, jossa molemmat pyydykset sijaitsisivat selkeästi haarautumiskohdasta alavirtaan.

Millä tavalla tätä ongelmaa voitaisiin sitten mielestäni mallintaa?

Päivittäin vaeltavan smolttimäärän muutujan n[i]:n suhteen ei muutoksia tarvittaisi. Smoltteja saapuisi siis haarautumiskohtaan n[i]:n suuruinen määrä, jonka jälkeen ne valitsivat joko itäisen, tai läntisen haaran. Näille voisimme valita priorijakaumat tutkimuksen alussa tehdyn mandariinkokeen perusteella. Jakaumana käyttäsin tuttua beta-jakaumaa:

prob_w~dbeta(7,3)       #prioriodennäköisyys länsihaaran päätymiselle
prob_e~dbeta(3,7)       #prioritodennäköisyys itähaaraan päätymiselle

Nämä valitisin parametreiksi eri haaroihin päätyvien smolttien määrää kuvaavan binomijakaumaan:

nw[i]~dbin(prob_w, n[i])     #jakauma länsihaaraan matkaaville smolteille
ne <- n[i]-nw[i]                  #itähaaraan matkaavat smoltit

Saalis mallinnettaisiin molemmille haaroille erikseen binomijakaumana:

FykeX[i]~dbin(Fyke_q[i], nw[i])         #jakauma länsihaaraan saaliismäärälle
ScrewX[i]~dbin(Screw_q[i], nw[i])    #jakauma itähaaran saalismäärälle

Pyydystävyyden prioriarvoja pitäisi hiukan muuttaa. Rysälle prioritietoa mandariinikokeesta ei ole, ruuvin suhteen on huomiotava että nyt pyydystävyys mallintaisi vain itähaaran osuutta, ei smolttien kokonaismäärän pyydystävyyttä. Mandariinkokeen mukaan itähaaraan päätyi kaksi mandariinia, joista kaksi jäi pyydykseen:

q_S~dbeta (2,1)       #prioritodennäköisyys ruuvin pyydystävyydelle
q_F~dbeta (5,3)       #prioritodennäköisyys rysän pyydystävyydelle, mielivaltainen arvio

Näiden päivittäminen voisi tapahtua mielestäni samaan tapaan kuin ennenkin.

Priorien miettiminen on tässä tapauksessa suhteellisen helppoa. Itselleni alkoi tässä vaiheessa muodostua ongelmaksi juurikin ongelman laskennallinen ja looginen puoli. Itselleni on hankalaa hahmottaa jakaumien välillä tapahtuvia matemaattisia operaatiota ja yhdistää mallin osia loogisesti toisiinsa. Nyt minusta tuntuu, ettei malli näin päivitä ollenkaan eri haaroihin päätymismahdollisuuksien todennäköisyysjakaumia. Joudun vielä pohtimaan tarkemmin miten tämä tapahtuu. Myös kyseisten jakaumien suhteellisuus tulisi ottaa huomioon, kävisikö tämä vain jakamalla kukin molempien summalla? Näinkö saataisiin myös itähaaraan pyydystettävyys siirtymään posteriorijakaumiin?

Neuvot ovat tervetulleita!

Milloin malli on oikeasti valmis?

Olemme blogissa pohtineet paljon mallin kehittämiseen liittyviä kohtia, kuten lisäpyydyksen huomioimista ja vaelluspoikasten muuttointensiteetin mallintamista. Varovainen arvioni on, että kaikesta malliin liittyvästä epävarmuudesta huolimatta, olemme olleet tyytyväisiä sen kehittymiseen. Edelleen mielessämme on ollut useita parannusehdotuksia, kuten veden lämpötilan ja korkeuden sekä vaellusmatkan pituuden huomioiminen. Blogipohdinnat ovat siirtyneet enemmän päätöksentekoon liittyviin kysymyksiin, mutta palaan vielä hetkeksi takaisin mallintamisen maailmaan ja aiheeseen, joka on jäänyt itselleni hyvin epäselväksi, ja jota ei vielä ole nostettu blogissa tarkemmin esille: Milloin malli on oikeasti valmis?

Tutkijana painii jatkuvasti omaan työhön kohdistuvan epävarmuuden kanssa. Työstä pitäisi sanoa jotain konkreettista, mutta samalla joutuu tiedostamaan, että työhön liittyy enemmän tai vähemmän epävarmuutta. Kurssilla olen ensimmäistä kertaa harjoittelemassa todennäköisyysmallintamista, ja oppiminen on kohdistunut perusasioiden haltuun ottamiseen ja BUGS-ohjelman ymmärtämiseen. Bayes-maailma on minulle vielä hyvin uusi, mutta kurssin edetessä olen pohtinut, milloin mallin kehittäjä voi olla tyytyväinen aikaansaannokseensa ja valmis esittelemään sen yleisölle.

Biologina jotenkin kuvittelisi, että malli on valmis silloin, kun se kuvaa luonnossa tapahtuvia prosesseja parhaiten. Miten tämä voidaan varmistaa, onkin sitten toinen tarina. Tuleeko kaikki mahdolliset (ympäristö)tekijät olla mukana mallissa? Tilastotiedettä opiskelevat kurssikamut ovat kuitenkin saaneet minut pohtimaan asiaa toisesta näkökulmasta. Ehkä malli onkin valmis silloin, kun se on rakennettu ”oikein ja ammattitaidolla”. Aiemmissa blogipostauksissa on nostettu esiin myös asiantuntijatieto. Olettaen, että asiantuntijatieto on lähellä ”oikeaa totuutta”, onko valmis malli sellainen, joka vastaa asiantuntijan tietoa tai näkemystä?

Myönnettäköön, että kysymys on tällä erää ehkä lähinnä filosofinen, mutta käsitys kehitysprosessista kokonaisuutena on minulle vielä melko tuntematon. Varsinkin kun olemme jättämässä mallin kehittelyn, jotta voimme käsitellä päätösanalyysiä loppukurssin ajan. Pääsimmekö kunnolla edes vauhtiin vai raapaisimmeko vasta pintaa?

Mallipäivitys 13.5.

Viimeisimmät muutokset käytössä olevaan malliin

  • Vaihtoehtoisen smolttien lähtemistodennäköisyyden luonnetta kuvaavan Beta-jakaumamallin lisääminen
  • Mallitekniset muutokset pyydystettävyyden laskemisessa

Käytössä oleva mallimme perustuu pääpiirteittäin edelleen alkuperäiseen rakenteeseen ja eri malliversioiden yhdistämiseen BMA:ta hyödyntäen. Seuraavassa esitellään mallin eri osat ja tehdyt muutokset (kiitos Leolle selkeistä kommenteista BUGS-skriptissä!).

Vuosittainen kokonaisvaellusmäärä

Muuttavien smolttien kokonaismäärän (N) odotusarvon priorina käytössä on edelleen kolmen asiantuntijaarvion keskiarvo (2600), jonka on odotettu tulevan ainoastaan positiivisia arvoja tuottavasta katkaistusta, kokonaisluvuiksi pyöristetystä normaalijakaumasta.

N<-round(cN)

cN~dnorm(2600, prec_N)I(1,)

prec_N<-pow(sd_N, -2)

sd_N<-2000

Kokonaisvaellusmäärän priorin määrittelemiseksi voisi myös asiantuntijaarvioiden sijaan tai lisäksi hyödyntää tietoa edellisvuosina jokeen nousseiden meritaimenten määristä, joko laskemalla nousukkaiden smolttituotantopotentiaali mortaliteettitekijät huomioiden, tai takautuvasti merikuolleisuuden kautta arvioiden aikaisempien vuosien mereen päätyneiden smolttien määriä.

Lähtemistodennäköisyys

Muuttointensiteetin tai päivittäisen lähtemistodennäköisyyden (p) kuvaamiseksi on tähän mennessä käytetty kolmea eri todennäköisyysjakaumaa; tasajakauma, normaali ja log-normaali. Vaihtoehtoisia malleja on ajettu erikseen rinnakkain ja myöhemmin yhdistettynä mallikeskiarvoistamista (BMA) käyttäen. Nykyisessä mallissa näiden kolmen jakauman lisäksi neljäntenä vaihtoehtona on käytetty beta-jakaumaa. Beta-jakauma (Beta distribution – Wikipedia) on intervallille [0,1] määritelty, melko mukautuva todennäköisyysjakauma, jonka muodon määrittää tiheysfunktion alfa ja beta parametrit. Beta-jakauma sopii usein osuuksien sattumanvaraisen käytöksen mallintamiseen.

d1c8bb0654c111cd0a16d1aafd8b970a

Mallissa on tarkastelujakson jokaisen päivän (1,2,3,…60) huomioivan silmukan (“for-loop”) sisällä määritelty lähtemistodennäköisyys neljällä vaihtoehtoista muodolla( p[i,1], p[i,2], p[i,3] ja p[i,4]). Eri p-funktioiden indeksöinti (1–4 hakasulkeiden sisällä) tulee mallissa myöhemmin käyttöön, kun vaihtoehtoiset, ainoastaan muuttointensiteetin muodon määrittelyssä toisistaan eroavat neljä osamallia sisällytetään päämalliin. Kaikissa muissa p:n funktioissa, paitsi tasajakauma-muodossa, on käytetty yhteistä odotusarvon parametriä (myy_p), joka on määritelty skriptin lopussa yhdessä eri funktioden hajontaparametrien kanssa.

for(i in 1:60) {

# p tasajakaumalla

p[i,1]<-1/60

# p normaalijakaumalla

pl[i] <- exp(- pow((i-myy_p)/sd_p,2)*0.5)

p[i,2] <- pl[i] / sum(pl[1:60])

# p log-normaalijakaumalla

pn[i] <- (1/i)*exp(- pow(log(i)-location, 2) / scale)

p[i,3] <- pn[i] / sum(pn[1:60])

# p beta-jakaumalla

pbi[i]<-pow(i/60,myy_p*b_eta/60)*pow(1-i/60,(1-myy_p/60)*b_eta)

Koska yllä olevasta beta-jakauman funktiosta puuttuu normalisointivakio B (beta-funktio) nimittäjästä, varmistetaan että beta summautuu yhteen yli päivien, näin:

p[i,4]<-pbi[i]/sum(pbi[])

Lähtevien smolttien määrät

Seuraavaksi mallissa määritellään lähtevien smolttien päivittäiset (i) määrät (n) kokonaismäärästä (N) binomijakaumalla eri lähtemistodennäköisuusmalleille 1,2,3,4, ja varmistetaan, ettei päivittäiset lukumäärät ole nolla, koska se aiheuttaisi ongelmia kokonaispyydystettävyyn määrittelyssä käytettävässä binomijakaumassa.

n2[i]~dbin(p[i,model],N)

n[i]<-n2[i]+1

}

Saalis ja pyydystettävyys

Dataa on tähän mennessä kerätty kahdella eri pyyntivälineellä (smolttiruuvi ja rysä), ja niiden vaikutukset on huomioitu mallissa jo aikaisemmin. Ruuvi on ollut käytössä koko tarkasteluajan tähän asti kun taas rysä otettiin käyttöön vasta myöhemmin, jonka jälkeen se otettiin pois mutta on nyt taas pyynnissä. Periaate kahden eri välineen kokonaispyyntihehon laskemisessa on edelleen sama kuin aiemmin:

P(kala jää ruuviin TAI rysään) = P(kala jää rysään) + P(kala jää ruuviin) – P(kala jää ruuviin JA rysään)

Muutokset päivittäisen kokonaissaaliin ja pyydystettävyyden arvionnissa ovat malliteknisiä, tehden koodista elegantimman ja mallista mahdollisimman kevyen. Uuden rakenteen myötä myös datan taulukkomuoto on muuttunut, sisältäen seuraavat sarakkeet: ScrewX[] (ruuvin saalis), FykeX[] (rysän saalis), tagged[] (merkityt kalat), Screw_op[] (ruuvin käyttöstatus), Fyke_op[] (rysän käyttöstatus), ScrewR[] (ruuvin takaisinpyyntisaalis), FykeR[] (rysän takaisinpyyntisaalis) ja TotalX[] (kokonaissaalis). Mallissa on tarkasteluajan jokaisen tähänastisen ja seuraavan päivän (1,2,3,…days+1) huomioivan silmukan sisällä määritelty päivittäinen kokonaissaalis (TotalX[d]), päivittyvä kokonaispyyntiteho (Total_q[d]), ruuvin päivittäinen saalis (ScrewX[d]), ruuvin päivittyvä pyyntiteho (Screw_q[d]) ja rysän päivittyvä pyyntiteho (Fyke_q[d]) seuravanlaisesti:

for(d in 1:days+1) {

# Kaikkien havaittujen smolttien yhteenlaskettu määrä päivänä d noudattaa binomijakaumaa parametreilla kokonaispyydystettävyys (Total_q[d]), päivittäiset muuttavat smoltit (n[d])

TotalX[d]~dbin(Total_q[d],n[d])

Total_q[d]<-Screw_q[d]+Fyke_q[d]-Screw_q[d]*Fyke_q[d]

# Ruuvin havainnot noudattavat poisson -jakaumaa parametrilla odotusarvoiset lähtevät smoltit (binomijakaumalla tulee ongelmia, sillä päivittäiset lähtevät määrät saattavat saada arvoja nolla)

ScrewX[d]~dpois(screw_muX[d])

# Odotusarvoiset lähtevät smoltit päivänä d (screw_muX[d]) määrittyvät ruuvin suhteellisella teholla (Screwprop[d])*kuinka moni jää kaiken kaikkiaan kiinni (TotalX[d])

screw_muX[d] <- Screwprop[d]*TotalX[d]

#Ruuvin suhteellinen teho on ruuvin teho jaettuna kokonaisteholla (ruuvi JA rysä)

Screwprop[d]<-Screw_q[d]/Total_q[d]

# Ruuvin suhteellista tehoa päivitetään vain kun ruuvin on käytössä (indikaattorifunktio screw_op saa arvoja 0, kun ei käytössä, arvoja 1 kun käytössä)

Screw_q[d]<-q_S*Screw_op[d]

# Rysän pyydystettävyys päivittyy samalla indikaattorifunktion logiikalla

Fyke_q[d]<-q_F*Fyke_op[d]

# Priori määrälle merkittyjä kaloja (tämä on joku tekninen eli laskennallinen yksityiskohta)

tagged[d]~dbin(1,1000)

}

Seuravaksi mallissa määritellään, kuinka pyydystettävyys päivittyy uudelleenpyydettyjen havainnoilla. Päivät (d) kulkevat toisesta päivästä, koska vasta siitä lähtien on mahdollista pyydystää päivänä 1 merkitty kala.

for(d in 2:days+1) {

# Rysän uudelleenpyytämien kalojen havaintojakauma noudattaa binomijakaumaa parametreilla rysän pyyntiteho(Fyke_q[d]) , edellisenä päivänä merkityt kalat (tagged[d-1])

FykeR[d]~dbin(Fyke_q[d],tagged[d-1])

# Ruuviin voi periaatteessa jäädä kaikki ne kalat, jotka on edellisenä päivänä merkitty, mutta jotka eivät jääneet ruuviin

Screw_nR[d]<-tagged[d-1]-FykeR[d]

# Ruuvin pyydystettävyyden havaintojakauma noudattaa binomijakaumaa parametreilla ruuvin pyydystettävyys (Screw_q[d]), ja edellisessa kaavassa määritellyt mahdolliset määrät (Screw_nR[d])

ScrewR[d]~dbin(Screw_q[d],Screw_nR[d])

}

Rysän pyydystettävyyden prioria (q_F) muutettiin säilyttäen pseudohavaintojen suhteet. Arvoilla 1 ja 4 voidaan tehdä prioriarvio epävarmemmaksi siksi, ettei mandariinikoetta ole toistettu rysälle. Samat suhteet mallintavat kuitenkin ennakkokäsitystä, jonka mukaan rysä ja ruuvi pyydystävät yhtä hyvin. Tämän oletuksen uskottavuudesta voidaan kuitenkin olla eri mieltä, vaikka pyydysten ominaisuuksien eroja ei tiedetäkään, koska rysä pyydystää eri kohdassa jokea ruuviin verrattuna ja koska on epätodennäköistä että smoltit ovat tasaisesti jakautuneita koko virran leveydeltä jo mandariinikokeen tulostenkin perusteella.

q_F~dbeta(1,4)

q_S~dbeta(2,8)

Eri osamallejen sisällyttäminen ja mallikeskiarvoistaminen

Viimeisessä tätä edellisessä versiossa yhdistettiin jo eri lähtemistodennäköisyyksien määrittelemät osamallit yhdeksi malliksi Bayesilaisella mallikeskiarvoistamisella (BMA). Ainoa muutos tämän suhteen tähän malliin, on neljännen mallin, eli lähtemistodennäköisyyden beta-jakaumamallin lisääminen, joka tehtiin seuraavanlaisesti:

# Priori mallin BMA:lle

model~dcat(z[1:4])

# Tässä määritellään prioritodennäköisyys eri mallien totuudelle

z[1]<-1/4 # Tasajakaumamalli

z[2]<-1/4 # Normaalijakaumamalli

z[3]<-1/4 # Log-normaalijakaumamalli

z[4] <-1/4 # Beta-jakaumamalli

# Tästä saadan eri mallien posterioritodennäköisyydet

Z[1]<-equals(model, 1)

Z[2]<-equals(model, 2)

Z[3]<-equals(model, 3)

Z[4] <- equals(model,4)

Lähtemisintensiteettien priorit

myy_p~dnorm(25,tau_myy)I(0.01,)

tau_myy<-pow(7,-2)

sd_p~dnorm(10, tau_sd)I(0.01,)

tau_sd<-pow(5, -2)

scale <- log(1 + pow(sd_p/myy_p,2) )

location <- log(myy_p) -0.5*scale

b_eta~dunif(5,100)

}

Data

list(days=33)

ScrewX[] FykeX[] tagged[] Screw_op[] Fyke_op[] ScrewR[] FykeR[] TotalX[]

0 0 0 1 0 0 0 0

0 0 0 1 0 0 0 0

0 0 0 1 0 0 0 0

1 0 0 1 0 0 0 1

2 0 3 1 0 0 0 2

2 0 2 1 0 0 0 2

0 0 0 1 0 0 0 0

0 0 0 1 0 0 0 0

0 0 0 1 0 0 0 0

1 0 0 1 0 0 0 1

1 0 0 1 0 0 0 1

1 0 3 1 0 0 0 1

0 0 0 1 0 0 0 0

2 0 2 1 0 0 0 2

1 0 1 1 0 0 0 1

0 1 1 1 1 0 0 1

0 1 0 1 1 0 0 1

0 1 0 1 1 0 0 1

1 1 3 1 1 0 0 2

3 2 5 1 1 0 0 5

6 2 8 1 1 0 0 8

4 0 4 1 0 0 0 4

2 0 2 1 0 0 0 2

2 0 2 1 0 0 0 2

1 0 1 1 0 0 0 1

3 0 3 1 0 0 0 3

2 0 2 1 0 0 0 2

1 0 2 1 0 1 0 1

3 0 3 1 0 0 0 3

1 0 1 1 0 0 0 1

1 0 1 1 0 0 0 1

1 0 1 1 0 0 0 1

2 0 2 1 0 0 0 2

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

NA NA NA 1 1 NA NA NA

END

#BUGS:iin ladattavat eri mallien alkuarvot, hyvä käyttää eri alkuarvoja

list(model=1)

list(model=2)

list(model=3)

list(model=4)

Huomioita lopuksi

Vaikka mallin aktiivinen kehittäminen jäänee lähiaikoina hieman vähäisemmäksi, voisi tulevaisuudessa edelleen yrittää sisällyttää tietoa ympäristömuuttujista (lämpötila, vedenkorkeus, ym) ja niiden vaikutuksista, sekä vaellusmatkan pituudesta ja eri smolttituotantoalueiden (koskien) kapasiteetistä ja sijoittumisesta. Lähiaikoina jatkamme mallin sisällyttämisellä päätösanalyysiin, joka koskee kysymystä Vanhankaupunginkosken padon mahdollista purkamista.

 

Asiantuntijatiedon keräämisestä

Jatkan nyt edellisestä postauksestani, jossa mietin Bayes-mallintamista päätöksenteon työkaluna. Bayes-mallinnus on omiaan epävarmuuden ollessa tutkimuskohteen osalta suuri, ja jolloin asiantuntijatiedon rooli on tärkeä. Asiantuntijatietoa voidaan käyttää priorien määrittämiseen, mutta asiantuntijatiedon avulla voidaan myös paremmin hahmoittaa tutkimuksen aihetta sekä suurempia kokonaisuuksia ja kokonaiskuvaa (Uusitalo, 2007).

Kuvailenkin nyt lyhyesti ja pääpiirteittäin, miten asiantuntijatietoa voidaan kerätä. Alla oleva malli kuvaa hyvin yksinkertaisella tasolla asiantuntijatiedon keräämistä. Ensimmäinen askel on tietenkin taustatyö ja ongelmanasettelu, sekä itse asiantuntijoiden valitseminen. Onkin mielenkiintoista pohtia, kenet määritellään asiantuntijaksi? Omasta mielestäni asiantuntija voi olla kuka vaan, joka on jollain tasolla kyseessä olevaan asiaan linkittynyt: Vanhankaupunginkosken meritaimenen kohdalla asiantuntija voi olla niin kalastamisesta vastaava viranomainen, kuin vapaa-ajan kalastajakin. Asiantuntijan voisikin uudelleenmääritellä, ja mielestäni “asiantuntijan”  (expert) sijaan voisi olla hyödyllistä käyttää neutraalimpaa sanavalintaa, ”sidosryhmän jäsentä”(stakeholder), tai pelkästään ”tekijää” (actor).

elicit

Malli 1. Asiantuntijatiedon kerääminen. (O’Hagan et al., 2005).

Seuraava vaihe on itse haastattelu. Haastattelu painottaa asiantuntijan sen hetkistä tietoa aiheesta. Tutkijan roolina haastattelussa on lisätä sujuvuutta ja fasilitoida prosessia: tutkijan tulee valmistella haastateltavaa Bayes-mallintamisesta ja varmistaa, että haastateltava ymmärtää mallintamisen pääpiirteittäin. Jos näin ei tehdä, asiantuntija saattaa suhtautua epäluuloisesti mallintamiseen, eikä haastateltavan ja tutkijan välille synny jo tutkimuksenkin kannalta tärkeää luottamuksen tunnetta (Uusitalo, 2007). Eräänlaista koehaastattelua on hyvä harkita, jota voidaan sitten haastateltavien palautteen kautta muokata sujuvampaan ja ymmärrettävämpään muotoon. Haastattelu on myös hyvä videoida tai dokumentoida, jotta siihen voi palata tutkimuksen myöhemmissä vaiheissa. Haastateltavien mahdolliset henkilökohtaiset intressit tulee myös tiedostaa ja ottaa huomioon. (O’Hagan et al., 2005).

Kolmannessa vaihessa asiantuntijoiden antamat priorit ja arvot voidaan mukauttaa muiden asiantuntijoiden lausuntoihin sekä kerättyyn dataan. Tässä voidaan käyttää myös muissa blogipostauksissa viitattua Bayesilaista keskiarvoistamista, missä eri malleille voidaan antaa eri painoituksia. Viimeisessä vaiheessa mietitään tiedonkeruun kattavuutta ja riittävyyttä, jonka jälkeen voidaan päätyä keräämään vielä täydennystä ja lisää asiantuntijatietoa. (O’Hagan et al., 2005).

Asiantuntijatiedon keräämisessä ja käyttämisessä esintyy erinäisiä ongelmia. Ihmisillä on usein rajallinen kyky ymmärtää todennäköisyyksiä ja asettaa niille tietty numerinen arvo, jolloin erilaisten vääristymien syntyminen on tavanomaista. Haastattelun, eri tehtävien, ja kysymysten asettelu vaikuttavat kaikki haastatteluprosessin tuloksiin. Onnistumista on vaikea määrittää, koska annetut arvot kuvaavat haastateltavan subjektiivistä ”totuutta”, joka vaihtelee haastateltavien kesken. Koehaastattelun järjestäminen ja kysymysten uudellenasettelu voivat auttaa todennäköisyyksien hahmoittamisessa.

Lisäksin, niin kuin jo aikaisemmin mainittu, asiantuntijoilla voi mahdollisesti olla erilaisia henkilökohtaisia intressejä, jotka mallintamisessa pitää tiedostaa ja huomioida. Asiantuntijat voivat niin sanotusti pelata omaa peliään, eli antamalla väärää tietoa määrittelemällä prioreja tai tekijöitä omaksi edukseen. Mallien keskiarvoistamisella vääristymää voidaan korjata: keskiarvoistaessa mallit, jotka eivät tue kerättyä dataa, saavat vähemmän painoarvoa. Sen sijaan, asiantuntijoiden antamia tavoitteita ja arvoja päätösmallintamisessa ei voida, eikä tulekaan, tässä vaiheessa keskiarvoistaa (Mäntyniemi et al., 2013).

Vaikka mallintamisen onnistuminen on tärkeää, ehkä tärkeintä on kuitenkin haastateltavan ja tutkijan välisen dialogin ja yhteistyön mahdollistaminen, sekä mahdollisimman avoin ja läpinäkyvä ongelmanasettelu. Näin voidaan varmistaa, että tutkija ei tutki vaan tutkiakseen, vaan hänen työllään on myös yhteiskunnallinen merkitys ja ulottuvuus.

Mäntyniemi, S., et al., 2013. Incorporating stakeholders’ knowledge to stock assessment: Central Baltic Herring. Can. J. Fish. Aquat. Sci, 70.

O’Hagan, A., et al., 2005. Statistical Methods for Eliciting Probability Distributions. Journal of the American Statistical Association, 100: 470.

Uusitalo, L., 2007. Advantages and challenges of Bayesian networks in environmental modelling. Ecological Modelling, 203.

 

Rysä jälleen käytössä

Ajaessani tänään Vanhankaupunginkosken yli, huomasin sivusilmällä smolttirysän olevan jälleen käytössä tauon jälkeen. Rysä oli asennettu nyt pyytämään eri kohtaan jonkin matkaa ylävirtaan edellisestä paikasta ja tällä kertaa enemmän uoman länsipuolelle. Liekö virtaus jälleen käynyt epäsuotuisaksi ruuvipyydyksen käytölle.

 

Kuten porukalla keskustelimme edellisellä kokoontumiskerralla, olisi pyydysten pyyntitehon määrittämisen kannalta paras vaihtoehto, mikäli pyydykset olisivat mahdollisimman ”tasapaksussa” kohdassa jokea, mistä kalat laskeutuisivat mahdollisimman sattumanvaraisesti ohi. Tällöin voitaisiin arvioida pyydyksen pyyntitehoa suoraan osuutena uoman poikkileikkauksen pinta-alasta, jonka pyydys kattaa. Ruuvin pyytäessä tällä hetkellä hyvin epätasaisessa kohdassa jokea itähaaran puolella, selkeän päävirran kohdalla, ei pystytä näin selkeätä laskelmaa tekemään. Epätasaisessa, leveydellään virtauksien puolesta vaihtelevassa uomassa saattaa laskeutumisreiteissä etenkin eri virtaamilla esiintyä suuriakin vaihteluita. Smolttiruuvin asentamispaikkaan vaikuttaa pyydyksen tekniset edellytykset, sen vaatiessa tietyn virtauksen ja hiljaa virtaavan, tasaisen suvannon virtaus ei riitä pyörittämään ruuvin rumpua. Rysällä puolestaan ei ole vastaavia vaatimuksia virtauksen suhteen. Rysän edellinen pyyntipaikka oli kuitenkin heti saarekkeen yläpuolella, missä ainakin silmämääräisesti näyttää, että virta alkaa vaihdella enemmän, kuin ylempänä suvannossa ja esimerkiksi toista haaraa suosivat kalat ovat saattaneet jo ryhmittyä tietylle puolelle jokea epäsattumanvaraisesti.

 

Rysän uusi pyyntipaikka hieman ylempänä vastaa paremmin kalojen koko uoman leveydelle satunnaisesti levittäytymisen edellytyksiä. Muuttamalla pyydysten paikkoja tutkimusjakson aikana, tulee kuitenkin pyydysten tehon ja hierarkkisesti edelleen myös vaeltavien smolttien kokonaismäärän arvioimiseen mukaan lisää epävarmuustekijöitä.

 

Tietysti huolellisellakaan tutkimussuunnittelulla ei pystytä aina vaikuttamaan muuttuviin olosuhteisiin ja suunnitelmia joudutaan muuttamaan. Meidän osalta hommahan etenee lähtökohtaisestikin melko nurinkurisesti. Parempaan lopputulokseen varmastikin päästäisiin, mikäli koko projekti olisi aloitettu mallien alustavalla suunnittelulla ja tutkimusasetelmaa olisi lähdetty kehittelemään mallien ehdoilla.

Yhteismitattomia hyötyjä kaikissa mahdollisissa maailmoissa?

Helsingin Vanhankaupunginkosken padon purkamisen hyödyistä ja haitoista on väitelty viime vuoden syyskuusta lähtien. Tuuli bloggasi asian tiimoilta viime sunnuntaina (https://blogs.helsinki.fi/taimenlaskenta/?p=163.); Helsingin Sanomat kirjoitti aiheesta viimeksi eilen (http://www.hs.fi/kaupunki/a1305954428529).

Kaupunginhallituksen kokouksessa päätettiin vastikää yksimielisesti palauttaa padon purkuehdotus uudelleen valmisteltavaksi.  Nähtiin tarpeelliseksi lisäselvitysten tekeminen padon purkamispäätöksen mahdollisista vaikutuksista ennen kaikkea alueen kalastoon, vuollejokisimpukoihin sekä Pikkukosken uimarannan vapaa-ajankäyttöön.

Näiden tekijöiden lisäksi kaupunginhallituksen päätöksen (purkaa tai jättää purkamatta pato) vaakakupissa tulee varteenotettavina arvoina painamaan ainakin padon ja voimalan museaalinen ja esteettinen arvo, sekä jossain määrin myös voimalan tuottama sähkö (http://jukkarelander.puheenvuoro.uusisuomi.fi/177564-miksi-vanhankaupunginkosken-pato-kannattaa-purkaa).

Päätös siitä, mitä tulisi tehdä, on määritelmällisesti normatiivinen ja siten luonteeltaan myös eettinen. Jos eettinen tarkastelu rajataan seurausetiikkaan (intuitionistiset, velvollisuus- ja hyve-eettiset pohdinnat sivuuttaen), voidaan rationaalinen eettinen päätös padon purkamisesta palauttaa seurausten haittoihin (tai kääntäen hyötyihin) ehdolla vaihtoehtoiset, mutta toteutettavissa periaatteessa olevat toimintamallit. Yksinkertaisimmillaan käsillä oleva päätöksentekotilanne voitaisiin siis hahmottaa seurausten hyödyillä/haitoilla ehdolla padon purku versus padon säilyttäminen (käytännössä ehdotetut toimintamallit ovat toki hienosyisempää mallia: padon purku JA .. versus padon säilyttäminen JA..).

Mutta: omenia ja appelsiineja; esteettisiä, luonnonsuojelullisia ja vapaa-ajanvietollisia arvoja: miten näitä voidaan vertailla keskenään?

Jos ei voitaisi, kaupunginhallituksen päätös kerätä lisätietoa potentiaalisten toimintamallien mahdollisista seurauksista olisi lähtökohtaisesti älytön. Jos hyödyt nähtäisiin yhteismitattomina – tai yhtä lailla jos tiedettäisiin jokin hyöty painoarvoltaan dominoivaksi kaikissa mahdollisissa maailmoissa – ei keskustelua erilaisista skenaarioista tarvitsisi käydä (jolloin väittäisin sitä ironisen paradoksaalisesti todennäköisesti käytävän loputtomiin). Riittäisi todeta joko: ”minä pidän padoista, sinä kaloista – siinä kaikki!” tai: ”padon museoarvo on suurempi kuin suurin kuviteltavissa oleva kalakantahävikki”. End of discussion.

Lisäinformaatio olisi yhtä lailla hyödytöntä, jos jo tiedetään, mitä toimintaskenaarioille ehdollisista seurauksista voidaan ylipäänsä tietää. Tällainen tilanne on vastassa kahdessa ääripäässä: 1) jos toimintamalleihin liitettäviin mahdollisiin maailmoihin ei liity epävarmuutta lainkaan, tai 2) päätöksenteko on luonteeltaan niin toivottoman epävarmaa, että mahdolliset maailmat voivat olla yhtä hyvin aivan mitkä tahansa. Näiden ääripäiden välissä tulee pohtia lisäinformaatiosta saatavia päätöksenteolle suhteellisia kustannushyötyä.

Juuri koskaan ei tiedetäkään kaikkea (eikä varmuudella juuri muuta kuin analyyttiset totuudet, kuten: “jos pato puretaan, patoa ei enää ole“). Lähes yhtä harvoin päätöksentekotilanne on toivottoman epävarma. Harvojen preferenssit ovat myöskään täysin ehdottomat, vaan jossain tulee myös äärimmäisellä henkilöllä vastaan vaihtosuhde yhden versus toisen preferenssin suosimisen välillä. Näin on aina, kun padon esteettinen hyötyarvo ei ylitä äärettömän kalan hyötyarvoa jne (huono esimerkki siinä mielessä, että hyötyfynktion yli kalojen tulee olla vahvasti laskeva siihen pisteeseen, että äärettömän monen kalan lisä olisi äärettömän epämukavaa).

Siksi lähes kaikissa päätöksentekotilanteissa on kyse 1) vaihtoehtoisten maailmojen sisältämien hyötyjen vertailemisesta keskenään, sekä 2) näiden hyötyjen painottamisesta maailmojen todennäköisyyksillä ehdolla valittu toimintamalli. Tähän päättelytilanteeseen voi bayesilainen päätöksentekotiede tarjota parhaat mahdolliset välineet. Esimerkiksi Vantaanjoen smoltteja estimoidessa voidaan arvioida, kuinka paljon taimenia muuttaa Vantaanjoesta mereen ehdolla pato versus ehdolla ei patoa. Mahdollisten maailmojen todennäköisyyksien määrittämiseen liittyvä mallivalinnan epävarmuus voidaan huomioida keskiarvoistamalla yli käytettyjen todennäköisyysmallien (https://blogs.helsinki.fi/taimenlaskenta/?p=133).

Julkisessa päätöksenteossa maailma monimutkaistuu entisestään: huolella estimoidut mahdollisten maailmojen todennäköisyydet tulisi liittää henkilöittäin vaihteleviin hyötyihin aggregaattitasolla siten, että sosiaalinen hyötyfunktio kuvaa parhaalla mahdollisella tavalla yksittäisiä preferenssejä. Bayesilainen päätöksentekotiede kykenee määrittämään mahdollisten maailmojen posterioritodennäköisyydet ehdolla havaittu aineisto. Jos näihin maailmoihin liitettäviä hyötyjä haluttaisiin painottaa perustellulla tavalla yli demokraattisesti validien preferenssien, tulisi bayesilainen teoria edelleen yhdistää sosiaalisen valinnan teoriaan.