Miksei tasajakauma?

Minkä muotoisen käppyrän, suoran tai niin edespäin sovittaisit seuraavaan aineistoon?

Smoltit_kiinni

Pisteet kuvaavat päivittäisiä kiinnijääneitä taimenen smoltteja päivään 38 asti.

Mielestäni prima facie ja äkkiseltään kohtalaiselta sovitteelta vaikuttaisi horisontaalinen suora, joka kulkisi noin yhdessä päivittäisessä havainnossa yli kaikkien seuranta-ajanjakson päivien.

Mitään trendiä on nimittäin ainakin minun mielestäni kuviosta kovin vaikea havaita. Herkällä tulkinnalla voitaisiin kenties todeta havaintojen hieman lisääntyneen päivien kuluessa. Tällöin horisontaalisen sijaan varovaisesti nouseva suora saattaisi toimia.

Entä onko kuviossa useamman havainnon muodostamia havaintohuippuja (useamman siksi, että näissä olisi tulkittavissa jotain systematiikkaa)? Edes tällaisia on mielestäni vaikea päätellä kuviossa esiintyvän: ehkä korkeintaan päivinä 20, 21 ja 22, kenties jälleen päivinä 36,37 ja 38.

Onko näissä päivissä jotain muuta erityistä, kuin mitä mallien teoriapohjalta voitaisiin ennustaa? No, rysä on ollut yhdessä ruuvin kanssa toiminnassa kaiken kaikkiaan päivinä 16-21 ja 35-38. Kun tämän huomioi, vaikuttaisi hajontakuvioon sopivan erityisen hyvin mainittu horisontaalinen suora, josta muutamat rysän vaikutuksen poistamisen jälkeen jäljelle jäävät poikkeavat havainnot (outlierit), ovat suurusluokkaa 3-4, eivätkä siksi kovin epätodennäköisiä ehdolla horistontaalinen sovite.

Tällainen “horisontaalinen sovite” sopisi yhteen muuttointensiteetin mallin tasajakauma kanssa. Havaintommehan oletetaan tulevan (muuten paitsi pyydysten määrältä) yli päivien vakiolla pyydystettävyysteholla, tietyn mutta  tuntemattoman kokoisesta smolttipopulaatiosta, yli päivien mallinnetuilla muuttointensiteeteillä. Siispä ennustettu muuttointensiteetti määrittää yhdessä pyydysten määrän kanssa suurimman osan siitä, minkä “muodon” oletamme hajontakuviossa esiintyvän.

Mielenkiintoisen poikkeuksen tähän tekee totaaliestimaattimme. Jos havaintomäärät “raahaavat perässä” totaaliprioria, tulee mallin kyetä ennustamaan havaintopiikkejä tai systemaattisesti lisääntyviä havaintoja jäljellä oleville seuranta-ajanjakson päiville. Tasajakauma ei tähän juuri kykene.

Mutta selittääkö tämä sen, että tasajakauma saa mallivertailussamme (https://blogs.helsinki.fi/taimenlaskenta/?p=221) posterioritodennäköisyydekseen 0? Lähes varmoina tulosten perusteella pidettävät (joko tai) normaalijakauma ja lognormaalijakauma eivät vaikuttaisi sopivan aineistoon yhtään tasajakaumaa paremmin. Tekisi mieli sanoa päinvastoin.

No, asia ei ole näin yksinkertainen. Mallia ei tule suosia vain datan perusteella, minkä vuoksi postauksen aloittama kysymys on ikään kuin nurinkurinen. Pitäisi pohtia, mikä priorikäsityksen mukaan perusteltu malli on myös perusteltu ehdolla aineisto. Mallien posterioreihin vaikuttavatkin niiden uskottavuuden lisäksi sekä mallien parametrien määrä, parametrien priorit että mallien priorit.

Koska viimeksi mainitut ovat meillä kategorisesti tasan (pun intended) eli 1/4, eivät erot mallien posterioreissa voi tästä johtua. Siispä ne vaikuttaisivat johtuvan ennen kaikkea mallien parametreista ja näiden prioreista.

Muissa malleissa on enemmän parametreja kuin tasajakaumassa, jossa muuttointensiteetin määrittää 1/60 jokaisena päivänä. Useammalla parametrilla voidaan paremmin myötäillä saatua dataa. Sopivilla parametrien prioreilla voitaneen mallista saada tasajakaumaa selvästi joustavampi ja vielä kun käy niin, että havaintopiikki osuu ennalta määrättyyn priorikohtaan normaalijakaumaa, voidaan juuri kyseinen piikki selittää erinomaisesti jakauman joustavalla muodolla. Mutta mitä tapahtuu, jos ja kun “piikkejä” tulee useampia ja ne ovat vain yhden päivän mittaisia?

Ja eikö parametrien määrästä pitäisi rankaista? Eikö hyvä malli ole SEKÄ sopiva aineistoon (goodness of fit) että yksinkertainen (parsimonious)? Tällöin tasajakauma tuntuisi edellisen kuvion ja yksinkertaisuudensa vuoksi vähintään intuitiivisesti hyvältä valinnalta.

Mutta. Teoriapohjalta varmasti tiedetään, ettei tasajakauma voi olla oikea malli. Smoltit eivät muuta tasaista virtaa. Jos ja kun näin on, tulisi tämän näkyä mallivalintojen prioreissa ja vaikuttaa pääasiassa sitä eikä muuta kautta malliemme posterioritodennäköisyyksiin.

Leave a Reply

Your email address will not be published. Required fields are marked *