Tag Archives: PPV

Miksi suurin osa julkaistuista tutkimustuloksista on virheellisiä

John Ioannidksen jo klassikoksi noussut kirjoitus “Why most published research findings are false” vietti taannoin 10-vuotispäiväänsä, mutta on yhä hyvin ajankohtainen. Ioannidiksen keskeinen oivallus liittyy uskottavien ja epäuskottavien hypoteesien testaamiseen, mitä hän vertaa harvinaisten ja yleisten tautien epidemiologiseen seulontaan. Artikkelin keskeisen viestin hahmottaminen voi kuitenkin jäädä kiinni muutaman monimutkaisen yhtälön ja taulukon ymmärtämisestä. Koetan tässä kirjoituksessa auttaa alkuun asiassa.

Ioannidiksen artikkeli asettuu osaksi keskustelua nollahypoteesin testauksen asemasta tieteellisessä julkaisemisessa. Haluaisin siis aluksi lyhyen kyselyn (6 kyllä/ei väittämää) avulla levitellä aktivaatiota semanttisen muistinne relevantteihin rakenteisiin:

Oletetaan, että olet kiinnostunut uuden terapiamuodon tehokkuudeta masennuksen hoitomuotona. Esimerkki on psykologiasta, mutta “terapian” voi aivan hyvin korvata “opetusjärjestelyllä” ja “masennuksen” “syväsuuntautuneella lähestymistavalla opiskeluun” – esimerkin logiikka pätee samalla tavoin kaikissa ihmistieteissä. Koeryhmässä potilaat osallistuivat uudenlaiseen terapiaan; kontrolliryhmässä “tavanomaiseen” hoitoon, jossa sairaanhoitajat keskustelivat heidän kanssaan empaattisesti. Vertaat keskiarvoista masennuksen tasoa ryhmien välillä (30 potilasta / ryhmä) riippumattomien otosten t-testin avulla. Saat tuloksen, jonka mukaan ryhmien keskiarvojen ero on tilastollisesti merkitsevä (t = 2.7, df = 58, p = .01). Ole hyvä ja arvioi, pitävätkö seuraavat väitteet paikkansa (“totta”) vai eivät (“epätotta”). Vastaus “epätotta” tarkoittaa, että johtopäätös ei loogisesti seuraa premisseistä (lähtökohdista). Huomaa, että väitteistä Q.1-Q.6 useampi voi pitää paikkansa; toisaalta voi olla, ettei yksikään niistä pidä paikkaansa.

Jos vastasit joihinkin kysymyksiin väärin, älä välitä – nollahypoteesin testaus on monimutkainen idea! Edelleen: tee blogistille palvelus ja juttele työkavereiden kanssa tuloksesta vasta sen jälkeen, kun he ovat itse vastanneet kysymyksiin – tällä tavalla useampi voi hyötyä kysymysten miettimisestä. Jos kiinnostuit aiheesta, oikeat vastaukset kysymyksiin löytyvät Gigerenzerin erinomaisesta artikkelista sivulta 3.

Nollahypoteesin testausta koskeva toiveajattelu tarjoaa linkin Ioannidiksen artikkeliin: siihen, mitä osa tutkijoista ajattelee saavansa nollahypoteesin testauksesta, tarvitaan todellisuudessa suuretta nimeltä positiivinen ennustearvo (PEA tai Positive Predictive Value, PPV). PEAa käytetään, kun arvioidaan jonkin testausmenetelmän ominaisuuksia, kuten että pitäisikö testiä soveltaa populaatiossa. Otetaan aluksi esimerkki taudin testaamisesta seulonnassa. Riippuen siitä, onko henkilö sairas vai terve, seuraavat vaihtoehdot ovat mahdollisia:

Sairas Terve
Positiivinen testitulos Oikea Positiivinen (OP) Väärä Positiivinen (VP)
Negatiivinen testitulos Väärä Negatiivinen (VN) Oikea Negatiivinen (ON)

Nyt positiivinen ennustearvo saadaan kaavalla:

, eli kyseessä on oikeiden positiivisten osuus kaikista positiivista testituloksista. Mutta mitä tekemistä tällä on tieteellisen julkaisemisen kanssa? Siinä missä jonkin taudin kohdalla puhutaan positiivisista ja negatiivisista testituloksista, tieteellisissä kokeissa voidaan vastaavasti jokin yhteys havaita tai olla havaitsematta: Onko C-vitamiinin syömisellä yhteyttä flunssaan? Tai, kuten rohkeampiin hypoteeseihin mieltyneet kollegat esittävät: Onko äidin syömien aamiaismurojen määrällä yhteyttä heidän synnyttämiensä poikalasten määrään?

Todellisuus
On yhteys Ei yhteyttä
Kokeen tulos On yhteys OP VP PEA = OP/(OP+VP)
Ei yhteyttä VN ON NEA = VN/(VN+ON)
Sensitiivisyys = OP/(OP+VN) Spesifisyys = ON/(VP+ON)

Taulukossa NEA = negatiivinen ennustearvo, muut lyhenteet ovat kuten edellä. Taulukosta voisi laskea muitakin suhdelukuja, mutta olen merkinnyt siihen useimmiten hyödyllisinä pidetyt tunnusluvut.

Kaikkien merkittyjen tunnuslukujen (PEA, NEA, sensitiivisyys, spesifisyys) arvot vaihtelevat välillä [0,1]. Taulukon muita arvoja tarvitaan PEAn laskemiseen, joten käsitellään niitä ensin. Sensitiivisyys tunnetaan myös nimellä tilastollinen voima, ja esimerkiksi arvo 0.8 kertoo, että havaitsemme yhteyden 80 %:ssa tapauksista, joissa se on olemassa. Testin tilastollinen voima riippuu efektin suuruudesta, käytetystä otoskoosta ja käytetystä merkitsevyystasosta.

Spesifisyys viittaa oikeiden negatiivisten tulosten osuuteen, eli siihen, kuinka usein osaamme todeta, että asioiden välillä ei ole yhteyttä, kun niiden välillä ei todellisuudessa sellaista ole. Esim. 95 %:n spesifisyys kertoo, että tehdessämme 100 vertailua kahden toisiinsa liittymättömän asian välillä, toteamme oikein keskimäärin 95 kertaa sadasta, että yhteyttä asioiden välillä ei ole. Toisaalta saamme väärän positiivisen tuloksen viidessä vertailussa sadasta. Kuulostaako tämä tutulta? Spesifisyys on itse asiassa merkitsevyystason () komplementti: . Toisaalta, jos teemme itsepintaisesti vertailuja toisiinsa liittymättömien asioiden välillä, yksi yhteys 20:stä todetaan väärin todelliseksi. Taiteilija Munroe on käsitellyt aihetta erinomaisesti.

Klikkasitko linkkiä? Oletetaan, että tutkijat ovat tehneet työnsä ja päässeet takaisin kiinnostavampien harrastusten pariin. Mikä on todennäköisyys, että heidän löytämänsä yhteys kuuluu laatikkoon OP, oikea positiivinen? Onko se 0.95, p-arvohan oli <.05? Toivottavasti vastasit kieltävästi: p-arvo kertoo vain vääristä positiivisista tuloksista. P-arvoa laskettaessa oletamme, että elämme todellisuudessa, jossa yhteyttä asioiden välillä ei ole: maailmamme rajoittuu taulukon oikeanpuoleiseen sarakkeeseen, jossa majailevat solut “VP” ja “ON”. Nyt p-arvo on suhteellinen osuus VP/(VP+ON).

Tällä kieltämättä melkoisen pitkällä pohjustuksella pääsemme viimein Ioannidiksen kaavojen kimppuun. Kerrataanpa:

Mutta emmehän me voi tietää oikeiden positiivisten määrää, miten siis laskea PEA? Ioannidis antaa kaavan , joka saattaa karkoittaa matematiikkakammoisen muihin puuhiin tiedettä lukemasta. Kaava ei kuitenkaan ole aivan mahdoton. on tuttu kaveri: tilastollinen voima eli sensitiivisyys. puolestaan on tuttu merkitsevyystaso: väärien positiivisten suhteellinen osuus.

Kaavan R sen sijaan on hiukan haastavampi selätettävä. Se on määritelmän mukaan suhdeluku luokkien “On yhteys” ja “Ei yhteyttä” tapausten lukumäärien välillä, eli veto. Lukumäärät voisivat olla vaikka 10 ja 20, jolloin vedoksi tulisi 10/20. Vedon voi ilmaista myös todennäköisyyksien suhteena  , eli esimerkin luvuilla . Sivuhuomiona: Ioannidiksen taulukkoa 1 tuijotellessaan vedon voi muuttaa todennäköisyydeksi kaavalla . Mestari Rita on käsitellyt vetojen ja todennäköisyyksien suhdetta laajemmin.

Mutta takaisin artikkeliin. Pyöritellään hankalan oloista yhtälöä vähän.

Todennäköisyydet p ja 1-p saatiin liitettyä yhtälön jokaiseen muuhun termiin, ja todennäköisyydet ovat ehkä vetoja tutumpia tulkittavia. P ja 1-p ovat prioritodennäköisyyksiä: ne ilmaisevat ennen kokeen suorittamista vallitsevan todennäköisyyden sille, että tarkasteltu yhteys todella on olemassa. Prioritodennäköisyydet lyhennetään joskus PP (Prior Probability). Esimerkiksi tulevaisuuteen näkemiselle saattaisi olla järkevää antaa matala prioritodennäköisyys, kun taas p-arvoja väärinkäyttämällä syntyy pahaa jälkeä (linkin tutkimuksessa kyse on nimenomaan p-arvojen väärinkäyttämisestä, kyseenalaisista alaryhmäanalyyseistä ym. venkoilusta). Vaikka prioritodennäköisyyksiä ei kai koskaan voi oikeasti tietää, on terveellinen harjoitus miettiä niiden roolia PEA-laskelmissa. Kokeillaan laskelmaa sopivilla luvuilla, mutta kerätään sitä ennen edellä käytetyt merkinnät taulukkoon:

Todellisuus
On yhteys Ei yhteyttä
Koe  Yhteys

sensitiivisyys

merkitsevyystaso

 Ei yhteyttä

väärien negatiivisten suhteellinen osuus

spesifisyys

 Yhteensä

Tosien hypoteesien suhteellinen osuus

Epätosien hypoteesien suhteellinen osuus

Nyt tähän taulukkoon kiteytyy Ioannidiksen oivallus. Hän samaistaa epidemiologian oikeat positiiviset testitulokset tieteellisten tutkimusten oikein todettujen yhteyksien kanssa. Taulukko koskee siis joukkoa tieteellisiä hypoteeseja, kuten “Äidin syömien aamiasmurojen määrällä on yhteys hänen synnyttämiensä poikalasten määrään” ja “Äidin syömien kalkkunavoileipien määrällä on yhteys hänen synnyttämiensä poikalasten määrään” ja “Äidin syömien aamiaismurojen / kalkkunavoileipien / appelsiinien / huonekasvien / pikkukivien määrällä on yhteys hänen sairastamiensa flunssien määrään”. Näitä kaikkia seitsemää hypoteesia voidaan ajatella tietyllä ravitsemustieteen alalla tarkasteltuina hypoteeseina, ja ehkäpä todellisia yhteyksiä näistä on . Taulukon p on näin ollen 0.143, ja 1-p  = 0.857.  Jos haluamme käyttää epidemiologian terminologiaa, todennäköisyys p on tosien hypoteesien prevalenssi, ja se riippuu mm. siitä, kuinka railakkaita hypoteeseja tarkastellulla tieteenalalla on tapana esittää. Kun kyseisen todennäköisyyden hahmottaa prevalenssiksi, vastaa edellä auki kirjoitettu PEAn yhtälö itse asiassa aihetta käsittelevässä Wikipedia-artikkelissa esitettyä yhtälöä. Sensitiivisyys ja spesifisyys valitaan siten, kuin omalla tieteenalalla on järkevää. Tässä niille voisi valita vaikka arvot 0.8 ja 0.95.

Huomautettakoon, että taulukko voi vaikuttaa hämäävältä verrattuna edellisiin samannäköisiin taulukoihin. Niissä OP, VP, ON ja VN olivat lukumääriä ja suhteelliset osuudet (sensitiivisyys ja spesifisyys) oli merkitty taulukon reunoille. Viimeisimmässä taulukossa taas kaikki arvot ovat todennäköisyyksiä (suhteellisia osuuksia).

Tällä ymmärryksellä uskallamme ehkä soveltaa Ioannidiksen PEA-yhtälöä. Tämä onnistuu luonnollisesti Internetissä, vaikka onkin minusta hyvä harjoitus kirjoitella kaava auki itselleen esim. R:ään tai Exceliin. Linkin laskurin oletusarvot ovat voima: 0.8, merkitsevyystason komplementti: 0.95, ja prioritodennäköisyys: 0.5. Nämä ovat järkevän kuuloisia lukuja, kun tarkastellaan uskottavaa hypoteesia, ja laskuri tuottaakin tuloksen PEA = 0.94, eli että 94 % positiivisista tuloksista olisi oikeita positiivisia. Mitäs tämä nyt on, näimmekö kaiken tämän vaivan aivan turhaan? Eikö käytännössä voisi ajatella, että spesifisyys on riittävän tarkka approksimaatio PEAlle? Ei oikeastaan: sijoitetaan laskuriin kokeeksi äskeiset ravitsemustieteen esimerkin luvut, eli vaihdetaan prioritodennäköisyys arvoon 0.143. Pyöristettynä tulos on 0.73, eli tässä tilanteessa 73 % positiiviseen tulokseen (“on yhteys”) päätyneistä tarkasteluista on oikeita positiiviisia. Tulos ei ehkä ole kovin mairitteleva, mutta ainakin tällä tieteenalalla menee paremmin kuin mitä Ioannidis tutkimuksensa otsikossa lakonisesti toteaa tieteen yleistilaksi.

Edellä mainitsemassani tulevaisuuteen näkemisen tutkimuksessa puolestaan olisi saattanut olla järkevää huomioida, että saatu tulos on ristiriidassa nykyfysiikan ja -biologian kanssa, ja antaa matala prioritodennäköisyyden arvo testatulle yhteydelle. Esimerkiksi tässä tapauksessa äärimmäisen anteliaalla prioritodennäköisyyden arvolla 0.01 saadaan PEA = 0.14. Näin epätodennäköisistä löydöksistä siis vain yksi seitsemästä olisi oikea positiivinen. Tulevaisuuteen näkeminen olisi tosin varmasti ansainnut vielä paljon matalamman prioritodennäköisyyden arvon. Toisaalta: sikäli kuin tieteellista julkaisemista verrataan seulontatestien suorittamiseen, alle 0.5:n jäävä PEA vaikuttaisi aika onnettomalta tulokselta. Nykymaailmassa ovat resurssit tiukassa, ja jos taudin olemassaolo voidaan todeta testiä luotettavammin kolikkoa heittämällä, kannattaisi lääkärin varata muutama euro tutkimuksia varten taskunpohjalle.

Ioannidis pohtii vielä lisäksi vinoutuneiden raportointikäytäntöjen ja useiden tutkimustiimien vaikutusta tosien tulosten tuottamisen todennäköisyyteen. Hän esittää myös listan kuudesta tekijästä, jotka vaikuttavat tosien tulosten tuottamisen todennäköisyyteen.

  1. Mitä pienempi otoskoko, sitä epätodennäköisemmin tulos on tosi (pieni otos johtaa matalaan voimaan)
  2. Mitä pienempi efektikoko, sitä epätodennäköisemmin tulos on tosi (pieni efektikoko johtaa matalaan voimaan)
  3. Mitä enemmän yhteyksiä tietyllä alalla testataan, sitä epätodennäköisemmin tulokset ovat tosia. Tähän liittyvät tutkimusta edeltävä veto R ja siitä johdettu prioritodennäköisyys p. Ja tietysti se edellä linkattu xkcd-sarjakuva.
  4. Mitä enemmän tutkimusasetelmia, määritelmiä, riippuvia muuttujia ja analyysiasetelmia tietyllä alalla on tapana mankeloida, sitä epätodennäköisemmin tulokset ovat tosia. Tästä aiheesta olisi esimerkkejä vaikka kirjaksi asti, maltan siis mieleni tältä erää.
  5. Mitä enemmän taloudellisia intressejä tietyllä alalla on pelissä, sitä epätodennäköisemmin tulokset ovat tosia.
  6. Mitä “kuumempi” ala (enemmän tiimejä tekemässä tutkimusta), sitä epätodennäköisemmin tulokset ovat tosia. Tälle havainnolle Ioannidis tarjoaa taustamekanismiksi sitä, että jonkin tiimin tuottama yllättävä löydös muuttuu muille tutkimusryhmille vapaaksi riistaksi, joka metsästetään julkaisemalla mahdollisimman pian alkuperäisen löydöksen kanssa ristiriitainen tulos. Mekanismi on kastettu Proteus-ilmiöksi. Aiheesta tosin keskustellaan nykyisin aktiivisesti.

Näistä syistä, ja simulaatioihin pohjautuen, Ioannidis vetää johtopäätöksen, että 0.5:n (kolikonheitto) ylittäviä PEA-arvoja on vaikea tavoittaa useimmilla aloilla, eli että suurin osa julkaistuista tutkimustuloksista on virheellisiä. Mitä siis tehdä? Osa ratkaisuista on helppoja: kannattaa esimerkiksi kerätä mieluummin iso otos kuin pieni otos. Lisäksi kannattaa puuttua aineiston ja tutkimusasetelmien mankelointiin, jotta vinoumien (bias) vaikutus saataisiin minimoitua.

Tämä tästä tältä erää, toivottavasti kirjoitus auttoi alkuun Ioannidiksen kanssa. Osa ideoista on häpeilemättä pöllitty muista Ioannidiksen artikkelia käsittelevistä blogikirjoituksista [1, 2, ks. myös 3], jotka ovat suositeltavaa jatkolukemista asian paremmin ymmärtämiseksi. Erityisesti ykköslinkissä on havainnollisia kuvia aiheesta.