Miksi suurin osa julkaistuista tutkimustuloksista on virheellisiä

John Ioannidksen jo klassikoksi noussut kirjoitus “Why most published research findings are false” vietti taannoin 10-vuotispäiväänsä, mutta on yhä hyvin ajankohtainen. Ioannidiksen keskeinen oivallus liittyy uskottavien ja epäuskottavien hypoteesien testaamiseen, mitä hän vertaa harvinaisten ja yleisten tautien epidemiologiseen seulontaan. Artikkelin keskeisen viestin hahmottaminen voi kuitenkin jäädä kiinni muutaman monimutkaisen yhtälön ja taulukon ymmärtämisestä. Koetan tässä kirjoituksessa auttaa alkuun asiassa.

Ioannidiksen artikkeli asettuu osaksi keskustelua nollahypoteesin testauksen asemasta tieteellisessä julkaisemisessa. Haluaisin siis aluksi lyhyen kyselyn (6 kyllä/ei väittämää) avulla levitellä aktivaatiota semanttisen muistinne relevantteihin rakenteisiin:

Oletetaan, että olet kiinnostunut uuden terapiamuodon tehokkuudeta masennuksen hoitomuotona. Esimerkki on psykologiasta, mutta “terapian” voi aivan hyvin korvata “opetusjärjestelyllä” ja “masennuksen” “syväsuuntautuneella lähestymistavalla opiskeluun” – esimerkin logiikka pätee samalla tavoin kaikissa ihmistieteissä. Koeryhmässä potilaat osallistuivat uudenlaiseen terapiaan; kontrolliryhmässä “tavanomaiseen” hoitoon, jossa sairaanhoitajat keskustelivat heidän kanssaan empaattisesti. Vertaat keskiarvoista masennuksen tasoa ryhmien välillä (30 potilasta / ryhmä) riippumattomien otosten t-testin avulla. Saat tuloksen, jonka mukaan ryhmien keskiarvojen ero on tilastollisesti merkitsevä (t = 2.7, df = 58, p = .01). Ole hyvä ja arvioi, pitävätkö seuraavat väitteet paikkansa (“totta”) vai eivät (“epätotta”). Vastaus “epätotta” tarkoittaa, että johtopäätös ei loogisesti seuraa premisseistä (lähtökohdista). Huomaa, että väitteistä Q.1-Q.6 useampi voi pitää paikkansa; toisaalta voi olla, ettei yksikään niistä pidä paikkaansa.

Jos vastasit joihinkin kysymyksiin väärin, älä välitä – nollahypoteesin testaus on monimutkainen idea! Edelleen: tee blogistille palvelus ja juttele työkavereiden kanssa tuloksesta vasta sen jälkeen, kun he ovat itse vastanneet kysymyksiin – tällä tavalla useampi voi hyötyä kysymysten miettimisestä. Jos kiinnostuit aiheesta, oikeat vastaukset kysymyksiin löytyvät Gigerenzerin erinomaisesta artikkelista sivulta 3.

Nollahypoteesin testausta koskeva toiveajattelu tarjoaa linkin Ioannidiksen artikkeliin: siihen, mitä osa tutkijoista ajattelee saavansa nollahypoteesin testauksesta, tarvitaan todellisuudessa suuretta nimeltä positiivinen ennustearvo (PEA tai Positive Predictive Value, PPV). PEAa käytetään, kun arvioidaan jonkin testausmenetelmän ominaisuuksia, kuten että pitäisikö testiä soveltaa populaatiossa. Otetaan aluksi esimerkki taudin testaamisesta seulonnassa. Riippuen siitä, onko henkilö sairas vai terve, seuraavat vaihtoehdot ovat mahdollisia:

Sairas Terve
Positiivinen testitulos Oikea Positiivinen (OP) Väärä Positiivinen (VP)
Negatiivinen testitulos Väärä Negatiivinen (VN) Oikea Negatiivinen (ON)

Nyt positiivinen ennustearvo saadaan kaavalla:

, eli kyseessä on oikeiden positiivisten osuus kaikista positiivista testituloksista. Mutta mitä tekemistä tällä on tieteellisen julkaisemisen kanssa? Siinä missä jonkin taudin kohdalla puhutaan positiivisista ja negatiivisista testituloksista, tieteellisissä kokeissa voidaan vastaavasti jokin yhteys havaita tai olla havaitsematta: Onko C-vitamiinin syömisellä yhteyttä flunssaan? Tai, kuten rohkeampiin hypoteeseihin mieltyneet kollegat esittävät: Onko äidin syömien aamiaismurojen määrällä yhteyttä heidän synnyttämiensä poikalasten määrään?

Todellisuus
On yhteys Ei yhteyttä
Kokeen tulos On yhteys OP VP PEA = OP/(OP+VP)
Ei yhteyttä VN ON NEA = VN/(VN+ON)
Sensitiivisyys = OP/(OP+VN) Spesifisyys = ON/(VP+ON)

Taulukossa NEA = negatiivinen ennustearvo, muut lyhenteet ovat kuten edellä. Taulukosta voisi laskea muitakin suhdelukuja, mutta olen merkinnyt siihen useimmiten hyödyllisinä pidetyt tunnusluvut.

Kaikkien merkittyjen tunnuslukujen (PEA, NEA, sensitiivisyys, spesifisyys) arvot vaihtelevat välillä [0,1]. Taulukon muita arvoja tarvitaan PEAn laskemiseen, joten käsitellään niitä ensin. Sensitiivisyys tunnetaan myös nimellä tilastollinen voima, ja esimerkiksi arvo 0.8 kertoo, että havaitsemme yhteyden 80 %:ssa tapauksista, joissa se on olemassa. Testin tilastollinen voima riippuu efektin suuruudesta, käytetystä otoskoosta ja käytetystä merkitsevyystasosta.

Spesifisyys viittaa oikeiden negatiivisten tulosten osuuteen, eli siihen, kuinka usein osaamme todeta, että asioiden välillä ei ole yhteyttä, kun niiden välillä ei todellisuudessa sellaista ole. Esim. 95 %:n spesifisyys kertoo, että tehdessämme 100 vertailua kahden toisiinsa liittymättömän asian välillä, toteamme oikein keskimäärin 95 kertaa sadasta, että yhteyttä asioiden välillä ei ole. Toisaalta saamme väärän positiivisen tuloksen viidessä vertailussa sadasta. Kuulostaako tämä tutulta? Spesifisyys on itse asiassa merkitsevyystason () komplementti: . Toisaalta, jos teemme itsepintaisesti vertailuja toisiinsa liittymättömien asioiden välillä, yksi yhteys 20:stä todetaan väärin todelliseksi. Taiteilija Munroe on käsitellyt aihetta erinomaisesti.

Klikkasitko linkkiä? Oletetaan, että tutkijat ovat tehneet työnsä ja päässeet takaisin kiinnostavampien harrastusten pariin. Mikä on todennäköisyys, että heidän löytämänsä yhteys kuuluu laatikkoon OP, oikea positiivinen? Onko se 0.95, p-arvohan oli <.05? Toivottavasti vastasit kieltävästi: p-arvo kertoo vain vääristä positiivisista tuloksista. P-arvoa laskettaessa oletamme, että elämme todellisuudessa, jossa yhteyttä asioiden välillä ei ole: maailmamme rajoittuu taulukon oikeanpuoleiseen sarakkeeseen, jossa majailevat solut “VP” ja “ON”. Nyt p-arvo on suhteellinen osuus VP/(VP+ON).

Tällä kieltämättä melkoisen pitkällä pohjustuksella pääsemme viimein Ioannidiksen kaavojen kimppuun. Kerrataanpa:

Mutta emmehän me voi tietää oikeiden positiivisten määrää, miten siis laskea PEA? Ioannidis antaa kaavan , joka saattaa karkoittaa matematiikkakammoisen muihin puuhiin tiedettä lukemasta. Kaava ei kuitenkaan ole aivan mahdoton. on tuttu kaveri: tilastollinen voima eli sensitiivisyys. puolestaan on tuttu merkitsevyystaso: väärien positiivisten suhteellinen osuus.

Kaavan R sen sijaan on hiukan haastavampi selätettävä. Se on määritelmän mukaan suhdeluku luokkien “On yhteys” ja “Ei yhteyttä” tapausten lukumäärien välillä, eli veto. Lukumäärät voisivat olla vaikka 10 ja 20, jolloin vedoksi tulisi 10/20. Vedon voi ilmaista myös todennäköisyyksien suhteena  , eli esimerkin luvuilla . Sivuhuomiona: Ioannidiksen taulukkoa 1 tuijotellessaan vedon voi muuttaa todennäköisyydeksi kaavalla . Mestari Rita on käsitellyt vetojen ja todennäköisyyksien suhdetta laajemmin.

Mutta takaisin artikkeliin. Pyöritellään hankalan oloista yhtälöä vähän.

Todennäköisyydet p ja 1-p saatiin liitettyä yhtälön jokaiseen muuhun termiin, ja todennäköisyydet ovat ehkä vetoja tutumpia tulkittavia. P ja 1-p ovat prioritodennäköisyyksiä: ne ilmaisevat ennen kokeen suorittamista vallitsevan todennäköisyyden sille, että tarkasteltu yhteys todella on olemassa. Prioritodennäköisyydet lyhennetään joskus PP (Prior Probability). Esimerkiksi tulevaisuuteen näkemiselle saattaisi olla järkevää antaa matala prioritodennäköisyys, kun taas p-arvoja väärinkäyttämällä syntyy pahaa jälkeä (linkin tutkimuksessa kyse on nimenomaan p-arvojen väärinkäyttämisestä, kyseenalaisista alaryhmäanalyyseistä ym. venkoilusta). Vaikka prioritodennäköisyyksiä ei kai koskaan voi oikeasti tietää, on terveellinen harjoitus miettiä niiden roolia PEA-laskelmissa. Kokeillaan laskelmaa sopivilla luvuilla, mutta kerätään sitä ennen edellä käytetyt merkinnät taulukkoon:

Todellisuus
On yhteys Ei yhteyttä
Koe  Yhteys

sensitiivisyys

merkitsevyystaso

 Ei yhteyttä

väärien negatiivisten suhteellinen osuus

spesifisyys

 Yhteensä

Tosien hypoteesien suhteellinen osuus

Epätosien hypoteesien suhteellinen osuus

Nyt tähän taulukkoon kiteytyy Ioannidiksen oivallus. Hän samaistaa epidemiologian oikeat positiiviset testitulokset tieteellisten tutkimusten oikein todettujen yhteyksien kanssa. Taulukko koskee siis joukkoa tieteellisiä hypoteeseja, kuten “Äidin syömien aamiasmurojen määrällä on yhteys hänen synnyttämiensä poikalasten määrään” ja “Äidin syömien kalkkunavoileipien määrällä on yhteys hänen synnyttämiensä poikalasten määrään” ja “Äidin syömien aamiaismurojen / kalkkunavoileipien / appelsiinien / huonekasvien / pikkukivien määrällä on yhteys hänen sairastamiensa flunssien määrään”. Näitä kaikkia seitsemää hypoteesia voidaan ajatella tietyllä ravitsemustieteen alalla tarkasteltuina hypoteeseina, ja ehkäpä todellisia yhteyksiä näistä on . Taulukon p on näin ollen 0.143, ja 1-p  = 0.857.  Jos haluamme käyttää epidemiologian terminologiaa, todennäköisyys p on tosien hypoteesien prevalenssi, ja se riippuu mm. siitä, kuinka railakkaita hypoteeseja tarkastellulla tieteenalalla on tapana esittää. Kun kyseisen todennäköisyyden hahmottaa prevalenssiksi, vastaa edellä auki kirjoitettu PEAn yhtälö itse asiassa aihetta käsittelevässä Wikipedia-artikkelissa esitettyä yhtälöä. Sensitiivisyys ja spesifisyys valitaan siten, kuin omalla tieteenalalla on järkevää. Tässä niille voisi valita vaikka arvot 0.8 ja 0.95.

Huomautettakoon, että taulukko voi vaikuttaa hämäävältä verrattuna edellisiin samannäköisiin taulukoihin. Niissä OP, VP, ON ja VN olivat lukumääriä ja suhteelliset osuudet (sensitiivisyys ja spesifisyys) oli merkitty taulukon reunoille. Viimeisimmässä taulukossa taas kaikki arvot ovat todennäköisyyksiä (suhteellisia osuuksia).

Tällä ymmärryksellä uskallamme ehkä soveltaa Ioannidiksen PEA-yhtälöä. Tämä onnistuu luonnollisesti Internetissä, vaikka onkin minusta hyvä harjoitus kirjoitella kaava auki itselleen esim. R:ään tai Exceliin. Linkin laskurin oletusarvot ovat voima: 0.8, merkitsevyystason komplementti: 0.95, ja prioritodennäköisyys: 0.5. Nämä ovat järkevän kuuloisia lukuja, kun tarkastellaan uskottavaa hypoteesia, ja laskuri tuottaakin tuloksen PEA = 0.94, eli että 94 % positiivisista tuloksista olisi oikeita positiivisia. Mitäs tämä nyt on, näimmekö kaiken tämän vaivan aivan turhaan? Eikö käytännössä voisi ajatella, että spesifisyys on riittävän tarkka approksimaatio PEAlle? Ei oikeastaan: sijoitetaan laskuriin kokeeksi äskeiset ravitsemustieteen esimerkin luvut, eli vaihdetaan prioritodennäköisyys arvoon 0.143. Pyöristettynä tulos on 0.73, eli tässä tilanteessa 73 % positiiviseen tulokseen (“on yhteys”) päätyneistä tarkasteluista on oikeita positiiviisia. Tulos ei ehkä ole kovin mairitteleva, mutta ainakin tällä tieteenalalla menee paremmin kuin mitä Ioannidis tutkimuksensa otsikossa lakonisesti toteaa tieteen yleistilaksi.

Edellä mainitsemassani tulevaisuuteen näkemisen tutkimuksessa puolestaan olisi saattanut olla järkevää huomioida, että saatu tulos on ristiriidassa nykyfysiikan ja -biologian kanssa, ja antaa matala prioritodennäköisyyden arvo testatulle yhteydelle. Esimerkiksi tässä tapauksessa äärimmäisen anteliaalla prioritodennäköisyyden arvolla 0.01 saadaan PEA = 0.14. Näin epätodennäköisistä löydöksistä siis vain yksi seitsemästä olisi oikea positiivinen. Tulevaisuuteen näkeminen olisi tosin varmasti ansainnut vielä paljon matalamman prioritodennäköisyyden arvon. Toisaalta: sikäli kuin tieteellista julkaisemista verrataan seulontatestien suorittamiseen, alle 0.5:n jäävä PEA vaikuttaisi aika onnettomalta tulokselta. Nykymaailmassa ovat resurssit tiukassa, ja jos taudin olemassaolo voidaan todeta testiä luotettavammin kolikkoa heittämällä, kannattaisi lääkärin varata muutama euro tutkimuksia varten taskunpohjalle.

Ioannidis pohtii vielä lisäksi vinoutuneiden raportointikäytäntöjen ja useiden tutkimustiimien vaikutusta tosien tulosten tuottamisen todennäköisyyteen. Hän esittää myös listan kuudesta tekijästä, jotka vaikuttavat tosien tulosten tuottamisen todennäköisyyteen.

  1. Mitä pienempi otoskoko, sitä epätodennäköisemmin tulos on tosi (pieni otos johtaa matalaan voimaan)
  2. Mitä pienempi efektikoko, sitä epätodennäköisemmin tulos on tosi (pieni efektikoko johtaa matalaan voimaan)
  3. Mitä enemmän yhteyksiä tietyllä alalla testataan, sitä epätodennäköisemmin tulokset ovat tosia. Tähän liittyvät tutkimusta edeltävä veto R ja siitä johdettu prioritodennäköisyys p. Ja tietysti se edellä linkattu xkcd-sarjakuva.
  4. Mitä enemmän tutkimusasetelmia, määritelmiä, riippuvia muuttujia ja analyysiasetelmia tietyllä alalla on tapana mankeloida, sitä epätodennäköisemmin tulokset ovat tosia. Tästä aiheesta olisi esimerkkejä vaikka kirjaksi asti, maltan siis mieleni tältä erää.
  5. Mitä enemmän taloudellisia intressejä tietyllä alalla on pelissä, sitä epätodennäköisemmin tulokset ovat tosia.
  6. Mitä “kuumempi” ala (enemmän tiimejä tekemässä tutkimusta), sitä epätodennäköisemmin tulokset ovat tosia. Tälle havainnolle Ioannidis tarjoaa taustamekanismiksi sitä, että jonkin tiimin tuottama yllättävä löydös muuttuu muille tutkimusryhmille vapaaksi riistaksi, joka metsästetään julkaisemalla mahdollisimman pian alkuperäisen löydöksen kanssa ristiriitainen tulos. Mekanismi on kastettu Proteus-ilmiöksi. Aiheesta tosin keskustellaan nykyisin aktiivisesti.

Näistä syistä, ja simulaatioihin pohjautuen, Ioannidis vetää johtopäätöksen, että 0.5:n (kolikonheitto) ylittäviä PEA-arvoja on vaikea tavoittaa useimmilla aloilla, eli että suurin osa julkaistuista tutkimustuloksista on virheellisiä. Mitä siis tehdä? Osa ratkaisuista on helppoja: kannattaa esimerkiksi kerätä mieluummin iso otos kuin pieni otos. Lisäksi kannattaa puuttua aineiston ja tutkimusasetelmien mankelointiin, jotta vinoumien (bias) vaikutus saataisiin minimoitua.

Tämä tästä tältä erää, toivottavasti kirjoitus auttoi alkuun Ioannidiksen kanssa. Osa ideoista on häpeilemättä pöllitty muista Ioannidiksen artikkelia käsittelevistä blogikirjoituksista [1, 2, ks. myös 3], jotka ovat suositeltavaa jatkolukemista asian paremmin ymmärtämiseksi. Erityisesti ykköslinkissä on havainnollisia kuvia aiheesta.

Luottamusväleistä

Luottamusvälit, maailman yksinkertaisin asia! Niiden avulla ilmaistaan sitä tarkkuutta, jolla piste-estimaatin arvo on saatu laskettua. Mutta käytäpä pieni hetki vastaamalla kysymykseen: “miten 95 %:n luottamusväli määritellään?”

Jos vastasit: “95 %:n luottamusväli ilmaisee välin, jolla tuntemattoman populaatioparametrin arvo sijaitsee 95 %:n todennäköisyydellä”, teit yleisen tulkintavirheen, mutta ei hätää! Tämä ei ole tilastotieteen koe. Frekeventistisen tilastotieteen käsitteet vain ovat usein monimutkaisia, eikä luottamusvälin käsite ole poikkeus.

Luottamusvälit saavat oikean merkityksensä vasta, kun samaa koetta toistetaan useita kertoja. 95 %:n luottamusväli tarkoittaa väliä, joka peittää tuntemattoman populaatioparametrin arvon 95 %:ssa tapauksista koetta toistettaessa. Koska emme tiedä, minkä luottamusvälin äärettömästä sarjasta olemme juuri tässä kokeessa poimineet, edellä esittämäni yleinen tulkinta on virheellinen.

Mietitkö nyt: “Olkoon, ehkä on noin, mutta käytännössä asialla ei ole väliä: SPSS kertoo kätevästi luottamusvälit, ja viivat on helppo piirtää Excelissä kohdilleen”? Hyvä, mietitään käytäntöä, ja erityisesti keskiarvoon liittyvien luottamusvälien visuaalisen esittämisen tapoja. Tähän hyvä apu on Cummins & Finchin paperi, jonka olennaiset pointit olen tiivistänyt seuraavaan.

1. ohje: Lukiessasi tiedeartikkelia, mieti, mitä virhepalkit kuvaavat. Onko kyse luottamusväleistä ensinkään, vai onko palkkien avulla kuvattu keskivirheitä tai peräti keskihajontoja? Millaista koeasetelmaa on käytetty – ovatko mittaukset esimerkiksi riippuvia vai riippumattomia toisistaan? Mikä vertailu on erityisen kiinnostuksen kohteena, ja miten tämä liittyy esitettyihin keskiarvoihin ja luottamusväleihin? Jos esimerkiksi kiinnostuksen kohteena on parittainen vertailu samojen koehenkilöiden kahden mittauskerran tulosten välillä, ei keskiarvojen itsensä ympärille piirretyillä luottamusväleillä ole paljon virkaa: tällöin havainnollisempaa olisi esittää kuvan avulla vaikkapa keskiarvojen erotus luottamusväleineen.

2. ohje: Pidä mielessä, että havaitsemasi luottamusväli tulkitaan vain yhdeksi luottamusväliksi äärettömästä koetoistojen sarjasta! Jos siis teemme paljon kokeita tietystä aiheesta, ja raportoimme luottamusvälit rutiininomaisesti, voimme olettaa, että pitkässä juoksussa CIt tavoittavat tuntemattomat parametrien arvot. Miten sitten kuvata luottamusväliä sanallisesti artikkeleissa? Ehkä jotenkin seuraavasti: “Luottamusväli on joukko uskottavia arvoja tuntemattoman populaatioparametrin arvolle. Luottamusvälin ulkopuolelle jäävät arvot ovat melko epäuskottavia” tai “Aineistomme sopii yhteen sen ajatuksen kanssa, että tuntematon populaatioparametrin arvo on missä tahansa luottamusvälillä, mutta melko huonosti yhteen sen ajatuksen kanssa, että parametrin arvo on luottamusvälin ulkopuolella”.  Toki nämä kuvaukset ovat välttämättä hiukan epämääräisiä – jos keksit paremman, ehdota!

3. ohje: Vielä muutama sana luottamusväleistä parittaisten vertailujen tapauksessa. Kuten sanottua, tässä tilanteessa tarvitaan erotusten keskiarvon luottamusväli, ja siihen liittyvä virhemarginaali riippuu laskennassa käytettävien keskiarvojen välisestä korrelaatioista. Korkea korrelaatio kaventaa erotuksen luottamusväliä, joka lasketaan parittaiset, jossa w-termit ovat luottamusvälien leveyksiä (virhemarginaaleja) tilanteissa A ja B, ja r viittaa Pearsonin korrelaatiokertoimen arvoon mittaustulosten välillä. Kaava osoittaa, että positiivinen korrelaatio johtaa kapeaan luottamusväliin, ja negatiivinen korrelaatio (jos sellainen jossain tapauksessa esiintyisi, mikä on epätodennäköistä) leveään luottamusväliin. Näin ollen korrelaation suuruudesta riippuen erotuksen luottamusväli voi olla melkein mitä tahansa käytännössä nollasta n. tuplasti kummankaan yksittäisen keskiarvon virhemarginaalin leveyteen nähden. Tästä syystä keskiarvojen luottamusvälien piirtäminen itsessään ei auta päätelmien teossa parittaisten vertailujen tapauksessa. Sen sijaan, jos jotain luottamusvälejä halutaan piirtää, niin kahden keskiarvon erotus ja erotuksen luottamusväli on hyvä ehdokas: tällaisesta kuvasta näkee, onko erotuksen arvo nollahypoteesin mukainen (erotuksen arvo “0” luottamusvälillä) vai ei.

Mihin toistomittausasetelman keskiarvojen luottamusvälejä sitten voisi käyttää? Ne kertovat vain between-subjects -eroista, eli esimerkiksi koe- ja kontrolliryhmän eroista jossain tietyssä koetilanteessa. Jos kiinnostuksen kohteena ovat koe- tai kontrolliryhmän sisäiset vertailut, niistä voi olla jopa enemmän haittaa kuin hyötyä.

4. ohje: Luottamusvälien tulkinnassa kannattaa pitää mielessä, että niitä muodostettaessa ei sovelleta minkäänlaista monen vertailun korjausta (kuten Bonferroni-korjaus), joten ne kertovat hiukan erilaista tarinaa kuin korjatut p-arvot.

Tämä luottamusväleistä tältä erää. Huomasitko virheitä tai epätäsmällisyyksiä? Jätä kommentti, korjaan virheet ja arvostan keskustelua aiheesta!

Säännöllisen epäsäännöllisesti ilmestyviä kirjoituksia ihmistieteiden metodiikasta