Deprecated: Function set_magic_quotes_runtime() is deprecated in /hsphere/local/home/ohlssonwtf/ortopedisktmagasin.se/textpattern/lib/txplib_db.php on line 14 Ortopediskt magasin: De statistiska misstagens 10 i topp

De statistiska misstagens 10 i topp

Jag har som statistiker alltid funnit det givande att granska ortopediska vetenskapliga manuskript, oavsett om manuskripten varit bra eller dåliga. Att påvisa metodologiska brister är utvecklande för en statistikkonsult.

Utan att ha gjort någon kvantitativ utvärdering vill jag här ändå presentera en 10-i-topp-lista på de vanligaste misstag jag stött på under 16 år som statistikkonsult för Acta Orthopaedica. Listan är inte komplett och ska inte ses som betygssättning på ortopedisk forskning. Syftet är att locka fram metodikdiskussioner, stimulera till nytänkade, förbättra kvaliteten på forskningsrapporter och därmed öka chanserna för publicering.

Tio felaktiga påståenden

1. En skillnad som är statistiskt signifikant är alltid viktig?
I många manuskript anges resultat alltid med p-värde, t.ex. “skillnaden mellan mäns och kvinnors kroppsvikt var statistiskt signifikant (p = 0,001)”. Det är en vanlig missuppfattning att ju lägre p-värdet är desto större är skillnaden. P-värdet är emellertid aldrig ett mått på storleken av biologisk effekt eller klinisk relevans (som skillnaden i kg skulle varit), utan ett mått på osäkerheten vid generalisering av resultat, d.v.s. hur stor risken är att skillnaden i den studerade populationen beror på slumpen. Att enbart ange p-värde är därför otillräckligt.??Resultatet av en hypotesprövning, p-värdet, är dessutom bara meningsfullt om den prövade hypotesen är meningsfull. Alla hypoteser som prövas är definitivt inte meningsfulla. Ett exempel: I en studie av reproducerbarheten hos ett nyutvecklat mätinstrument undersöks samma patienter med instrumentet vid två olika tillfällen. För att värdera instrumentets reliabilitet beräknas en intraklasskorrelationskoefficient (ICC) mellan de två mätserierna. Så långt är allt väl. I manuskriptet presenterande undersökningen redovisas emellertid resultatet med ett p-värde, p =0,004. Är detta meningsfullt?
Nej, inte om hypotesen som prövats är standardnollhypotesen, att korrelations-koeffi-cienten är 0. Då testas det ju om instrumentet är totalt värdelöst (d.v.s. om ICC=0). Vilken information ger det? Med tillräcklig stor stickprovsstorlek kan man visa att inte ens ett riktigt dåligt instrument är totalt värdelöst.??Ett rimligare alternativ att redovisa resultatet är att ange ICC med ett 95% konfidens-intevall beskrivande osäkerheten i skattningen, exempelvis som ICC = 0,79 (0,63 – 0,94).?

2. En skillnad som inte är statistiskt signifikant finns egentligen inte.?
I många manus redovisas att det observerats skillnader mellan olika grupper men dessa skillnader försvinner sedan helt plötsligt. Exempel: För två grupper av medelålders män redovisas i en tabell den genomsnittligt kroppsvikten, 82 kg respektive 85 kg, vilket inte var statistiskt signifikant i denna studie. I texten anger författarna emellertid att de inte fann någon skillnad i vikt, fastän läsaren själv kan konstatera att skillnaden är 3 kg.

Skilj på beskrivning och tolkning
Det är viktigt att skilja mellan beskrivning och tolkning av observerade data. Författarna observerar en viktskillnad, vilket redovisas i tabellen. Huruvida skillnaden är statistiskt signifikant eller inte påverkar naturligtvis inte den gjorda observationen. Om skillnaden är statistiskt insignifikant innebär det enbart att en förklaring kan vara det slumpmässiga urvalet av patienter som inkluderats i studien men det behöver inte vara så. Det innebär inte att man kan bortse från vikt som en viktig faktor i sammanhanget. Statistisk insignifikans innebär absence of evidence men inte evidence of absence. ??Redovisning av vilka potentiella skillnader som kan finnas mellan två grupper görs bäst med ett 95% konfidensintervall, som i exemplet ovan vikt i kg = 3 (0 – 6).

3. Det är viktigt att signifikanstesta alla tänkbara skillnader
En del författare förefaller vara mycket noga med att signifikanstesta allt som går att signifikanstesta. Som vi redan konstaterat finns det anledning att tänka sig för innan man testar. Multiplicitetsproblem är ytterligare skäl för detta. ??Varje signifikanstest som utförs på 5% signifikansnivå har nämligen 5% chans att ge ett falskt positivt resultat, när nollhypotesen är korrekt. Ju fler tester som görs desto större blir risken att åtminstone ett falskt positivt resultat genereras. Signifikansnivån, skyddet mot falska positiva resultat, urholkas alltså.En förnuftig analys av data baseras därför både på att det bakom varje signifikans-testning finns en genomtänkt hypotes och en genomtänkt strategi för hantering av multiplicitetsproblem och strategin bör redovisas i manuskriptet. Ohämmad testning ingår knappast i en sådan strategi.

Att följa Bonferroni
4. Bonferronikorrektion ska alltid göras vid signifikanstest av mer än två grupper.
En vanlig strategi för hantering av multiplicitetsproblem är att korrigera signifikans-nivån för antalet tester som utförts. Flera metoder finns att tillgå men den mest kända är uppkallad efter den italienske sannolikhetsteoretikern Carlo Emilio Bonferroni. Metoden kan enkelt beskrivas med att signifikansnivån sänks, för att kompensera för ökande risk av falskt positiva resultat, genom att divideras med antalet signifikans-tester. Med 5 tester ska en 5% signifikansnivå alltså sänkas till 1% för att kompensera för multipliciteten.??Det finns emellertid flera problem med en sådan korrektion. Den leder till en onödigt konservativ test och den statistiska styrkan, testets förmåga att detektera en sann skillnad, reduceras när signifikansnivån sänks. För ett kliniskt experiment med etikkrav på statistisk styrka bör således patientantalet ökas i motsvarande mån, vilket i sin tur ökar kostnaderna för studien.??Det är därför ofta förnuftigt att utforma en multiplicitetsstrategi som minimerar behovet av p-värdeskorrektion. Ett vanligt sätt är att begränsa antalet analyser som görs för att med väldefinierad felsannolikhet pröva en prespecifierad hypotes och i resultatredovisningen tydligt skilja mellan sådana (konfirmativa) re-sultat och andra (explorativa) som enbart syf-tar till att generera nya hypoteser. Det veten-skapliga värdet av resultattyperna är mycket olika.

5. Det är framförallt viktigt att testa skillnader som ser ut att vara statistiskt signifikanta.
Att välja ut vissa observationer, som ser ut att kunna vara statistiskt signifikanta, är ingen god idé. Statistisk hypotesprövning förutsätter nämligen att hypotesen for-muleras först och att data observeras därefter.
Att söka upp och testa extremvärden har en hel del gemensamt med att ignorera croupiens rien ne va plus och försöka satsa på det nummer roulettekulan redan stannat på. I Monte Carlo strandar sådana försök omedelbart.
Det är lätt att vilseleda redaktörer, reviewers och läsare genom att påstå att hypotesen formulerades först. Ofta behöver det inte ens påstås, det tas för givet. Till skillnad från kliniska prövningar, där hypoteserna anges i studieprotokoll eller analysplaner före randomisering av patienter, går uppgifterna knappast heller att kontrollera i retro-spektiva studier.
Det är naturligtvis inte oredligt att generera hypoteser till funna statistiskt signifikanta skillnader så länge det redovisas klart och tydligt. Det vetenskapliga värdet av sådant fiskafänge är dock tveksamt, oftast otillräckligt för publicering.

Patienten ovidkommande
6. Patienten är ovidkommande vid signifikanstestning av höfter, knän, etc.
När samma patient bidrar med två eller flera observationer, vilket inte är ovanligt inom ortopedisk forskning (en patient har t.ex. 28 fingerleder), föreligger ett beroende-förhållande mellan dessa.
Signifikanstestning med t-test, chitvå-test, etc. ger inte tillförlitliga resultat med sådana data eftersom testerna, i likhet med de flesta andra konventionella testmetoder, baseras på ett antagande om oberoende mellan observationer. Konsekvensen av att felaktigt analysera beroende data som oberoende är dels att det egentliga antalet oberoende observationer överskattas och dels att mellan-individ-varians kontamineras med inom-individ-varians. Eftersom den senare ofta är mindre än den förra kan kontaminationen förväntas innebära att mellan-individ-variansen underskattas. Båda fenomenen leder till att den statistiska precisionen överskattas: konfidensintervall blir för snäva och p-värden för låga.??Det finns dock flera moderna metoder, t.ex. mixed models, som mycket väl kan användas för analys av just beroende observationer.
Dessa kräver dock att beroende-förhållander mellan observationerna definieras. Patienten blir därigenom en viktig komponent i den statistiska analysen.

7. Syftet med randomisering av patienter är att få likhet mellan grupper.
Kliniska prövningar inleds ofta med ett slumpmässigt fördelning av patienter till olika behandlingsgrupper, randomisering. Det är en vanlig missuppfattning att syftet med randomiseringen är att få likhet mellan grupperna. Det verkliga syftet är att förhindra systematisk, inte slumpmässig, obalans mellan grupperna. Uteslutandet av systematisk obalans är nämligen fundamental för noll-hypotesen.

Stratifierad randomisering
Om det är viktigt att undvika även slumpmässig obalans i fördelningen av vissa prognostiska faktorer, som t. ex. kön, måste balansen garanteras på annat sätt än genom randomiseringen. En möjlighet är att använda stratifierad randomisering, d.v.s. att man har två olika randomiseringslistor, en för män och en annan för kvinnor. Om randomiseringen stratifierats bör den statistiska analysen också ta hänsyn till detta. Kön skulle t. ex. kunna inkluderas som en kovariat i den statistiska analysen.?

8. Signifikanstesting av randomiserade grupper visar om randomiseringen lyckats.
Om randomisering verkligen genomförts kan det alltså enbart finnas slumpmässig obalans mellan de randomiserade grupperna. Detta är den stora fördelen med randomisering: all systematisk obalans elimineras, både beträffande kända och okända prognostiska faktorer.?
Signifikanstestning av de randomiserade gruppernas egenskaper vid baseline (omedelbart efter randomiseringen) används ofta för att undersöka om randomiseringen “lyckats”.
Obalans i baselinefaktorer kan naturligtvis ge problem vid tolkning av resultatet (se punkt 7) men hypotesttestning av slumpmässig obalans är inte meningsfull eftersom den nollhypotes som prövas är sann vid randomisering. Eventuella statistiskt signifikanta skillnader avspeglar då enbart slumpeffekter utan relevans för bedömning av obalansens konsekvenser.
Det kan vara viktigt att också påpeka att en misslyckad randomisering skulle rasera prövningsresultatens värde. Detta skulle t.ex. kunna inträffa i en studie med randomisering baserad på huruvida patientens födelsedag var udda eller jämn. Det förutsebara randomiseringsresultatet skulle ge utrymme för subjektiv inbjudan till studien, vilket kan leda till systematiska gruppskillnader. Misslyckad randomisering kan inte repareras i efterhand.

9. I observationella studier är det alltid viktigt att matcha patientgrupperna.
Ett vanligt misstag i observationella studier rör begreppet matchning. Innebörden av denna term är att urvalet av kontroller i fall-kontroll-studier (vid retrospektiv jämförelse av fall och kontroller), eller referenter i kohortstudier (vid prospektiv jämförelse av indexpersoner och referenter), inte är slumpmässigt utan betingas på egenskaper hos fallen respektive indexpersonerna. Syftet är att förhindra obalans av de faktorer man matchat på och därigenom undvika confounding bias. Argumentet att matchning ökar den statistiska styrkan framförs ibland också.

Flera nackdelar med matchning
Det finns flera nackdelar med matchning: För det första innebär matchning att resultatens externa validitet, deras representerbarhet, minskar. De friska kontrollerna i en matchad fall-kontrollstudie är ju inte längre representativa för befolkningens friska del eftersom urvalet gjorts utifrån fallens egenskaper. I fall-kontroll-studier innebär detta också selektionsbias (bristande intern validitet). I kohortstudier påverkas inte den interna validiteten men den statistiska styrkan kan försämras med matchning.
För det andra går det i fall-kontroll-studier inte att utvärdera effekter av de faktorer som utgjort matchningskriterier. Deras fördelning har ju bestämts i studiedesignen och reflekterar inte samband mellan exponering och effekt. I studie av höftfrakturrisk, där varje ofrakturerad kontroll matchats med avseende på kön till en frakturpatient, finns t. ex. ingen möjlighet att utvärdera hur kön påverkar frakturrisken. Om studien varit omatchad hade en överrepresentation av kvinnor bland fallen istället indikerat att kvinnor har högre risk än män att drabbas av fraktur.
För det tredje innebär matchning att fall och kontroller, respektive indexpersoner och referenter, blir lika varanda, ju fler matchningskriterier desto större likhet. Det finns därmed risk för övermatchning, d.v.s. att man inte bara matchar bort confounding-effekter utan också de effekter man vill undersöka.
För det fjärde kräver matchningen särskild statistisk analys, t. ex. genom att använda parvist t-test (av matchade fall och kontroller) i stället för Student’s t-test (som utgår från att fall och kontroller är två oberoende grupper). 
I många fall är det alltså bättre att jämföra omatchade grupper av fall och kontroller, res-pektive indexpersoner och referenter, med hjälp av statistiska modeller. Olika former av multipel regression fyller här en viktig uppgift, dock inte s.k. stepwise regression, eftersom denna metod bygger på automatisk selektion av kovariater utifrån deras p-värde. Detta är inte   meningsfullt eftersom justering av confoundingeffekter är ett intellektuellt arbete som måste utgå från klinisk kunskap, inte från statistisk signifikans.

10. Signifikanstestning av matchningsvariabler visar om matchningen lyckats.
Att med signifikanstestning undersöka om matchning lyckats är lika meningsfullt som att med signifikanstestning undersöka om randomisering lyckats.
Förklaringen är snarlik: Obalansen avspeglar ofullkomlighet i studiedesign och datainsamling som mycket väl kan ha negativ inverkan på resultatens validitet. Huruvida obalansen är statistiskt signifikant eller inte saknar däremot betydelse.
Här slutar 10 i topp-listan. För den som söker information om medicinsk statistik kan British Medical Journals metodartiklar vara intressant att studera närmare.

Jonas Ranstam
PhD, biostatistiker och Actas rådgivare

SÖK

Sök bland publicerade artiklar