Informasjon

Randomiserte, kontrollerte studier - en gullstandard

Randomiserte kontollerte studier er den beste metoden for å finne ut om en bestemt type behandling virker.

Behandlingsstudier

Når vi blir syke, og sykdommen ikke går over av seg selv, trenger vi aktiv behandling. Slik behandling kan være informasjon, kostråd, fysioterapi, et medikament eller andre tiltak. Men hvordan vet vi at behandlingen virker, og at den behandlingen vi får, er den beste?

Den medisinske forskningen har utviklet metoder til å bedømme om en bestemt behandling virker, og om den er bedre enn annen behandling. Gullstandarden, den beste metoden, for slik forskning er en randomisert, kontrollert studie - på engelsk heter det randomized controlled trial, forkortet RCT. En annen betegnelse du kan støte på, er kvalitetsstudie. En korrekt planlagt og gjennomført RCT kalles en kvalitetsstudie.

Hva er en randomisert, kontrollert studie?

Hovedkravene til et randomisert, kontrollert forsøk er at studien er - ja nettopp - randomisert og kontrollert.

En behandlingsstudie innebærer at den nye behandlingen som vi ønsker å vite mer om, blir sammenlignet med en annen behandling, en kontrollbehandling. En slik kontrollbehandling kan være narremedisin, placebo, eller det kan være en anerkjent behandling som brukes mye. En kontrollert studie betyr derfor at den nye behandlingen blir sammenlignet med en kontrollbehandling. En slik sammenligning er avgjørende for å kunne si om den nye behandlingen er bedre, like bra eller dårligere enn kontrollbehandlingen.

Fordelingen av pasienter til de to behandlingsgruppene - den gruppen som får den nye behandlingen, og den gruppen som får kontrollbehandlingen - må skje på en slik måte at de to gruppene er mest mulig like før behandlingsforsøket starter. Det betyr at de to gruppene bør være noenlunde likt sammensatte når det gjelder slike forhold som alder, kjønn, arbeid, sykdomskarakteristika, risikofaktorer og alle tenkelige og ukjente faktorer som kan påvirke resultatet i forsøket. Hvis for eksempel den ene gruppen er klart eldre enn den andre, så kan det føre til at resultatet i de to gruppene blir forskjellig - bare på grunn av forskjell i alder. Hvis den ene gruppen er sykere enn den andre før behandlingen starter, så er det økt sjanse for at denne gruppen også er dårligere etter gjennomført behandling.

Randomisering betyr at utvelgelsen av pasienter til de to behandlingsgruppene skjer på en tilfeldig måte, og at utvelgelsen ikke er bestemt ut fra egenskaper hos pasienten. Randomisering er en form for loddtrekning. Vi oppnår at de to behandlingsgruppene blir så like som mulig, gruppene er i gjennomsnitt sammensatt av personer med omtrent de samme egenskapene. Og når behandlingsgruppene er like før behandlingen starter, så betyr det at resultatet når forsøket er over, utelukkende kan tilskrives egenskaper ved de to behandlingene. Er den ene behandlingen bedre enn den andre, så betyr det at den faktisk er bedre.

Andre viktige krav til kvalitetsstudier

Blinding.

Dersom du før forsøket starter, får vite at du får den nye behandlingen, er det høy sannsynlighet for at det skaper en forventning hos deg om at behandlingen vil hjelpe. Motsatt, dersom du før forsøket starter, får vite at du får narremedisin eller en "gammel" behandling, så kan det påvirke deg negativt. For å unngå denne forutinntattheten gjennomføres behandlingsstudier om mulig som "blindete" studier. Vanligvis gjelder dette behandlingsstudier med medikamenter, for eksempel med tabletter. De to tablettypene gjøres så like som mulig i form, farge, smak, konsistens - slik at det ikke er mulig for deg som forsøksperson å kunne merke forskjell. Også legen som inviterer deg inn i forsøket, må være blindet med hensyn til hvilken behandling du får - ellers kan legen i verste fall trikse det til slik at han eller hun velger ut hvem som skal få den nye medisinen, og da blir resultatet også feil. Kravet er derfor at studien skal være "dobbelt-blind". Verken du som pasient eller legen skal på forhånd vite hvilken behandling du får. Det blir først klart når studien er avsluttet.

Ikke alle studier lar seg blinde. Et eksempel på det kan være en sammenligning av fysisk trening med ikke-fysisk trening.

Frafall.

En utfordring for forskerne er å sikre at flest mulig, helst alle, forsøkspersonene gjennomfører studien og kommer tilbake til kontroll når forsøket er over. Likevel vet vi at det nesten alltid er et visst frafall av forsøkspersoner i løpet av studien. Hvis dette frafallet er stort, eller skjevt, kan det påvirke resultatet av studien. Som regel vet ikke forskerne hvorfor forsøkspersoner trekker seg fra forsøket underveis. Det kan for eksempel være at de ble så bra, at de ikke bryr seg om å komme til kontroll. Det kan også være at de er så misfornøyde med behandlingen, at de trekker seg fra forsøket.

Hvis frafallet er skjevt i de to gruppene som sammenlignes, kan det i noen tilfeller være hele forklaringen på resultatet i forsøket. La oss tenke oss at de fleste av dem som uteblir fra kontrollen, er blitt bedre og tilhørte gruppen som fikk den nye medisinen. Da vil det trekke ned effekten av den nye behandlingen, vi underdriver effekten. Motsatt, dersom de fleste som uteblir fra kontrollen, gjør det fordi de ble dårligere og de fleste var i gruppen som fikk den nye medisinen, så vil det kunne gi som resultat at studien viste at den nye behandlingen var effektiv, vi overdriver effekten, fordi de med dårlig effekt ikke teller med.

For å motvirke slike uheldige påvirkninger av resultatet i studiene, er det en utfordring for forskerne å ha et opplegg som gjør at færrest mulig trekker seg fra studien, og at forskerne i best mulig grad skal kunne redegjøre for frafallet, for eksempel ved å få rede på hvorfor en forsøksperson trakk seg. I tillegg kan forskerne ved hjelp av statistiske metoder vurdere i hvilken grad frafall av pasienter har påvirket resultatet, samt at de kan gjøre analyser som forteller om i "beste fall scenarium" (alle frafalte ble bedre) eller i "verste fall scenarium" (alle frafalte ble verre) påvirker sluttresultatet av studien.

Blindete målinger.

En annen mulig feilkilde i en studie er målinger. Det vil si når vi skal måle om en forsøksperson er blitt bedre, uendret eller dårligere. Noen av disse målingene utføres av testpersonell. Hvis testpersonellet vet hvilken behandling du har fått, så kan de bevisst eller ubevisst påvirke målingene i den retningen de vil. Og siden det er målingene som er grunnlaget for å avgjøre om den nye behandlingen er bedre enn kontrollbehandlingen, så kan en slik situasjon påvirke hele resultatet av studien. Derfor må også testpersonellet være blindet med hensyn til hvilken behandling den enkelte forsøksperson har mottatt.

Begge behandlingsgruppene ble håndtert likt.

Det er avgjørende at oppfølgingen av de to behandlingsgruppene er lik. Det må ikke være slik at den ene gruppen blir fulgt opp bedre, får mer oppmerksomhet, enn den andre gruppen. En eventuell forskjell i oppfølgingen av de to gruppene kan også påvirke resultatet. Prinsippet er at den eneste forskjellen på de to gruppene, skal være forskjellen som ligger i de ulike behandlingene - den nye behandlingen og kontrollbehandlingen. Alle andre forskjeller kan påvirke sluttresultatet.

Hvor store er forskjellene?

For å avgjøre forskjellen i effekt mellom de to behandlingene brukes statistiske metoder. Resultatene fra de to gruppene sammenlignes. Vanligvis er det gjennomsnittsforskjellen forskerne ser på. En eventuell forskjell bedømmes i de statistiske analysene. Dersom forskjellen er markant i favør av den ene behandlingen, sier forskerne at det er en statistisk signifikant forskjell. Forskjellen er da såvidt stor at en kan forkaste muligheten for at resultatet har oppstått ved ren slump. Det foreligger en reell forskjell i effekt. Dette oppgis noen ganger med såkalte p-verdier og andre ganger - eller samtidig - med konfidensintervall.

P-verdien forteller oss sannsynligheten for å oppnå en forskjell i resultat ved ren slump. Hvis f.eks. p-verdien er lavere enn fem prosent, vil det si at det er mindre enn fem prosent sjanse for å oppnå dette resultatet ved ren slump, og forskerne sier da at den ene behandlingen er statistisk signifikant bedre enn den andre behandlingen.

Konfidensintervall er en annen måte å presentere resultatene på. Da beregnes forskjellen mellom de to behandlingen slik at det kalkuleres en gjennomsnittsverdi (et estimat, for eksempel en risikoreduksjon på 1,5). Rundt denne verdien ligger et område som betegnes konfidensintervallet (f.eks. fra 1,2 til 1,7). Dette intervallet beskriver hvor den sannsynlige forskjellen ligger, gitt at vi gjentar forsøket mange ganger. Vanligvis oppgis 95 prosent-konfidensintervallet. Da betyr dette intervallet fra 1,2 til 1,7 at resultatet fra studien vil ligge mellom disse to verdiene i 95 prosent av tilfellene hvis studien gjentas mange ganger. Fordelen med konfidensintervallet er at det gir oss ekstra informasjon i forhold til en p-verdi. Konfidensintervallet sier oss hvor sikkert resultatet er. Hvis konfidensintervallet er vidt, så betyr det at resultatet er usikkert. Hvis konfidensintervallet er smalt, betyr det at vi har et presist og sikkert resultat.

Hvem gjelder resultatet fra studien for?

Når en lege skal bedømme om resultatene fra en behandlingsstudie har gyldighet for de pasientene han eller hun behandler, granskes studiens inklusjons- og eksklusjonskriterier. Hvem deltok i studien? Inklusjonskriteriene beskriver hvem som ble invitert med i studien - for eksempel krav til alder, kjønn, sosial status, symptomer, tegn etc.. Eksklusjonskriteriene beskriver hvem som ikke fikk bli med i studien - for eksempel på grunn av annen sykdom, høy alder, uførhet etc. Ved å sammenholde disse opplysningene kan legen - eller du selv - avgjøre om resultatene har gyldighet for deg, om du ligner på de pasientene som deltok i studien.

En annen vurdering som forskerne, og eventuelt legen din, må gjøre, er å ta stilling til om en eventuell ny behandling som i forsøket har vist seg effektiv - det vil si bedre enn kontrollbehandlingen - er verd kostnadene. Det kan være prisen i kroner og øre på det nye preparatet. Gjennomgående koster jo nye medisiner langt mer enn gamle medisiner, og det kan godt være at prisen er så høy at det ikke gjenspeiler hvor mye bedre det nye preparatet er. Det kan også tenkes at den nye behandlingen har bivirkninger som er av en slik art eller omfang, at det ikke rettferdiggjør å ta i bruk den nye behandlingen.

Ikke alle behandlingsstudier er kvalitetsstudier

Som det fremgår av ovenstående, er det mange fallgruver når vi skal vurdere effekten av en ny behandling. Behandlingsstudier som ikke oppfyller kravene til et randomisert, kontrollert forsøk, har i våre dager liten troverdighet og blir vanligvis forkastet når vi skal ta stilling til om en behandling kan anbefales eller ikke.

Vil du vite mer?