© Borgis - Farmakoekonomika 3/2004
Sylwia I. Szafraniec1, Izabela E. Sakowska2
Błędy w interpretacji dowodów klinicznych
Biases in the interpretation of evidence
1 Narodowy Instytut Zdrowia Publicznego, Warszawa
2 Państwowy Zakład Higieny, Warszawa
Streszczenie
Celem artykułu jest przedstawienie błędów najczęściej popełnianych przy ocenie wyników badań klinicznych oraz zwrócenie uwagi na pytania, jakie należy sobie postawić, aby określić prawidłowość przeprowadzenia badania. Metody: Przegląd literatury dotyczącej tematu. Wyniki: Błędy mogą powstawać na każdym etapie prowadzenia badania klinicznego: przy doborze rodzaju badania do pytania klinicznego, planowaniu badania, stawianiu hipotezy, zbieraniu danych, wnioskowaniu, jak również po zakończeniu badania podczas oceny jego wiarygodności i przydatności klinicznej. Opisano błąd potwierdzenia, ratunkowy, hipotezy alternatywnej, mechanizmu, orientacji oraz tzw. błąd „czas pokaże”. Wnioski: Istnieje wiele sposobów klasyfikacji, które mają pomóc w ocenie wiarygodności i przydatności klinicznej wyników badań biomedycznych, jednak żaden rodzaj klasyfikacji nie jest w stanie uchronić nas przed popełnieniem błędów, ponieważ żadna z obecnie stosowanych klasyfikacji nie zawiera wszystkich elementów, jakie należy wziąć pod uwagę, oceniając badanie.
Summary
Aim of the study: The aim of the paper was to draw attention to questions which should be asked by the evaluation of clinical trials and to describe the most frequent biases made during evaluation of the evidence. Methods: Review of the appropriate literature. Results: The bias can be made on each step of performing the trial – choosing type of trial for the clinical question that should be answered, planning the trial, putting the hypothesis, collecting data, drawing conclusion, and also after finishing the study while evaluating process. Following biases were described: expectation, rescue, auxiliary hypothesis, mechanism, plausibility and so called "time will tell” bias. Conclusion: There are many hierarchies of evidence which help in evaluation of the evidence; however none of them can protect us from making mistake because none of them cover the whole spectrum of elements that should be taken into consideration.
Polecane
książki z księgarni medycznej BORGIS:
Wstęp
Obecnie istnieje przekonanie, że najbardziej wiarygodną metodą oceny skuteczności klinicznej postępowania diagnostycznego lub leczniczego są randomizowane, kontrolowane badania kliniczne i ich przeglądy systematyczne (1, 2). Aby ułatwić ocenę wiarygodności badań klinicznych opracowano wiele klasyfikacji dowodów pochodzących z tych badań. W tabeli 1 i 2 przedstawiono jedną z takich klasyfikacji polecaną przez Centre for Evidence Based Medicine (3). Takie klasyfikacje mają jednak również wady. Po pierwsze, definicje poziomów różnią się pomiędzy klasyfikacjami tak, że poziom 2 może być różnie rozumiany przez różnych czytelników. Po drugie, nowe lub mieszane plany badań nie są włączane do tych klasyfikacji – jako przykład można podać ponowną analizę indywidualnych danych z kilku badań. Po trzecie, i może najważniejsze, w poszczególnych klasyfikacjach badania mogą być inaczej stopniowane. Może się okazać, że jedno badanie otrzyma różne stopnie zależnie od rodzaju klasyfikacji, a co za tym idzie badania zajmujące się dwiema alternatywnymi interwencjami mogą otrzymać różne stopnie w różnych klasyfikacjach zależnie od zastosowanego sposobu oceny a nie od ich jakości (2).
Tabela 1. Klasyfikacja dowodów z badań klinicznych według Centre for Evidence Based Medicine
| Poziom | Pytanie kliniczne o skuteczność terapii/profilaktykę/ etiologię/działania niepożądane | Analiza ekonomiczna i analiza decyzyjna |
| 1a | Przegląd systematyczny (jednorodne RKB*) | PS? (jednorodne badania ekonomiczne stopnia 1) |
| 1b | RKB z wąskim przedziałem ufności | Analiza na podstawie klinicznie uzasadnionych kosztów lub alternatyw; przegląd systematyczny badań; z wykonaną wielokierunkową analizą wrażliwości |
| 1c | Badanie przeżywalności | Analiza całkowitej większej lub mniejszej wartości |
| 2a | PS (jednorodne badania kohortowe) | PS badań ekonomicznych 2 poziomu |
| 2b | Badanie kohortowe oraz niskiej jakości RKB np. >20% pacjentów utracono z obserwacji | Analiza na podstawie klinicznie uzasadnionych kosztów lub alternatyw; niepełny przegląd badań lub pojedyncze badania; w tym wielokierunkowa analiza wrażliwości |
| 2c | Praktyczne badania kliniczne | Badanie audytowe lub praktyczne badania kliniczne |
| 3a | PS jednorodnych badań kliniczno-kontrolnych | PS jednorodnych badań 3b lub lepszych |
| 3b | Badania kliniczno-kontrolne | Analiza ograniczonych alternatyw lub kosztów, złej jakości szacunki danych, lecz z wykonaną analizą wrażliwości z klinicznie uzasadnionymi zmiennymi |
| 4 | Opisy grupy przypadków oraz złej jakości badania kohortowe i kliniczno-kontrolne | Analiza bez analizy wrażliwości |
| 5 | Opinie ekspertów lub badania przedkliniczne | "Opinie ekspertów lub teoria ekonomiczna |
* RKB – randomizowane i kontrolowane badania kliniczne
? PS – przegląd systematyczny
Tabela 2. Stopnie rekomendacji
| A | Badania poziomu 1 |
| B | Badania poziomu 2 lub 3 lub ekstrapolacje badań poziomu 1 |
| C | Badania poziomu 4 lub ekstrapolacje badań poziomu 2 lub 3 |
| D | Badania poziomu 5 lub niemiarodajne badania każdego poziomu |
Problem stopniowania jest wynikiem sumowania wielu czynników będących wykładnikami jakości (planu badania, sposobu jego przeprowadzenia, wielkości grupy badanej itd.) w jeden stopień w klasyfikacji (4). Dla przykładu, randomizacja jest kluczową cechą metodologiczną w badaniu interwencji, lecz redukcja jakości badania do stopnia odzwierciedlającego prawidłową randomizację nie zawiera innych ważnych czynników jakości randomizowanych badań klinicznych, którymi są np.:
– inne elementy planowania, takie jak walidacja pomiarów i zaślepienie oceny wyników,
– jakość przeprowadzenia badania, w tym utrata pacjentów z obserwacji i sukces zaślepienia terapii,
– bezwzględna i względna wielkość każdego ze stwierdzonych efektów,
– przedziały ufności wokół wartości estymowanych efektów.
Żadna z obecnie stosowanych klasyfikacji dowodów nie zawiera wszystkich tych czynników, i byłoby to prawdopodobnie trudne do uzyskania (4). Co więcej, niektóre czynniki są ważniejsze dla jednych problemów klinicznych, a mniej ważne dla innych. Powodowałoby to potrzebę indywidualnego dostosowywania podejścia do oceny każdego dowodu.
Istnieje wiele wskazówek, jak oceniać badanie pod względem tego, czy było prawidłowo przeprowadzone (5). Podstawowymi pytaniami, na które należy sobie odpowiedzieć, oceniając na przykład badanie zajmujące się skutecznością jakiejś terapii, są: czy pacjenci byli losowo przydzielani do grup leczniczych i czy randomizacja była tajna, czy wszyscy pacjenci włączeni do badania uczestniczyli w nim do jego zakończenia i czy byli analizowani w grupach, do których zostali przydzieleni wskutek randomizacji, czy pacjenci i lekarze nie wiedzieli, jakie leczenie jest stosowane, czy leczenie w obu grupach różniło się tylko lekiem badanym, oraz czy grupy były podobne do siebie przy rozpoczynaniu badania. Również należy zwrócić uwagę na to, czy badanie odpowiadało na jasno postawione pytanie kliniczne, czy było ono zaplanowane tak, aby wykazać wyższość czy równorzędność terapii, czy okres obserwacji był dostateczny, czy mierzone zmienne były odpowiednie do postawionego pytania, jeśli zmienne były zastępcze, to czy były one zwalidowane, czy w badaniu wykryto znamienne statystycznie różnice, czy wielkość badania była znacząca klinicznie i czy przedział zaufania zawierał czy nie zawierał klinicznie znaczących wyników.
Tak więc, stosowanie klasyfikacji stopniujących dowody w zależności od ich jakości pomaga w zwróceniu uwagi, że niektóre rodzaje dowodów są bardziej godne zaufania niż inne. Jednakże uproszczenia konieczne w tworzeniu i stosowaniu klasyfikacji prowadzą również do wielu błędów. W szczególności kryteria utworzone w celu oceny badań dotyczących wyników leczenia zostały bezkrytycznie zastosowane do pytań o etiologię, diagnostykę, częstość występowania choroby, prognozę czy działania niepożądane, podczas gdy w tych przypadkach potrzebne są inne rodzaje badań, a więc i inne ich klasyfikacje (6). Dlatego też, o ile przegląd systematyczny randomizowanych badań jest odpowiedni w celu odpowiedzi na pytania dotyczące głównych efektów leczenia, o tyle niedorzeczne jest usiłowanie użycia go w celu określenia naturalnego przebiegu jakiejś choroby u człowieka, wpływu różnych czynników na ryzyko zachorowania na określone choroby czy też częstości występowania (2). Za pomocą randomizowanych badań można dobrze oszacować efekty leczenia, mają natomiast mniejsze znaczenie jako narzędzie oceny ogólnego rokowania. Natomiast nierandomizowane badania kohortowe z długimi okresami obserwacji są dobrym narzędziem w ocenie rokowanie, a gorszym w przypadku oceny skutków terapii. Tak więc, wybranie złego typu badania w stosunku do pytania, na jakie chcemy odpowiedzieć, jest kolejnym, lecz często niedostrzeganym źródłem błędów (6, 7).
Z małymi wyjątkami żadne badanie, jakiegokolwiek by nie było typu, nie powinno być interpretowane oddzielnie. Przeglądy systematyczne mają odpowiedzieć na postawione pytanie kliniczne na podstawie najlepszych dostępnych typów badań. Typ badań ujętych w przeglądzie systematycznym powinien być, jak już wspomniano wcześniej, odpowiedni do postawionego w przeglądzie pytania.
Chociaż doniesienia o przypadkach są niezbyt dobrym źródłem dowodów, ich rola polega na zwróceniu naszej uwagi na potencjalne rzadkie szkody lub korzyści stosowania określonego leczenia (8). Dlatego też w celu zdobycia miarodajnych dowodów na temat rzadko występujących działań niepożądanych, potrzebujemy raczej systematycznego przeglądu doniesień o przypadkach niż przypadkowego ich wyboru. Badania jakościowe mogą być także włączane do przeglądu systematycznego. W przeglądzie systematycznym nie zawsze konieczne jest przeprowadzanie metaanalizy.
Rodzaje błędów popełnianych przy interpretacji dowodów
Dane nie mówią same za siebie - interpretacja danych niezmiennie jest subiektywna i sama może być przyczyną powstawania błędów (9). Prawidłowa interpretacja danych jest tak samo ważna, jak przeprowadzanie eksperymentów według rygorystycznych zasad. Ten proces oceny nigdy nie jest całkowicie obiektywny lub całkowicie niezależny od przekonań badacza i jego wiadomości teoretycznych (10). Również nie jest jasne, gdzie przebiega podział pomiędzy zapleczem koniecznym do wydawania sądów (teorią i wcześniej zdobytą wiedzą i doświadczeniem) a obiektywizmem naukowym i uwolnieniem się od wcześniejszych przekonań. Nauka wymaga podejścia krytycznego, lecz trudno jest powiedzieć, czy pozwoliłeś sobie na zbyt mało czy zbyt dużo sceptycyzmu. Interakcja pomiędzy danymi i sądami jest zwykle ignorowana, ponieważ nie istnieje obiektywna miara subiektywnego składnika interpretacji. Podziały taksonomiczne błędów (tab. 3) również podkreślają problemy techniczne w tym względzie. Niektóre błędy jednakże mogą zaistnieć mimo najlepszych nawet chęci i to, że interpretacja wyników, mimo zachowania wszelkich reguł, jest błędna uwidacznia się dopiero w retrospekcji.
Tabela 3. Rodzaje błędów interpretacyjnych
| Błąd potwierdzenia | dowody, które popierają wcześniejsze przekonania badacza są wartościowane inaczej niż te, które im zaprzeczają |
| Błąd ratunkowy | dyskredytowanie danych przez wynajdywanie pojedynczych niedociągnięć w eksperymencie |
| Błąd hipotezy pomocniczej | wprowadzanie modyfikacji ad hoc w celu zasugerowania, że niechciany wynik byłby inny gdyby warunki eksperymentu były inne |
| Błąd mechanizmu | bycie mniej sceptycznym, gdy leżąca u podłoża nauka (np. badania biochemiczne i fizjologiczne wyjaśniające mechanizm działania) przemawia za wiarygodnością danych |
| Błąd "czas pokaże" | różni naukowcy potrzebują różnej ilości dowodów potwierdzających wiarygodność wyników, aby zaakceptować je jako godne zaufania |
| Błąd orientacji | testowana hipoteza jako taka zawiera wcześniejsze przekonania badacza i staje się determinantą wyników badania |
Ocena jakości i błędy potwierdzenia
Jakość każdego wyniku eksperymantalnego musi zostać oceniona. Należy określić, czy eksperyment został dobrze przeprowadzony i czy wyniki są dostatecznie rzetelne. Taka skrupulatność w ocenie może być jednak przyczyną występowania tzw. błędu potwierdzenia: badacze mogą oceniać dowody potwierdzające ich wcześniejsze przekonania inaczej niż te, które w sposób widoczny zaprzeczają im (9). Doświadczenie dnia codziennego i badania socjologiczne wskazują, że wyższych standardów oczekuje się od dowodów zaprzeczających początkowym oczekiwaniom. Jako przykład można podać badanie, w którym 398 naukowców współpracujących z szanowanymi czasopismami zostało bez wiedzy o tym losowo podzielonych na dwie grupy w celu oceny fikcyjnego badania zajmującego się terapią otyłości (10). Raporty z badania były identyczne oprócz opisu testowanej interwencji. W pierwszym badaniu interwencją było podawanie niedostatecznie przebadanego, lecz wiarygodnego leku - hydroksycytrynianu, a w drugim było to mało prawdopodobne pod względem skuteczności leczenie (lek homeopatyczny). Oceny jakości były znacząco wyższe dla wersji bardziej prawdopodobnej. Taki błąd jest prawdopodobnie dość częsty.
Błędy oczekiwań, ratunkowe i hipotezy alternatywnej
Wyniki eksperymentów są nieuchronnie oceniane przez pryzmat oczekiwań i rozsądnie jest być podejrzliwym w stosunku do dowodów, które są niezgodne z pozornie dobrze potwierdzonymi regułami. Tak więc nieoczekiwany wynik początkowo rozważa się jako wskazówkę, że eksperyment był źle zaplanowany lub przeprowadzony. Może to doprowadzić do tzw. błędów ratunkowych, w którym to przypadku dane są oceniane jako nieprawidłowe lub słabe poprzez pryzmat znalezionych w eksperymencie pojedynczych mało znaczących uchybień (9). Wcześniej opisywany błąd potwierdzenia jest zwykle niezamierzony, natomiast błąd ratunkowy jest umyślną próbą uniknięcia rozpowszechnienia dowodów, które zaprzeczają oczekiwaniom.
Przykłady błędów ratunkowych są bardzo liczne, można przytoczyć tu historyczną już debatę, którą wywołało badanie Veterans Administration Cooperative z 1977r, w którym zajmowano się skutecznością wszczepiania pomostów aortalno-wieńcowych. Każde stronnictwo znajdowało pojedyncze uchybienia w danych w celu usprawiedliwienia wcześniej istniejącego przekonania, które odzwierciedlało przynależność dyscyplinarną danej osoby (kardiolog lub kardiochirurg), tradycje badawcze i osobiste doświadczenia.
Odmianą błędu ratunkowego jest tzw. błąd hipotezy alternatywnej (9). Zamiast dyskredytować dowody przez znajdowanie uchybień w eksperymencie, stawia się hipotezę alternatywną sugerując, że wprowadzenie różnorodnych modyfikacji warunków eksperymentu spowodowałoby, że jego wynik byłby inny. Ponieważ warunki eksperymentu można łatwo zmieniać na wiele sposobów, taka hipoteza jest bardzo użytecznym i wszechstronnym narzędziem. W randomizowanym, kontrolowanym badaniu klinicznym niechciany wynik można próbować obalić za pomocą argumentów dotyczących dawki terapeutycznej, czasu podawania leku lub sposobu doboru pacjentów do badania. Dla przykładu, gdy pierwsze randomizowane i kontrolowane badania wskazały na brak redukcji ryzyka choroby wieńcowej przez hormonalną terapię zastępczą, jej zwolennicy argumentowali, że jest ona nadal cenna w prewencji pierwotnej, ponieważ grupą badaną były kobiety ze zdiagnozowaną chorobą niedokrwienną serca, co powodowało, że choroba ta była za bardzo zaawansowana, aby mogły one odnieść korzyść ze stosowanej terapii (9).
Błędy prawdopodobieństwa i mechanizmu
Dowody popierające korzystny wpływ jakiejś interwencji są łatwiej akceptowane, jeśli są oparte na znanych podstawach naukowych, ponieważ uważa się, że jest większe prawdopodobieństwo, że taki wynik jest prawidłowy. Ta zrozumiała tendencja bycia mniej sceptycznym w takim przypadku może być przyczyną występowania błędów prawdopodobieństwa i mechanizmu (w przypadku, gdy wyjaśniony wcześniej mechanizm działania badanego związku wskazuje na potencjalnie pozytywne wyniki stosowania tej interwencji u ludzi) (9). Istnieje wiele przykładów błędów tego rodzaju – wczesne negatywne dowody w stosunku do hormonalnej terapii zastępczej na pewno nie byłyby tak uważnie badane gdyby nie to, że wcześniejsze przesłanki z badań laboratoryjnych i epidemiologicznych stworzyły głębokie przeświadczenie, że estrogeny będą miały korzystny wpływ na układ sercowo-naczyniowy.
Oczekiwanie na więcej dowodów
Stwierdzenie, że do pełnej oceny jakiejś teorii jest konieczne więcej dowodów, jest rozsądnym podejściem charakterystycznym dla sceptycyzmu naukowego. Jednakże różni naukowcy wydają się potrzebować różnej liczby potwierdzających dowodów, aby poczuć się usatysfakcjonowanymi. Może być to przyczyną tzw. błędu „czas pokaże” (9) Max Planck opisał ten błąd w cyniczny sposób: „nowa prawda naukowa nie zwycięża przez przekonanie jej oponentów i spowodowanie, że ją dostrzegą, lecz raczej, ponieważ jej oponenci wymierają, a nowa generacja naukowców jest już z nią obeznana”.
Błędy hipotezy i orientacji
Wszystkie wyżej opisane kategorie potencjalnych błędów powstają już po zebraniu danych. Czasami jednak wcześniejsze przekonania mogą mieć wpływ na proces zbierania danych, powodując powstanie błędu orientacji (9). Psychologowie opisują go w ten sposób: „hipoteza badacza jako niezamierzona determinanta wyników eksperymentu”, ponieważ w pewien sposób błędy w planowaniu czy przeprowadzaniu eksperymentu i zbieraniu danych częściej mają tendencję do popierania hipotezy badanej.
Wiele badań wskazuje na to, że randomizowane i kontrolowane badania sponsorowane przez przemysł farmaceutyczny popierają nowe terapie (11, 12) Nie jest jasne, do jakiego stopnia jest to wynikiem błędów publikacyjnych lub planowania badania. Niezależnie od tego, takie wyniki są zgodne z definicją błędów orientacji i wyjaśniają, dlaczego niektóre randomizowane kontrolowane badania kliniczne przeprowadzane przez entuzjastów danej terapii wykazują jej skuteczność, podczas gdy badania późniejsze nie mogą już powtórzyć tego wyniku.
Podsumowanie
Podsumowując można stwierdzić, że nie dysponujemy obecnie dobrą metodą eliminacji subiektywnych przekonań badacza. Każde, nawet najbardziej obiektywne badanie jest odzwierciedleniem przekonań osób prowadzących je. Ze statystycznego punktu widzenia prezentowane błędy są zgodne ze statystyką bayesowską, która formalnie włącza wcześniejsze przekonania badaczy do obliczania prawdopodobieństwa (13, 14). Nawet, jeśli przyjmiemy, że prawdopodobieństwa mierzone w randomizowanych, kontrolowanych badaniach klinicznych czy też innych badaniach naukowych mierzą obiektywnie częstość występowania zdarzeń, a statystyka w nich stosowana nie ma nic wspólnego ze statystyką bayesowską, to błędy opisane powyżej występują, ponieważ cały eksperyment nadal przecież musi zostać oceniony, a osoby oceniające również nie są wolne od wcześniejszych przekonań i mogą popełniać błędy. Dlatego każdy wynik zarówno potwierdzający, jak i zaprzeczający wcześniejszym doniesieniom powinien być traktowany na równi.
Polecane
książki z księgarni medycznej BORGIS:
Piśmiennictwo
1. Davey G., Ebrahim S.S. Data dredging, bias, or confounding; BMJ, Dec 2002; 325: 1437-1438.
2. Glasziou P., Vandenbroucke J., Chalmers I. Assessing the quality of research; BMJ, Jan 2004; 328: 39-41.
3. http://www.cebm.net/levels_of_evidence.asp
4. Juni P., Witschi A., Bloch R., Egger M. The hazards of scoring the quality of clinical trials for meta-analysis; JAMA. 1999 Sep 15;282(11):1054-60.
5. Lohr K.N., Carey T.S. Assessing "best evidence": issues in grading the quality of studies for systematic reviews; Jt Comm J Qual Improv. 1999 Sep;25(9):470-9.
6. Sackett D.L. Wennberg J.E. Choosing the best research design for each question; BMJ, Dec 1997; 315: 1636.
7. Weed L.L., Weed L. Opening the black box of clinical judgmentan overview, BMJ, Nov 1999; 319:1279.
8. McKee M., Britton A., Black N., McPherson K., Sanderson C., Bain C. Methods in health services research: Interpreting the evidence: choosing between randomised and non-randomised studies; BMJ, Jul 1999; 319: 312-315.
9. Kaptchuk T.J. Effect of interpretive bias on research evidence; BMJ, Jun 2003; 326: 1453-1455.
10. Resch K.I., Ernst E., Garrow J. A randomized controlled study of reviewer bias against an unconventional therapy; J R Soc Med. 2000 Apr;93(4):164-7.
11. Als-Nielsen B., Chen W., Gluud C., Kjaergard L.L. Association of funding and conclusions in randomized drug trials: a reflection of treatment effect or adverse events? JAMA. 2003 Aug 20;290(7):921-8.
12. McPherson K., Britton A. Preferences and understanding their effects on health. Qual Health Care. 2001 Sep;10 Suppl 1:i61-6.
13. Freedman L. Bayesian statistical methods; BMJ, Sep 1996; 313: 569-570.
14. Crouch R.A., Bayesian Methods and Ethics in a Clinical Trial Design, by Ed Joseph B Kadane. BMJ, Apr 1997; 314: 1209a.Tabela 3. Rodzaje błędów interpretacyjnych.

Pozostałe artykuły z numeru 3/2004: