© Borgis - Farmakoekonomika 2/2002
Ewa Orlewska
Rola i wartość modelowania w ocenie ekonomicznej programów zdrowotnych
The role and value of modelling in health economic evaluation
Instytut Leków, Warszawa
Dyrektor Instytutu: prof. dr hab. med. Waleria Hryniewicz
Streszczenie
Artykuł przedstawia obecną i przyszła rolę oraz wartość modelowania w ocenie ekonomicznej programów zdrowotnych. Celem artykułu jest przedstawienie koncepcji „wiarygodności” i „jakości” modeli decyzyjnych oraz zaproponowanie sposobu oceny jakości modeli zarówno ze strony autorów, jak i ze strony recenzentów oraz osób korzystających z pomocy modeli w procesie podejmowania decyzji medycznych. Poddano również dyskusji problem uznania modelowania za aktywność naukową i przedstawiono argumenty potwierdzające powyższa tezę.
Summary
The article itemises the current and developing roles of modelling in health economic evaluation and discusses its value in each role. The aim of this paper is to consider the concept of "validity” and "quality” of decision analytic modelling and to suggest a framework by which quality can be demonstrated on the part of the analyst and assessed by the reviewer and user. The issue of whether models can be defined as „scientifis” is considered.
Polecane
książki z księgarni medycznej BORGIS:
Modelowanie zastępuje rzeczywisty świat serią liczb i matematycznych oraz statystycznych zależności. W XX wieku metoda ta znalazła uniwersalne zastosowanie, od fizyki atomowej i prognozowania pogody do strategii wojskowej i międzynarodowego biznesu. Metody modelowania matematycznego mają też od dawna pierwszorzędne znaczenie w medycynie, m.in. w farmakokinetyce i epidemiologii. Wraz z rozwojem ekonomiki zdrowia nastąpił również wzrost zastosowania modelowania w ocenie ekonomicznej programów zdrowotnych. Technicznie modelowanie obejmuje sformalizowane formy takie, jak: drzewo decyzyjne, model Markowa, symulacja zdarzeń dyskretnych, dynamika systemowa. W praktyce modele różnią się stopniem skomplikowania i wymaganiami inwestycyjnymi. Wybór modelu zależy od typu choroby oraz dostępnych danych.
Modelowanie czy badanie?
Ocena programów zdrowotnych składa się z dwóch faz:
1) gromadzenia informacji - z randomizowanych, kontrolowanych badań klinicznych, badań obserwacyjnych, badań kliniczno-kontrolnych, itd.
2) przetwarzania danych - w celu przedstawienia danego programu w warunkach interesujących podejmującego decyzję, które to warunki najczęściej różnią się od warunków istniejących w badaniu. W tej właśnie fazie modelowanie ma największe zastosowanie.
Dyskusja na temat roli modelowania często przebiega pomiędzy dwiema kulturami: badaczy biomedycznych i ekonomików zdrowia i przyjmuje zazwyczaj dwubiegunową perspektywę: badanie versus modelowanie. Badacze biomedyczni są zwolennikami danych eksperymentalnych i testowania hipotez. Natomiast ekonomicy zdrowia mają inne podejście do wspomagania procesu podejmowania decyzji medycznych. Uznają oni konieczność wykorzystania różnego typu modeli analitycznych w celu wzbogacenia i rozszerzenia wyników badań eksperymentalnych, jeśli są one dostępne, oraz znajdowania substytutów dla badań eksperymentalnych, gdy wyniki badań eksperymentalnych są niedostępne.
Zalety randomizowanych, kontrolowanych badań klinicznych są dobrze znane. Szczególne znaczenie ma to, że metodologia taka gwarantuje przypisanie wyniku wyłącznie do interwencji, dzięki wykluczeniu potencjalnych czynników zakłócających, jak np. dobór pacjentów, efekt placebo, itp. Randomizowane, kontrolowane badania kliniczne spełniają kryteria najlepszego dowodu naukowego: powtarzalności, weryfikacji i falsyfikacji. Metody statystyczne umożliwiają ponadto ocenę niepewności wyniku. Istnieje jednak wiele czynników uniemożliwiających bezpośrednie wykorzystanie dowodów z randomizowanych kontrolowanych badań klinicznych w polityce zdrowotnej (1), m.in.:
wybór terapii do porównania,
zależne od protokołu koszty i wyniki,
„sztucznie” wytworzone środowisko,
wyniki pośrednie zamiast końcowych
nieodpowiedni okres obserwacji (zbyt krótki),
dobór populacji chorych i świadczeniodawców.
W większości badań przeprowadzanych w celu wykazania skuteczności danej interwencji (leku) i przedstawianych w dokumentach rejestracyjnych, kontrolę stanowi placebo. Modelowanie jest więc jedynym sposobem zastosowania odpowiedniej, czyli istniejącej w rzeczywistej praktyce klinicznej, alternatywy do porównania.
Przeprowadzanie badania według ściśle określonego protokołu powoduje, że zarówno koszty, jak i wyniki mogą nie odpowiadać rzeczywistej praktyce medycznej. W idealnych warunkach badania klinicznego istotnie wyższy jest stopień zdyscyplinowania chorych, zwiększona dokładność monitorowania bezpieczeństwa oraz lepsza ogólna opieka medyczna. W badaniach klinicznych używa się raczej pośrednich, a nie końcowych wyników, a horyzont czasowy jest zbyt krótki, aby uchwycić wszystkie przypadki wycofania się z badania, niepowodzenia czy odległe w czasie skutki niepożądane. Niekorzystna dla interpretacji wyników jest również selekcja zarówno chorych, jak i świadczeniodawców (specjaliści kliniczni mają zazwyczaj większe doświadczenie w diagnostyce i leczeniu).
Z drugiej strony przykłady z literatury naukowej dostarczają również argumentów przestrzegających przed bezkrytycznym zawierzaniem modelowaniu (2, 3). Szczególne obawy budzi kojarzenie dowodów pochodzących z niekompatybilnych badań, ekstrapolowanie odległych w czasie wyników oraz wybiórcze przeprowadzanie analizy wrażliwości. Otwarta jest również debata na temat czy i kiedy powinny być zlecane duże badania pragmatyczne, a kiedy w podejmowaniu decyzji wystarczają wyniki badań modelowych. Aby zdecydować kiedy i gdzie inwestować w takie badania należy spróbować dokonać przeglądu, a następnie syntezy dostępnych dowodów i zidentyfikować brakujące elementy oraz zrozumieć ich znaczenie. Mówiąc innymi słowami, potrzebny jest model. A więc bez względu na to, czy przeprowadzimy badanie pragmatyczne, czy nie, zawsze najpierw posługujemy się modelowaniem.
Rola modelowania w ocenie ekonomicznej programów zdrowotnych
Rola modelowania w ocenie ekonomicznej programów zdrowotnych może być przedstawiona w następujących punktach:
1) rozszerzenie wyników z pojedynczego badania,
2) kojarzenie dowodów pochodzących z wielu źródeł w celu udzielenia odpowiedzi na pytania zadawane przez podejmujących decyzje medyczne,
3) uogólnianie wyników z jednego kontekstu do innego,
4) określenie problemu badawczego i zaprojektowanie badania,
5) ujawnienie niepewności w dostępnych dowodach naukowych.
Rozszerzenie wyników z pojedynczego badania
Rozszerzenie wyników z pojedynczego badania obejmuje ekstrapolację wyników badania do wyników bardziej odległych w czasie oraz ekstrapolację kosztów poza horyzont czasowy badania. Pierwsza z wymienionych ekstrapolacji związana jest najczęściej z transponowaniem skuteczności klinicznej, mierzonej w badaniu przy pomocy specyficznej dla danej choroby skali, w końcowe wyniki używane w ocenie ekonomicznej (np. zyskane lata życia,
QALYs). Takie postępowanie jest oczywiście prawidłowe tylko wtedy, gdy zależność pomiędzy wynikami pośrednimi i końcowymi jest znana i udokumentowana. W takich przypadkach modelowanie, dzięki któremu można kalkulować oczekiwane przeżycie w każdym kolejnym roku, bardzo pomaga w podejmowaniu decyzji oraz w projektowaniu przyszłych badań.
Kojarzenie dowodów pochodzących z wielu źródeł
Bardzo często zdarza się, że dowody, które mogą być użyteczne w podejmowaniu decyzji medycznych pochodzą z różnych badań. W kojarzeniu tych danych tkwi zarówno największa moc modelowanie, jak i największe niebezpieczeństwo popełnienia błędu. Niektóre sposoby kojarzenia danych z różnych źródeł są już od dawna powszechnie akceptowane, np. metaanaliza, którą pod względami można uznać za pewną uproszczoną formę modelowania. Zarówno metaanaliza, jak i modelowanie sensu stricto napotykają na te same problemy: dobór badań branych pod uwagę, ocena wiarygodności skumulowanych informacji, analiza niepewności oraz zachowanie równowagi pomiędzy dążeniem do zwiększania wielkości próby a spełnieniem warunku kompatybilności informacji. Jednak modelowanie, dzięki któremu można ułożyć pewną logiczną sekwencją zdarzeń, jest potencjalnie lepszym narzędziem wspomagania procesu podejmowania decyzji. Pozwala dokonać porównania z więcej niż jedną alternatywą, ująć wszystkie możliwe konsekwencje danej interwencji, nawet jeśli dotyczą wielu różnych dziedzin, co jest niemożliwe w obrębie jednego badania klinicznego, uwzględnić działania niepożądane i różną użyteczność poszczególnych wyników a także koszty każdej ze „ścieżek” w modelu.
Uogólnianie wyników
Mnogość różnych sytuacji, w których poszczególne programy zdrowotne mogą być zastosowane, jest niewątpliwie jednym z głównych powodów korzystania z modelowania, które pozwala na uogólnianie wyników: 1) z kontrolowanego badania klinicznej do praktyki klinicznej i 2) z jednego miejsca do innego.
Wyniki badań, przeprowadzonych według ściśle określonego protokołu i obejmujących wyselekcjonowanych pacjentów, mają tylko częściowe znaczenie dla podejmujących decyzje medyczne. Leki, które mają podobną skuteczność, potencjalnie mogą różnić się efektywnością, jeśli mają różny wpływ na zachowanie chorych i leczących ich lekarzy. Modelowanie skupia się na tym, aby z przeprowadzonych badań uzyskać więcej informacji, np. o profilu działań niepożądanych badanych leków i ich wpływie na stosowanie się chorych do zaleceń lekarzy. Modelowanie pozwala także na „dopasowanie” wyników klinicznych do specyficznych warunków, określanych przez dostępne w danym miejscu zasoby medyczne. Warunki te mogą być różne się nie tylko pomiędzy poszczególnymi krajami, ale także w obrębie danego kraju.
Modelowanie przed badaniami klinicznymi
Wartość modelowania przed badaniami klinicznymi polega na dostarczeniu informacji niezbędnych do zaprojektowania badania i ustaleniu priorytetów dla przyszłych badań. Może służyć pomocą w generowaniu hipotez, które będę testowane przez badanie, decydować o kluczowych zmiennych, które będą mierzone, oceniać potencjalną wartość badania. Dzięki modelowaniu można także uniknąć niepotrzebnych wydatków na badania, które nie wykażą niczego innego poza wynikami uzyskanymi już dzięki modelowaniu.
Analizy wrażliwości i modelowanie niepewności
Można zidentyfikować cztery typy niepewności, odpowiadające ściśle rolom, jakie spełnia modelowanie:
1) niepewność danych - zarówno danych o zasobach, jak i efektywności,
2) uogólnianie wyników - badania przeprowadzone w warunkach atypowych lub w innej lokalizacji,
3) ekstrapolacja - do wyników odległych w czasie lub od wyników pośrednich do końcowych,
4) niepewność związana z metodami analitycznymi - np. uwzględnianie preferencji czasowych, wybór metody oceny konsekwencji interwencji, wkluczanie lub wykluczanie kosztów pośrednich.
W każdym z wymienionych przypadków modelowanie jest najlepszą metodą ujawniania w/w niepewności i badania ich. Wnioski są oczywiście problematyczne, jeśli źródła danych są nieodpowiednie. Niemniej jednak nie jest to problem tylko modelowania, ale problem danych, wspólny dla wszystkich innych metod. Krytycyzm wobec modelowania, które niekiedy opiera się na „słabych” danych jest więc nieuzasadniony, bowiem właśnie modelowanie czyni jawnym fakt, który do tej pory był przysłaniany. Modelowanie pozwala bowiem w analizie wrażliwości wskazać znaczenie „słabych” źródeł danych i określić wartość gromadzenia danych w przyszłości.
Wartość modelowania w przyszłości
Modelowanie w przyszłości może mieć wartość jako narzędzie porozumiewania się, strukturyzacji problemu oraz informowania, gdy „mocne dane” są niemożliwe do uzyskania.
Jako narzędzie porozumiewania się modelowanie ma trzy główne zalety:
1) modele są przejrzyste - precyzują definicje, założenia i oszacowania, dzięki czemu są łatwe do wglądu i otwarte na krytykę,
2) modele stanowią ramy do opracowywania konsensusu lub są użyteczne do jawnego identyfikowania różnic w opiniach - bowiem skupiają uwagę zainteresowanych grup na tworzeniu uzgodnień dotyczących takich problemów, jak: dobór alternatyw, definicja i struktura problemu, podstawowe dowody, wartość i niepewność parametrów,
3) modele mogą być łatwo rozpowszechnione - przy tworzeniu polityki zdrowotnej lokalni użytkownicy mogą poprawić lub uzupełnić modele miejscowymi danymi, a jako element programu edukacyjnego mogą wpływać na poprawę wdrażania zaleceń do praktyki.
Nawet przed próbą oceny jakości, modele konceptualne są użyteczne do identyfikowania ważnych czynników i zmiennych oraz zdefiniowania lub postulowania wzajemnych relacji pomiędzy tymi zmiennymi, czyli określania, jak wzajemnie oddziaływują one na siebie. Tej „strukturyzacji” często towarzyszy gromadzenie i analiza subiektywnych opinii klinicznych. Służą jej metody o różnym stopniu skomplikowania, od najprostszej, polegającej na zadawaniu pytania: „Proszę przedstawić swoją opinię o...”, poprzez system oceny wewnętrznej spójności odpowiedzi, do sformalizowanej techniki panelu delfickiego. Modele mogą wykorzystywać wyniki takich badań i są użyteczne w identyfikowaniu pytań oraz ocenie wartości i niepewności subiektywnych informacji.
Jeśli „mocne” dane są niemożliwe do zdobycia, modelowanie służy do konstruowania problemu decyzyjnego i testowania wrażliwości decyzji na założenia, które mogą się zdarzyć w rzeczywistości. Modelowanie, testując wrażliwość różnych założeń i wykazując np., że jest bardzo mało prawdopodobne, aby dana interwencja mogła być opłacalna, pozwala wycofać się z danego programu bez zbędnych nakładów finansowanych. A gdy istnieją etyczne lub polityczne przeszkody w gromadzeniu pożądanych danych, modelowanie jest nie tylko najtańszą, ale jedyną drogą rozstrzygnięcia problemu.
Konieczność oceny jakości modeli
Modelowanie odgrywa i musi odgrywać kluczową rolę w ocenie programów zdrowotnych, jeśli te oceny mają mieć wartość dla podejmujących decyzje medyczne i tworzących politykę zdrowotną. Obecnie modelowanie jest najczęściej stosowaną metodą oceny ekonomicznej programów zdrowotnych: w 1996 r. badania modelowe stanowiły 85% wszystkich publikowanych analiz efektywności kosztów (4). Wobec powszechnego stosowania badań modelowych, szczególnego znaczenia nabiera ocena ich jakości. W jaki sposób odróżnić „dobry” model od „złego” modelu?
Badania kliniczne są używane wystarczająco długo, aby zostały odpowiednio sformalizowane i większość prowadzących i interpretujących badania kliniczne potrafi odróżnić „dobre” badanie kliniczne od „złego”. Modelowanie jest znacznie bardziej skomplikowane niż projektowanie badań klinicznych i ma od dawna zdefiniowane ograniczenia (5). Po pierwsze nie dostarcza nowych obserwacji. Jeśli opiera się na nieprawidłowych ocenach sytuacji klinicznych, modelowanie może utrwalać każdy z tych błędów. Po drugie, modele mogą być źle zaplanowane (np. nieprawidłowo skonstruowane drzewa decyzyjne, wykorzystujące błędne opinie ekspertów). Najbardziej powszechny z popełnianych błędów, czyli nadmierne uproszczenie, może wystąpić wskutek pominięcia znaczących zmiennych, wciśnięcia problemu w ramy znanej lub dogodnej formuły matematycznej lub założenia, że oszacowany wynik jest jedynym interesującym wynikiem.
W końcu, wyniki mogą być nieprawidłowo zinterpretowane i podejmujący decyzje medyczne nie uświadamiają sobie stopnia niepewności tych wyników.
Koncepcja wiarygodności modeli decyzyjnych
Oceniając wiarygodności lub jakości modeli decyzyjnych należy odpowiedzieć na dwa podstawowe pytania:
1) Czy modelowanie może być uznane za metodę naukową?
2) Jeśli tak, jak zidentyfikować prawidłową metodologię?
Zanim odpowiemy na te pytania, musimy najpierw przedstawić pogląd na temat tego, co stanowi metodę naukową. Ogólnie przyjmuje się, że metodę naukową można zweryfikować, czyli sprawdzić, w procesie falsyfikacji (falsyfikacja - zaprzeczenie prawdziwości, obalenie; przyp. aut.) (6, 7). A więc, aby być uznane za metodę naukową, modele powinny być „sprawdzalne”, przynajmniej w zasadzie. Nie wystarczy w tym wypadku stwierdzenie, że każda z danych wejściowych jest sama w sobie „sprawdzalna”, wciąż bowiem pozostaje kluczowy dla modelowania problem, czy sposób użycia tych danych w modelu (struktura modelu, skojarzenie różnych danych wejściowych) jest uzasadniony. Jedną z metod rozwiązania tego problemu mogłoby być testowanie właściwości predykcyjnych modelu przez porównanie go z wynikami tradycyjnego badania klinicznego. Porównanie takie jednak jest niewłaściwe z wielu względów. Po pierwsze, badanie kliniczne nie ma kontekstu decyzyjnego: tworzy kontrolowane warunki, które najczęściej nie odpowiadają rutynowej praktyce klinicznej. Po drugie, nie uwzględnia ono wszystkich istotnych punktów końcowych. Po trzecie, horyzont czasowy może być zbyt krótki, aby dostarczyć argumenty do podjęcia decyzji.
Nawet jeśli wyobrazimy sobie wyidealizowane pragmatyczne badanie kliniczne (8), które uwzględnia wszystkie istotne punkty końcowe, ma odpowiedni horyzont czasowy i w którym uczestnicy wybierani są losowo, to ono także nie będzie testem weryfikującym właściwości predykcyjne modelu. Problem bowiem polega na tym, że model integruje wszystkie informacje dostępne w tym czasie, gdy musi zostać podjęta decyzja (t), a wyniki badania w czasie t+1 będą opierać się na nowych informacjach dostarczonych przez to badanie, a niedostępnych w czasie t. Przewidywania modelu i wyniki badania opierają się więc na całkowicie odmiennych zestawach informacji, ich porównanie nie może więc weryfikować modelu ani wyjaśniać powstałych różnic. Badania kliniczne (eksperymentalne i obserwacyjne) nie mogą więc być bezpośrednio porównywane z modelem, ponieważ ich cele są zasadniczo różne: model w przejrzysty sposób integruje w sformalizowane ramy informacje dostępne w danym czasie, natomiast badanie kliniczne dostarcza nowych informacji na temat jednego lub więcej interesujących parametrów. Badania kliniczne (eksperymentalne i obserwacyjne) mogą dostarczać modelom danych wejściowych, ale nie są odpowiednim testem weryfikującym właściwości predykcyjne modeli. Zatem, aby zweryfikować model, należy przede wszystkim zastanowić się nad przyczyną tworzenia modeli decyzyjnych.
Przyczyna tworzenia modeli decyzyjnych
Przyczyną tworzenia modeli decyzyjnych nie jest przewidywanie wyników nawet idealnych badań pragmatycznych, ale informowanie podejmujących decyzje w określonym punkcie czasowym. Dlatego nadająca się do weryfikacji hipoteza postawiona przez model jest następująca: czy w czasie t przy użyciu modelu można podjąć lepszą decyzję niż bez użycia modelu? Testowanie tej hipotezy można przeprowadzić poprzez losową kwalifikację podejmujących decyzję do dwóch grup: korzystających i nie korzystających z modelu w procesie podejmowania decyzji. Model jest ważny (tzn. użyteczny), jeśli wyniki (koszty i efekty) są - „lepsze” w czasie t+1 dla grupy korzystających z modelu. Oznacza to, że model skonstruowany i analizowany w czasie t, przewidujący dla czasu t+1 śmiertelność 20%, podczas gdy w czasie t+1 śmiertelność w rzeczywistości wyniosła 40%, może wciąż pozostać ważny (użyteczny), jeśli w czasie t spowodował podjęcie lepszej decyzji. Natomiast model skonstruowany i analizowany w czasie t, który bezbłędnie przewidział w czasie t+1 śmiertelność 40%, może okazać się nieważny (bezużyteczny), jeśli nie spowodował podjęcia lepszej decyzji (np. śmiertelność nie jest jedynym argumentem w decyzyjnej funkcji użyteczności). Ważność modelu odnosi się więc do zdolności rekomendowania przez model optymalnej decyzji.
Oczywiście nie można powiedzieć, że porównanie z klinicznymi badaniami eksperymentalnymi i obserwacyjnymi oraz z innymi modelami jest bez znaczenia w tworzeniu modeli. Niemniej jednak sprawdzenie zewnętrznej zgodności nie może weryfikować (falsyfikować) modelu. Jeśli wystąpią nieoczekiwane rozbieżności pomiędzy modelem i źródłem zewnętrznym, powinno to skłonić do wnikliwej analizy obu: modelu i źródła zewnętrznego, w celu wytłumaczenia wynikłej sprzeczności. Modele powinny integrować wszystkie dostępne w danym czasie informacje (dane wejściowe) z aktualnymi teoriami klinicznymi/biologicznymi na temat procesu chorobowego (odzwierciedlonego w strukturze modelu), dlatego w miarę napływu nowych informacji i zmian teorii, modele należy uzupełniać i modyfikować. Ponieważ informacje kumulują się w czasie, wszystkie modele powstałe w czasie t będą „błędne” (w kategoriach przewidywania) w czasie t+1, i wiemy o tym w czasie t. Podsumowując należy stwierdzić, że wszystkie modele mogą być „błędne”, ale niektóre są użyteczne. Właśnie ta użyteczność, a nie dokładność przewidywania modeli, jest najwłaściwszym testem weryfikującym i ta cecha w ogólności odnosi się do działalności naukowej (9).
Czy możliwe są uniwersalne wytyczne dla tworzenia modeli
To, że użyteczność modeli można testować, oznacza, że modelowanie należy uznać za aktywność naukową. Jednak w praktyce testowanie każdego modelu w sposób przedstawiony powyżej byłoby nie tylko nieopłacalne, ale nawet „samounicestwiające się”. Modele tworzone są po to, aby wspomóc podejmowanie decyzji, które nie mogą być odroczone. Jeśli model byłby testowany (co wymaga czasu), straciłby na swojej użyteczności dla podejmowania późniejszej decyzji. Należałoby więc sprecyzować, jakie wymagania jakościowe powinien spełniać „dobry” model (struktura i dane wejściowe) i jakie mają być kryteria rozstrzygające o wyborze „lepszego” wśród konkurujących modeli. Czy jednak można w tym wypadku stworzyć uniwersalne wytyczne? Przecież nie istnieje (przynajmniej do tej pory) kompletna kodyfikacja naukowej racjonalności i można wątpić, czy kiedykolwiek powstanie. Idea, że nauka może i powinna rozwijać się według stałych i uniwersalnych reguł jest zarówno nierealna, jak i szkodliwa (10). Stwierdzenie takie pierwotnie odnosiło się do nauk ścisłych, fizyki w szczególności. Jeśli więc nie jest możliwe stworzenie uniwersalnego kodu lub wytycznych dla fizyki, to jeszcze mniej prawdopodobne jest stworzenie go dla nauk społecznych, które dotyczą problemów bardziej złożonych i niepewnych. Wytyczne metodologiczne są dostępne dla pewnych dziedzin aktywności, jak np. sprawozdania z randomizowanych kontrolowanych badań klinicznych (11). Ale badania kliniczne odpowiadają na ściśle zdefiniowane pytania i o ile stosunkowo łatwo stworzyć wytyczne dobrej praktyki w przypadku stwierdzenia: „w eksperymencie A jest bardziej skuteczne niż B”, o tyle trudniej jest sprecyzować wytyczne dobrej praktyki, gdy musi się odpowiadać na tak skomplikowane pytanie, jak: „czy w rutynowej praktyce klinicznej A jest bardziej efektywne niż B?”. Sugeruje się oczywiście, jak rozwiązać ten skomplikowany problem zewnętrznej wiarygodności, ale sugestie takie trudno nazwać kodyfikacją metod, bo brzmią na przykład tak: „Lepszą metodą niż sztywne używanie pochodzących z badania kryteriów wkluczenia i wykluczenia jest poszukiwanie czynników, z powodu których wyniki badania nie mogą być zastosowane w danej grupie chorych. Zazwyczaj czynników tych się nie znajduje” (12).
Nawet wytyczne ustalania wiarygodności wewnętrznej nie są sztywne i uniwersalne i w praktyce wielu komentatorów podkreśla znaczenie, jaką w monitorowaniu wyników badań klinicznych ma ocena sytuacji oraz okoliczności (13). Wobec tego byłoby niedorzeczne oczekiwać uniwersalnych wskazówek jak zajmować się bardziej skomplikowanym i niepewnym problemem wiarygodności zewnętrznej badań klinicznych.
Nie oznacza to oczywiście, że niemożliwe jest sformułowanie jakichkolwiek wytycznych oraz że niemożliwe jest dokonanie wyboru pomiędzy modelami w oparciu o ich jakość. Powinniśmy jednak znać ograniczenia odnoszące się do każdych wytycznych postępowania i być świadomi, że ścisłe przestrzeganie wytycznych metodologicznych może być bardziej hamujące niż pobudzające naukowo. Bowiem sztywne przestrzeganie wytycznych może:
1) prowadzić do odrzucenia wartościowych modeli i uniemożliwiać rozwój nowych metod (stajemy się więźniami własnej ortodoksji),
2) zaburzać priorytety badawcze, skupiając uwagę na tych problemach, dla których łatwiej znaleźć odpowiedzi stosując skodyfikowane metody,
3) stanowić podstawę krytyki dla tych, którzy naiwnie wierzą, że dla działalności naukowej możliwe jest istnienie uniwersalnych kodów. Realnym argumentem przeciwko takiej krytyce powinno być wskazanie na złożoność problemów decyzyjnych, które mają być rozwiązane, ograniczoną dostępność dowodów dla kluczowych parametrów i fakt, że żaden inny sposób aktywności naukowej nie może w tym wypadku spełnić standardowych wymogów.
Ramy dla walidacji modeli
Jak stwierdzono powyżej, porównanie wyników modeli z rzeczywistymi wynikami jest wielce pożądane, ale raczej trudno spełnić ten warunek „złotego standardu” w praktyce. Rodzi się więc konieczność oceny nie tylko wyników, ale również struktury i danych wejściowych modelu. Należy jeszcze raz podkreślić, że celem modeli nie jest po prostu przedstawienie dokładnego oszacowania współczynnika koszty/efektywność. Modele są używane z wielu powodów i ich charakterystyka różni się w zależności od zastosowania. Niemniej jednak ich nadrzędny cel jest zawsze ten sam: pomoc w podjęciu racjonalnej decyzji. W konsekwencji modele mogą być oceniane w kontekście ich wartości dla podejmujących decyzje, który wydaje się szerszy niż liczby uzyskiwane z matematycznych algorytmów.
Proces walidacji modeli należy więc przeprowadzić, dokonując oceny: struktury modelu, danych wejściowych, zgodności wewnętrznej i zewnętrznej oraz wartości modelu dla podejmujących decyzję.
Struktura modelu
Ogólnie struktura modelu musi być zgodna z postawionym do rozwiązania problemem decyzyjnym i powinna odpowiadać rzeczywistemu przebiegowi choroby, a nie być podyktowana dostępnymi, wybiórczymi danymi. Należy wybrać najprostszy model, który prawidłowo odzwierciedla zależność czasową procesu chorobowego. Horyzont czasowy powinien być wystarczający do wskazania, kiedy różnice w kosztach i efektach porównywanych strategii są trwałe. Punkt ten może być nieznany „ex ante”, dlatego zaleca się, szczególnie w przypadku chorób przewlekłych, modelowanie przebiegu procesu aż do zgonu i ewentualnie późniejsze skracanie horyzontu czasowego, w miarę dokładniejszego zbadania procesu chorobowego i efektu badanych interwencji.
Czy można w obiektywny sposób sprawdzić spełnienie wymienionych wyżej zaleceń? Przecież każdy test musi być nierozerwalnie związany z przyczyną, dla której tworzony jest model oraz wiedzą na temat modelowanego procesu. Każdy test musi więc być narażony na subiektywizm. A „dobry” test, mimo że nie potrafi wyeliminować roli subiektywizmu w interpretacji, powinien unikać subiektywizmu w kalkulacji. W konsekwencji można więc jedynie wymagać, aby każde uproszczenie w modelu było wyraźnie uzasadnione przez wykazanie, że bardziej skomplikowane przedstawienie danego zagadnienia nie ma logicznie znaczącego wpływu na zastosowanie modelu w procesie podejmowania decyzji. Brak danych nie jest jako takie uzasadnieniem dla upraszczania istotnych problemów. W modelu można dokonywać, oczywiście w przejrzysty sposób, pewnych założeń, które następnie muszą być poddane analizie wrażliwości. Należy to jednak czynić ostrożnie, aby nie tworzyć kolejnych rozbudowanych modeli z jeszcze bardziej „niepewnymi” danymi tylko po to, aby wykazać, że pierwotny model jest „wrażliwy” na „niepewne” dane.
Dane wejściowe modelu
Budowanie struktury modelu i wypełnianie modelu danymi są oddzielnymi procesami, dlatego w ocenie modelu również oddzielnie przeprowadza się walidację danych wejściowych modelu. Dotyczy ona zarówno identyfikacji danych (źródła danych i ich względna wartość), jak i sposobu ich włączenia do modelu (epidemiologiczne i statystyczne metody tłumaczenia danych z literatury w formy odpowiednie do włączenia w strukturę modelu). Ponieważ istnieją ustalone metody oceny wiarygodności i względnej wartości danych pochodzących z badań klinicznych, próba zdefiniowania „wewnętrznej wiarygodności” wydaje się bardziej obiecująca aniżeli ograniczenie się do „wiarygodności opisowej”, z natury swojej specyficznej dla danego kontekstu. Najogólniej ujmując problem, krytykowanie modelu tylko ze względu na niewystarczającą ilość danych lub dlatego, że istniejące dane nie spełniają kryteriów idealnych danych wg naukowych rygorów, jest niewłaściwe.
Należy podkreślić, że względne znaczenie jednego źródła danych w stosunku do drugiego nie jest stałe - użycie „słabych” danych dla mało istotnego parametru wcale nie musi osłabiać całego modelu. Mogłoby to być dowodem na to, że hierarchia danych jest sprawą wtórną względem identyfikacji hierarchii parametrów w modelu.
Problem identyfikacji i wykorzystania danych w modelu przedstawiany jest przez wielu badaczy i wiele wytycznych, m.in. US Task Force in Preventive Health Care, wytyczne przeprowadzania analiz farmakoekonomicznych próbuje go usystematyzować (14, 15, 16). Pojawia się tam zawsze stwierdzenie: „najlepsze dostępne dane”. Typowa hierarchia dowodów według zasad medycyny opartej na dowodach przedstawia się następująco:
1) mocne dowody z co najmniej jednego uporządkowanego przeglądu literatury (systematic review) lub kilku odpowiednio zaprojektowanych RCT.
2) mocne dowody z co najmniej jednego odpowiednio zaprojektowanego RCT.
3) dowody z odpowiednio zaprojektowanych badań bez randomizacji, badań typu „przed i po”, badań kohortowych lub kliniczno-kontrolnych.
4) dowody z odpowiednio zaprojektowanych badań nieeksperymentalnych przeprowadzanych w więcej niż jednym ośrodku lub przez więcej niż jedną grupę badawczą.
5) opinie ekspertów, oparte na dowodach klinicznych, badaniach opisowych lub komunikatach komitetów specjalistów.
Skala ta jednak nie wskazuje bezpośrednio na dane „najlepsze z dostępnych”. Ponadto dowody z „najwyższej półki”, czyli systematyczny przegląd literatury, nie są konieczne dla każdego parametru. Krytyczna ocena i wynikające z niej uzasadnienie dla wykorzystania określonych danych w modelu powinna być przeprowadzona według zasad nieco różniących się od rygorów proponowanych przez medycynę opartą na dowodach. Najbardziej istotne jest to, że w modelu „wartość” danych mierzy się wspólnie ze znaczeniem danego parametru w strukturze modelu.
Należy również uświadomić sobie fakt, że nawet najbardziej rygorystyczne podejście do identyfikacji danych oraz ich krytyczna ocena nie wyeliminuje konieczności przeprowadzenia analizy wrażliwości. Chociaż z natury nieszkodliwe, w pełni systematyczne podejście do identyfikacji danych może pozostawić zarówno badacza, jak i podejmującego decyzję w fałszywym poczuciu bezpieczeństwa i uśpić ich czujność na tyle, że nie wezmą pod uwagę wszystkich założeń zarówno w analizie wrażliwości, jak i innych aspektach procesu modelowania.
Osobnego omówienia wymaga problem dokonywania wyboru, jeśli mamy do czynienia z konkurującymi ze sobą różnymi źródłami danych. Czy lepiej korzystać ze źródła danych bardziej odpowiedniego ze względu na badaną populacje, czy ze źródła danych bardziej odpowiedniego ze względu na metodologię? Jedyne, co można zalecić w tym przypadku, to jest jawne przedstawienie „za” i „przeciw” oraz empiryczne zbadanie wpływu wyboru jednej i drugiej kombinacji danych.
Zgodność wewnętrzna i zewnętrzna
Zgodność, definiując najogólniej, opisuje poprawność przeprowadzenia modelowania. Ze względów praktycznych wyróżnia się zgodność wewnętrzną i zewnętrzną.
Aby upewnić się o zgodności wewnętrznej, należy w czasie procesu modelowania w sposób ciągły sprawdzać i testować model dla ujawnienia błędów związanych z wprowadzaniem danych oraz składnią modelu. Prostą techniką testowania wewnętrznej zgodności jest np. takie przesunięcia wyników w analizie wrażliwości (włączając analizę skrajnych przypadków), by odpowiadało to oczekiwaniom określonymi a priori lub używanie tych samych danych przy konstruowaniu modelu za pomocą innego oprogramowania przez innego badacza dla sprawdzenia, czy wyniki będą takie same.
Zgodność zewnętrzna odnosi się do problemu zgodności pomiędzy wynikami modelu a informacjami zawartymi w innych badaniach naukowych, jeśli oczywiście takie istnieją. Jednym ze sposobów badania zgodności zewnętrznej jest spojrzenie na pośrednie dane wyjściowe modelu i porównanie ich z opublikowanymi wynikami długoterminowych badań. To zewnętrzne źródło informacji nie może być oczywiście użyte do oszacowania wartości danego parametru w modelu. Należy też również zdać sobie sprawę, że wyniki pochodzące z zewnętrznego źródła informacji wcale nie są „złotym standardem” w porównaniu z danymi wyjściowymi modelu. Spowodowane jest to tym, że powód, dla którego przeprowadza się modelowanie, a więc wspomaganie procesu podejmowania decyzji, niekoniecznie musi być i najczęściej nie jest przyczyną przeprowadzania długoterminowych badań. Brak zbieżności pomiędzy wynikami modelu a wynikami źródła zewnętrznego powinno oczywiście skłonić badacza do powtórnej weryfikacji struktury, danych wejściowych i wewnętrznej zgodności modelu, ale nie oznacza wcale, że model powinien być odrzucony. Podobnie zbieżność pomiędzy wynikami modelu a wynikami źródła zewnętrznego nie daje niestety pewności o najwyższej jakości modelu.
Wartość modelu dla podejmujących decyzję.
Zdolność modelu do wywierania wpływu na to, aby wdrożyć optymalną praktykę stanowi wartość przewyższającą matematyczną zdolność przewidywania liczb. Dla modelu ważne jest zatem, aby był:
odpowiedni do kontekstu, w którym podejmuje się decyzję,
zrozumiały - poziom skomplikowania powinien być dobrany odpowiednio do poziomu głównego odbiorcy. Można to osiągnąć tworząc z modelu oryginalnego zredukowane postaci modeli, przeznaczone dla określonych odbiorców,
wiarygodny - podejmujący decyzje powinni uwierzyć przewidywaniom skalkulowanym w modelu, aby rzeczywiście przyczyniały się one do wdrażania określonych decyzji. Wobec tego model musi być "klinicznie prawdopodobny” i przejrzysty. Ponieważ pierwotnie model próbuje zmienić zachowania klinicystów, bez ich milczącej aprobaty najprawdopodobniej zostanie zignorowany.
Oceny wartości modelu dla podejmujących decyzję trudno dokonać w formalny sposób. Można nawet sądzić, że jest to sprawa samej prezentacji modelu, leżąca poza zasięgiem formalnej oceny. To podobnie, jak z wynikami badań, które zostały skrytykowane, dlatego że sposób w jaki je przedstawiono nie „przemawiał” do odbiorców. W odpowiedzi stworzono pojęcie NNT (liczba chorych, których należy leczyć). Wyniki przedstawione za pomocą tej miary skuteczności stały się bardziej „zrozumiałe”, a więc w konsekwencji mogły wpłynąć na określone zachowania.
Wrażliwość i moc wyników modelu
W przedstawionych powyżej ramach walidacji modeli nie zaznaczono wyraźnie pozycji dla oceny wrażliwości/mocy wyników modelu, chociaż wielu komentatorów sugeruje jakby większą atrakcyjność modeli z mocnymi wynikami, a niektórzy nawet widzą moc wyników jako miarę wartości modelu (17). Takie przekonanie prowadzi jednak do umieszczenia problemu wrażliwości/mocy wyników na nieodpowiedniej pozycji. Chociaż moc wyników jest pożądaną właściwościach modelu, to jednak nie wynika z tego, że model z „mocnymi” wynikami jest lepszy od modelu z „wrażliwymi” wynikami. Moc/wrażliwość wyników modelu jest zagadnieniem oddzielnym od wartości modelu, ponieważ charakteryzuje niepewność wokół prawdziwej wartości parametrów w modelu, a nie konstrukcję modelu. Dlatego wrażliwość modelu powinna być rozpatrywana niezależnie od walidacji modelu, chociaż analiza niepewności jest oczywiście tą dziedziną, w której konieczne są wytyczne dobrej praktyki.
Podsumowanie
Rozważania przedstawione powyżej skłaniają do stwierdzenia, że do tej pory brak obiektywnego testu, za pomocą którego można dokonać walidacji modelu. Czy jednak poszukiwanie takiego testu ma sens? Obiektywne testy nie istnieją przecież także dla randomizowanych badań klinicznych, a przecież wzbudzają one respekt i cieszą się ogromnym zaufaniem, jeśli tylko zostały prawidłowo zaplanowane i przeprowadzone. Brak ściśle zdefiniowanego obiektywnego testu walidacji nie oznacza więc śmierci modelowania. Raczej podkreśla znaczenie innych aspektów oceny modelu. Należą do ich: zapewnienie wysokiej jakości w czasie procesu tworzenia modelu (wytyczne dobrej praktyki) oraz ocena jakości podczas procesu recenzowania i rozpowszechniania modelu (wytyczne krytycznej oceny) tab. 1. Chociaż powyższe elementy oceny modelu są subiektywne, uzyskanie „doskonałości” w modelowaniu jest możliwe, chyba że bezskuteczne poszukiwanie obiektywnego testu walidacji wyeliminuje stopniowo wszystkich badaczy.
Piśmiennictwo
1. Rittenhouse B. Uses of models in economic evaluations of medicines and other health technologies. London: Office of Health Economics, 1996.
2. Sheldon TA. Problems of using modelling in the economic evaluation of health care. Health Econ 1996; 5: 1-11.
3. Buxton MJ, Drummond MF, Van Hout BA, et al. Modelling in economic evaluation: and unavoidable fact of life. Health Econ 1997; 6: 217-27.
4. Posnett J, Jan S. Indirect cost in economic evaluation: the opportunity cost of unpaid inputs. Health Econ 1996; 5(1): 13-23.
5. Eddy DM. Assesing medical technology. In: Eddy DM, editor. Technology assesment: the role of mathematical modelling. Washington, DC: National Academy Press, 1985: 144-75.
6. Popper KR. The logic of scientific discovery. London: Hitchinson, 1972.
7. Lakatos I. Falsification and the methodology of scientific research programmes. In: Lakatos I, Musgrave A, editors. Criticism and the growth of knowledge. Cambridge: Cambridge University Press, 1970: 91-195.
8. Schwartz D, Lelouch J. Explanatory and pragmatic attitudes in therapeutic trials. J Chronic Dis 1967; 20: 637-48.
9. Russel B. My philosophical development. London: Routlegde, 1959.
10. Feyerabend P. Against method. London: New Left Books, 1975.
11. Begg C, Cho M, Eastwood S, et al. Improving the quality of reporting of randomized controlled trials. JAMA 1996; 276: 637-9.
12. Guyatt GH, Sackett DL, Cook DL. Users´ guides to the medical literature: II. How to use and article about therapy or prevention. B. What were the results and will they help me in caring for my patients? JAMA 1994; 271: 59-63.
13. Pocock SJ. When to stop a clinical trial. BMJ 1992. 305: 235-40.
14. Nuijten MJC. The selection of data sources for use in modelling studies. Pharmacoeconomics 1998,; 13(3): 305-16.
15. Commonwealth Department of Human Services and Health. Guidelines for pharmaceutical industry on preparation of submissions to the Pharmaceutical Benefits Advisory Committee. Canberra. Australian Government Publishing Service, 1995.
16. Orlewska E., Mierzejewski P. Polskie wytyczne przeprowadzania analiz farmakoekonomicznych (projekt). Farmakoekonomika 2001; Suplement 1: 3-11.
17. Halpern MT, Luce BR, Brown RE, et al. Health and economic outcomes modeling practices: a suggested framework. Value in Health 1998; 1(2): 131-47.
Tab. 1. Ocena jakości modeli decyzyjnych wykorzystywanych w analizie efektywności kosztów
| Element | Cechy "dobrej praktyki" | Krytyczna ocena |
| Struktura | Struktura modelu powinna odpowiadać problemowi decyzyjnemu.
Struktura modelu powinna zależeć od historii naturalnej i patofizjologii choroby, której dany model dotyczy, a nie od dostępności danych. | Czy jasno zdefiniowano problem decyzyjny, kontekst i perspektywę?
Czy opisano dokładnie założenia modelu i czy są one uzasadnione?
Czy opisano praktyczne implikacje złagodzenia tych założeń? |
| Stany zdrowia opisane w modelu | Należy wybrać model najprostszy i najlepiej odpowiadający przebiegowi choroby (zależność pomiędzy czasem a procesem chorobowym), odpowiadający akceptowanej klasyfikacji choroby. Nie należy pomijać stanów tylko ze względu na brak danych. | Czy wybrano typ modelu właściwy dla przedziałów czasowych w przebiegu choroby?
Czy uzasadniono wybór stanów w modelu i czy odpowiada on procesowi chorobowemu?
Czy pominięto w modelu istotne stany chorobowe? |
| Alternatywy do porównania | W modelu należy uwzględnić wszystkie logicznie uzasadnione i wykonalne opcje, szczególnie te obecnie akceptowane w praktyce. | Czy dokładnie opisano opcje, które zostały uwzględnione w modelu?
Czy w modelu uwzględniono wszystkie możliwe, logicznie uzasadnione i wykonalne opcje? |
| Horyzont czasowy | Horyzont czasowy powinien być wystarczający do wykazania trwałych różnic w kosztach i efektach porównywanych strategii (nie jest to znane ex ante) | Czy określony jest horyzont czasowy analizy?
Jeśli tak, to czy jest on uzasadniony w analizowanej sytuacji (choroba, interwencja) |
| Długość cykli (jeśli dotyczy danego modelu) | Długość danego cyklu powinna być najkrótszym przedziałem czasowym, w którym oczekuje się u chorych zmiany badanych parametrów odpowiadać jednocześnie procesowi chorobowemu. | Czy określono długość cykli w modelu?
Czy uzasadniono długość cykli? Jeśli tak, to czy odpowiada ona procesowi chorobowemu? |
| Identyfikacja danych | Nie należy krytykować modelu tylko ze względu na niedostatek danych albo też z powodu tego, że istniejące dane nie są danymi idealnymi, ponieważ metody, za pomocą których zostały uzyskane nie spełniają rygorystycznych kryteriów. Termin "najlepsze dostępne" dane powinien odnosić się do "optymalnie dostępnych" danych. W analizie należy wyjaśnić, że w celu najlepszego oszacowania parametrów zostały wyszukane wszystkie dostępne źródła informacji. W przypadku braku danych dla poszczególnych parametrów należy dokładnie opisać metody uzyskiwania danych od ekspertów. | Czy przedstawiono w modelu źródła danych?
Czy zastosowano prawidłowe metody wyszukiwania źródeł danych (np. MEDLINE, Cochrane Library)?
Czy określono zakres dla wyszczególnionych parametrów?
Czy istnieją dowody na wybiórcze wykorzystywanie danych? Jeśli wykorzystano jako źródło danych opinię ekspertów, to czy opisano zastosowane metody (np. kryteria wkluczenia, liczba ekspertów, sposób uzyskiwania informacji)?
Czy zarzuty wobec modelu wynikają tylko z faktu, że dane są ograniczone? |
| Inkorporacja danych | Inkorporacji danych należy dokonać, używając akceptowanych metod epidemiologicznych, statystycznych. Inkorporacja poszczególnych rodzajów danych wymaga traktowania ich tak, jak na to zasługują. | Czy w przypadku każdej wartości parametru dokładnie uzasadniono proces inkorporacji danych do modelu?
Czy zastosowano odpowiedni wzór do oszacowania prawdopodobieństw przejść?
Jeśli przeprowadzono analizę stochastyczną,to czy dla każdego parametru wybrano odpowiednią dystrybucję?
Czy tam, gdzie to konieczne, przeprowadzono korekcję oszacowań zależnych od czasu? |
| Wiarygodność wewnętrzna | Przeprowadzający analizę powinien sprawdzać model w celu zidentyfikowania wszystkich potencjalnych błędów w procesie konstruowania modelu i inkorporacji danych (np. czy wyniki analizy wrażliwości odpowiadają wcześniejszym oczekiwaniom, czy inni badacze uzyskają takie same wyniki, używając tych samych danych lub sprawdzenie modelu przy użyciu innego oprogramowania) | Czy w analizie podano informację na temat badania wewnętrznej wiarygodności modelu? |
| Wiarygodność zewnętrzna | Przeprowadzający analizę powinien sprawdzać model w celu zbadania, czy wyniki modelu są zgodne z informacjami zawartymi w odpowiednich innych badaniach. | Czy zidentyfikowane inne badania i/lub modele dotyczące analizowanego problemu?
Czy dokonano porównania wyników modelu z innymi badaniami i/lub modelami?
Czy uzasadniono wnioski?
Czy wyjaśniono istniejące rozbieżności? |
Polecane
książki z księgarni medycznej BORGIS:

Pozostałe artykuły z numeru 2/2002: