Endpunkte – Herausforderungen aus der Sicht des vfa

„Welche Zielgrößen sind relevant für Patienten?“ ist die Leitfrage der Herbsttagung 2024 der Plattform zur Nutzenbewertung. Die Frage nach den Endpunkten ist eine der zentralen Fragestellungen im AMNOG-Verfahren. Doch welchen Stellenwert haben die Endpunkte für die Feststellung eines Zusatznutzens im AMNOG-Verfahren? Hierarchisch muss nüchtern festgestellt werden, dass es zunächst auf das zum AMNOG-Verfahren kompatible Studiendesign einer Studie (also regelhaft randomisiert-kontrolliert) von ausreichender Dauer und die richtige Umsetzung der Vorgabe zur zweckmäßigen Vergleichstherapie ankommt. Sind diese zentralen Bedingungen jedoch erfüllt, kommt es tatsächlich auf die Endpunkte und die dafür gezeigten Studieneffekte an.
Aus rechtlicher Sicht gilt dabei nach Paragraf 2 Abs. 3 AM-NutzenV die Vorgabe, dass der „Nutzen eines Arzneimittels [...] der patientenrelevante therapeutische Effekt insbesondere hinsichtlich der Verbesserung des Gesundheitszustands, der Verkürzung der Krankheitsdauer, der Verlängerung des Überlebens, der Verringerung von Nebenwirkungen oder einer Verbesserung der Lebensqualität“ ist. Der Zusatznutzen ist demnach festzustellen über eine Beeinflussung „patientenrelevanter Endpunkte“. Der Status eines Endpunkts in den zulassungsrelevanten Studien (primär oder sekundär) hat zugleich keine Konsequenz für die Relevanz in der Nutzenbewertung.
Nach rund 13 Jahren der Bewertungspraxis konnten rund 57 Prozent der neuen Arzneimittel ihren Zusatznutzen belegen. Dieser Anteil variiert jedoch deutlich je nach Therapiegebiet. Während für onkologische Arzneimittel ein Zusatznutzen in rund 73 Prozent belegt werden konnte, lag der Anteil des belegten Zusatznutzens für Krankheiten des Nervensystems oder psychiatrische Erkrankungen bei 46 Prozent bzw. nur 29 Prozent liegt. Offenkundig konnte hier die Kombination aus einem kompatiblen Studiendesign und Endpunkten für onkologische Arzneimittel im AMNOG bessere Ergebnisse erzielen als bei anderen Indikationen.
GesamtüberlebenDabei ist festzustellen, dass vor allem in der Onkologie der Endpunkt „Gesamtüberleben“ von herausragender Bedeutung ist. Er ist ohne alle Zweifel patientenrelevant und damit auch maßgeblich für den Nachweis und Einstufung des Zusatznutzens. Die Empirie für onkologische Erkrankungen zeigt dabei durchaus eine Abhängigkeit zwischen der Größe des Vorteils beim Gesamtüberleben (in Kombination mit Vorteilen bei anderen Endpunktkategorien) und dem Ausmaß des Zusatznutzens in den Entscheidungen des G-BA.
Auch für den Endpunkt „Gesamtüberleben“ besteht jedoch eine Reihe an praktischen und methodischen Herausforderungen. So ist nicht in allen Therapiesituationen eine angemessene Studien-Power im vertretbaren Zeitrahmen erreichbar. Dies wird im Rahmen der Nutzenbewertung häufig dadurch zusätzlich verstärkt, dass eine Studienpopulation in Teilfragestellungen seitens des G-BA aufgeteilt wird oder nur ein Teil der pivotalen Studienpopulation als verwertbar herangezogen wird. Dies, ohne eine erkennbare Berücksichtigung der Power-Problematik.
In einigen Situationen ist zudem ein erlaubter Therapiewechsel ethisch unvermeidbar, was zur erschwerten Interpretation der Überlebensdaten führt. Zwar bestehen zum Umgang mit dem erlaubten Therapiewechsel methodische Lösungen, keiner dieser Ansätze wird jedoch bislang in der AMNOG-Bewertung akzeptiert. Ebenso herausfordernd sind hinsichtlich Interpretation der Ergebnisse zum Gesamtüberleben die Anforderungen an die Erfassung der Folgetherapien.
Wenn eine bestimmte Therapiesituation (noch) keine Aussagen zum Gesamtüberleben in einem vertretbaren Zeitrahmen erlaubt, stellt sich zudem die Frage, wie ein patientenrelevanter Behandlungserfolg gemessen werden kann. In der Entscheidungspraxis des G-BA werden inzwischen auch Endpunkte wie EFS (event-free survival), DFS (disease-free survival) oder RFS (relapse-free survival) grundsätzlich akzeptiert, jedoch nur zur Abbildung des Scheiterns eines kurativen Therapieansatzes.
Nicht bewertungsrelevant ist hingegen weiterhin der Endpunkt PFS (progression-free survival), wobei zum PFS von Beginn an unterschiedliche Auffassungen innerhalb des G-BA hinsichtlich der Patientenrelevanz bestehen. Auch solche Endpunkte wie TTST (time to subsequent therapy), CR (complete response, bis auf den alten Sonderfall der Bewertung zum Basallzellkarzinom) oder MRD (minimal residual disease) bleiben ohne Berücksichtigung. Diese, für die Zulassungsentscheidungen gewichtigen oder gar primären Endpunkte, werden im AMNOG-Verfahren, unabhängig der Besonderheiten einzelner Therapiesituationen, durchgehend als nicht patientenrelevant und damit nicht bewertungsrelevant eingestuft.
SurrogatendpunkteZusätzlich zur Frage einer direkten Patientenrelevanz stellt sich bei einigen Endpunkten die Frage, ob sie für bestimmte Therapiesituationen als Ersatz (Surrogate) für andere Endpunkte herangezogen werden können. Bei AMNOG-Nutzenbewertungen gelten für eine Surrogatvalidierung die Vorgaben des IQWiG, die mit dem Rapid Report A10-05 „Aussagekraft von Surrogatendpunkten in der Onkologie“ im Jahr 2011 publiziert wurden (IQWiG 2011).
Für eine Surrogatvalidierung wird dabei idealerweise eine Meta-Analyse von mehreren RCTs mit hoher Ergebnissicherheit sowie ein hohes Korrelationsmaß auf Studien- und individueller Ebene oder anderenfalls die Anwendung des Konzepts eines Surrogate-Threshold-Effekts (STE) mit bestimmten Schwellenwerten vorausgesetzt. Obwohl die Anforderungen des G-BA keine expliziten Schwellenwerte vorgeben, beziehen sie sich auf dieselbe Methodik, wie sie das IQWiG vorschlägt. Soweit der Anspruch. Die Wirklichkeit ist zugleich ernüchternd, da diese Anforderungen seit nunmehr 13 Jahren nicht erfüllt werden konnten. Ob dies nun an den konservativen Anforderungen selbst liegt oder einer (ggf. daraus folgend) überschaubaren Anzahl an Validierungsversuchen, kann nicht abschließend beantwortet werden.
Dennoch ist festzuhalten, dass Surrogatendpunkte in einigen Fällen unverzichtbar sind, da sonst zentrale Fragestellungen schlicht nicht untersucht werden können, um den Zugang zu innovativen Behandlungen zu ermöglichen. Auch im Rahmen der AMNOG-Nutzenbewertung wurden daher in der Vergangenheit in absoluten Ausnahmefällen einige Surrogatendpunkte auch ohne nach o.g. Methoden formale Validierung akzeptiert und zur Ableitung des Zusatznutzens herangezogen.
So wurden z. B. der Endpunkt Sustained Virologic Response bei chronischer Hepatitis C, das virologische Ansprechen bei einer HIV-Infektion oder HbA1c bei Diabetes Mellitus Typ 1 als ausreichend valide Surrogatendpunkte sowohl von IQWiG als auch vom G-BA eingestuft. Die Berücksichtigung dieser Surrogatendpunkte war zwar stets nachvollziehbar, dennoch blieb die jeweilige Entscheidung bei einer wenig transparenten Einzelabwägung.
Patientenberichtete EndpunktePatientenberichtete Endpunkte (PROs) nehmen insgesamt einen zunehmend hohen Stellenwert ein. Für viele Therapiegebiete gehört eine Erfassung der Morbidität und der gesundheitsbezogenen Lebensqualität mit solchen Endpunkten inzwischen zum Standard klinischer Prüfungen. So zeigt sich in einer Analyse der Zulassungsentscheidungen in der EU für onkologische Arzneimittel in den Jahren 2017 bis 2020, dass PROs in rund 78 Prozent der Fälle in den pivotalen Studien eingeschlossen wurden (Teixeira et al. 2022).
Auch in der AMNOG-Nutzenbewertung zeigt sich die zunehmende Bedeutung von PROs. So am Beispiel des nicht-kleinzelligen Lungenkarzinoms, wo in den vom G-BA berücksichtigen Studien in 95 Prozent verwertbare Daten zu mindestens einem PRO-Instrument vorlagen (Brand et al. 2022). Auch für die Untergruppe der patientenberichteten Endpunkte, die gesundheitsbezogene Lebensqualität, zeigt sich ein ermutigendes Bild. So war der Anteil der Verfahren mit Daten zur Lebensqualität in den letzten Jahren zunehmend und lag seit 2014 bei über 70 Prozent. Besonders hoch war dieser Anteil bei Nutzenbewertungen zu onkologischen Arzneimitteln (Kramer et al. 2024).
Die Frage nach grundsätzlicher Relevanz hört jedoch nicht bei der Art eines Endpunktes auf, sondern kann sich auch auf seine Operationalisierung erstrecken. So kann eine, als eindeutig relevant erscheinende PRO-Zielgröße, in einer Bewertung doch unberücksichtigt bleiben. Dies lässt sich am Beispiel von Nutzenbewertungen im Therapiegebiet einer mittelschweren bis schweren Plaque-Psoriasis zeigen. Hier wird der Endpunkt PASI 90, der für eine 90-prozentige Verbesserung der Krankheitssymptome und nahezu symptomfreie Haut steht, vom IQWiG seit Jahren nicht berücksichtigt, da hier formal nicht auszuschließen sei, dass Psoriasis-Symptome weiterhin vorhanden sind und die Patient:innen beeinträchtigen.
Aus diesem Grund werden vom IQWiG ausschließlich Auswertungen zu PASI 100 (komplette Remission) herangezogen. Diese Einschätzung stand von Beginn an im Widerspruch zu den Leitlinien und der Versorgungspraxis, wo auch PASI 75 und PASI 90-Antworten als Therapieziele dienen, da eine Abwesenheit von kutanen Symptomen nicht bei allen Patienten erreicht werden kann (Nast et al. 2021). Auch vom G-BA werden daher die entsprechenden Ergebnisse zu PASI 75 und PASI 90 berücksichtigt.
Auch für die Erfassung der PROs besteht eine Reihe an Herausforderungen. So liegen für manche besondere Therapiesituationen, wie seltene Erkrankungen, keine validierten und etablierten Instrumente vor. Eine Anwendung verfügbarer Fragebögen aus anderen Therapiegebieten wird dabei stets kritisch gesehen. Bei der Interpretation der Studienergebnisse bleibt die mögliche Power-Problematik unberücksichtigt. Herausfordernd ist zudem die Erfassung und Einhaltung hoher Rücklaufquoten insb. bei terminalen Lebensphasen und nach Progress einer lebensbedrohlichen Erkrankung (Böhme et al 2022).
Bei der Dauer der PRO-Erfassung bestanden bis zuletzt unterschiedliche Auffassungen. Einerseits zwischen dem IQWiG, das eine möglichst lange Dokumentation bis zum Studienende propagiert, und der klinischen Fachwelt, die eine Erfassung nach Progress zwar für wichtig hält, jedoch im sinnvollen Maße und nicht uneingeschränkt bis zum Lebensende.
Umgang mit verfügbarer EvidenzHinsichtlich der grundsätzlichen Akzeptanz der Daten ist auf die bestehende Regelung im Paragrafen 5 Abs. 5 AM-NutzenV hinzuweisen, die besagt: „Können zum Zeitpunkt der Bewertung valide Daten zu patientenrelevanten Endpunkten noch nicht vorliegen, erfolgt die Bewertung auf der Grundlage der verfügbaren Evidenz unter Berücksichtigung der Studienqualität mit Angabe der Wahrscheinlichkeit für den Beleg eines Zusatznutzens und kann eine Frist bestimmt werden, bis wann valide Daten zu patientenrelevanten Endpunkten vorgelegt werden sollen.“
Die Regelung zielt zum einen auf die Möglichkeit einer Befristung ab, was an sich gelebte Praxis ist. Zum anderen erfolgt die Maßgabe, die Bewertungen auf der Grundlage der verfügbaren Evidenz vorzunehmen. In der Praxis zeigt sich jedoch, dass verfügbare Daten regelhaft nicht herangezogen werden, wenn sie nicht den patientenrelevanten Endpunkten eingeordnet werden. Hier stellt sich die Frage, ob vor allem bei besonderen Therapiesituationen eine Bewertung unter Berücksichtigung der verfügbaren Evidenz erfolgen sollte.
Gewichtung der Endpunkte und EffekteNeben der grundsätzlichen Frage zur Relevanz eines Endpunktes stellt sich im Rahmen einer Nutzenbewertung zudem die Frage, wie relevant ein Endpunkt oder Effekt ist. Das IQWiG unterscheidet in den eigenen Methoden drei hierarchische Kategorien der Zielgröße: 1. Gesamtmortalität, 2. schwerwiegende (bzw. schwere) Symptome und Nebenwirkungen sowie gesundheitsbezogene Lebensqualität sowie 3. nicht schwerwiegende (bzw. nicht schwere) Symptome und Nebenwirkungen.
Allein die Einordnung einer Zielgröße als schwerwiegend oder nicht schwerwiegend ist jedoch nicht immer hinreichend transparent und trivial. So ist am bereits skizzierten Beispiel eines Anwendungsgebiets wie mittelschwere bis schwere Plaque-Psoriasis zu beobachten, dass eine pauschale Einstufung des Endpunktes PASI 100 (Komplettremission) unter „nicht schwerwiegende / nicht schwere Symptome“ durchaus Fragen aufwerfen kann. In vielen Fällen basiert die hierarchische Zuordnung einer Zielgröße (so z. B. aus einem EORTC QLQ-C30 Fragebogen bei onkologischen Erkrankungen) nur durch die formale Einordnung in die Kategorien Morbidität oder Lebensqualität. Dies kann zur systematischen Verzerrung der Einstufungen bei Endpunkten der Morbiditätskategorie führen, da sie im Zweifel unter „nicht schwerwiegend“ verortet werden und damit eine höhere Hürde bei der Bewertung haben.
Diesbezüglich wirft sicherlich auch die Methodik zur Bestimmung des Ausmaßes eines Zusatznutzens eine Reihe an kritischen Fragen auf. So steht dieser Sonderweg zur Ausmaßbestimmung für relative Effektmaße von Beginn an in der Kritik, insbesondere aufgrund der (im institutseigenen Binnenkonsens) festgelegten pauschalen Schwellenwerte für obere Konfidenzintervallgrenzen, normative Setzungen oder die Annahme von zwei Studien über alle Therapiesituationen.
Zwar wird auf die IQWiG-Methodik zur Ausmaßbestimmung vom G-BA seit 2011 nicht abgestellt (dies wird in allen tragenden Gründen zu den Beschlüssen explizit erwähnt), dennoch ist davon auszugehen, dass sie die Nutzenbewertungen nachhaltig prägt. Auch die festgesetzten Schwellenwerte für stetige Zielgrößen in Kombination mit dem konservativen Ansatz einer verschobenen Hypothesengrenze entsprechen nicht den international anerkannten Kriterien oder Standards der evidenzbasierten Medizin und stellen so eine zusätzliche Herausforderung dar (IQWiG 2022).
Problematisch ist zuletzt auch die Bewertung der grundsätzlichen Relevanz der PRO-Effekte. Die Forderung von etablierten und validierten MID-Schwellen (minimal important difference) wurde bei Responderanalysen mit einer starren 15 Prozent-Formel ersetzt. Sind demnach in einer Studie Responderanalysen präspezifiziert und entspricht das Responsekriterium mindestens 15 Prozent der Skalenspannweite des verwendeten Erhebungsinstruments, so werden diese Analysen für die Bewertung herangezogen.
Dieser „One-size-fits-all“-Ansatz ist jedoch aus vielerlei Hinsicht umstritten, insbesondere, da auch er als Sonderweg den Entwicklungsansatz der internationalen Wissenschaft zur Verbesserung von Bewertungsstandards mittels sinnvoller Qualitätskriterien außer Acht lässt und bekannte Unterschiede der Patientensicht auf bedeutsame Ergebnisse nicht hinreichend berücksichtigt (Böhme et al 2022, Schlichting et al 2022).
Die IQWiG-Methodik führt zudem dazu, dass selbst bei gewährleisteter klinischer Relevanz durch das vordefinierte Responderkriterium ein statistisch signifikanter Effekt für manche PROs nicht zwangsläufig zum anerkannten Effekt führt. Denn zusätzlich zum o.g. Responsekriterium von 15 Prozent greift ein weiteres Relevanzkriterium, nämlich das des Schwellenwertes für das obere Konfidenzintervall (für nicht schwerwiegende Symptome). Dies führt zu einer Doppelung der Relevanzkriterien und einer überkonservativen Einordnung der PRO-Effekte.
GesamtabwägungSchließlich steht eine Gesamtabwägung der Endpunkte und Therapieeffekte im Fokus einer Entscheidung zum Zusatznutzen. Sie erfolgt vom G-BA stellvertretend für die Patient:innen und deren Präferenzen, jedoch ohne eines formalen und hinreichend transparenten Verfahrens bei der Gewichtung. Studien zur Messung von Patientenpräferenzen wurden im AMNOG-Verfahren bislang nicht berücksichtigt.
Einige Einordnungen werfen hier Fragen auf, so z. B. im Falle einer Einordnung der Therapievorteile als geringer Zusatznutzen. Ein solcher liegt im Sinne der AM-NutzenV dann vor, wenn eine „bisher nicht erreichte moderate und nicht nur geringfügige Verbesserung des therapierelevanten Nutzens [...] erreicht wird, insbesondere eine Verringerung von nicht schwerwiegenden Symptomen der Erkrankung oder eine relevante Vermeidung von Nebenwirkungen“.
In der Bewertungspraxis des G-BA fallen darunter jedoch auch Bewertungen mit einer Verlängerung des Gesamtüberlebens, einer Vermeidung von Rezidiven bei onkologischen Erkrankungen, häufigeren Komplettremissionen der schweren Plaque-Psoriasis bei Kindern und Jugendlichen oder auch multiplen Vorteilen bei Patient:innen mit mittelschwerem bis schwerem aktivem Morbus Crohn. Eine Abwägung der Effekte ist zuletzt mit der Einführung der sogenannten „Leitplanken“ im GKV-FinStG noch entscheidender geworden, da bereits eine kleine Veränderung in der Einordnung des Zusatznutzenausmaßes (auch über Abbildung von methodischen Restunsicherheiten) über den Geltungsrahmen dieser Leitplanken in den Verhandlungen entscheiden kann.
Europäische PerspektiveEine perspektivische und doch unmittelbar bevorstehende Herausforderung ist zudem der Prozess des europäischen HTA. Dieser startet im Januar 2025 mit der Bewertung von Arzneimitteln für neuartige Therapien (ATMP) sowie onkologischen Arzneimitteln. Ab dem Jahr 2028 sollen dann Bewertungen von Orphan Drugs und ab 2030 für andere Medikamente folgen. Eine wesentliche Unsicherheit ist dabei die unsichere Anzahl an nationalen PICO-Fragestellungen, die sich u.a. aus angeforderten und verfügbaren Endpunkten, aber auch möglichen Operationalisierungen und Auswertungen der Endpunkte zusammensetzt.
Dies mündet zugleich in der Herausforderung, wie das nationale „Delta-Dossier“ für den AMNOG-Prozess auszugestalten sein wird. Ebenso spannend bleibt es, ob zukünftig die angestrebte Harmonisierung der methodischen Anforderungen erreicht wird und welche Wechselwirkungen sich aus dem unterschiedlichen Umgang mit Endpunkten im europäischen HTA und der AMNOG-Nutzenbewertung ergeben. So zum Beispiel auch hinsichtlich des verankerten Ansatzes von „patientenzentrierten Endpunkten“ (inklusive z. B. Präferenzen oder Bedürfnisse), der im europäischen HTA verfolgt wird.
FazitAbschließend können zentrale Herausforderungen im Umgang mit Endpunkten im Rahmen der Nutzenbewertung wie folgt festgehalten werden. Es bedarf:
einer stärkeren Fokussierung auf akzeptierte und etablierte Methoden, die den internationalen Standards der evidenzbasierten Medizin entsprechen,
einer höheren Transparenz der Einordnung und Abwägung von Endpunkten,
einer Berücksichtigung der Besonderheiten von Therapiesituationen im Rahmen der Nutzenbewertung.
© vfa / B. Brundert
Dr. PH Andrej Rasch, ist seit 2013 beim Verband Forschender Arzneimittelhersteller e.V. (vfa) als Senior Manager Nutzenbewertung/HTA-Koordination tätig. Davor war er als Forschungsbereichsleiter Arzneimittel beim Wissenschaftlichen Institut der AOK (WIdO), Methodiker beim Gemeinsamen Bundesausschuss (G-BA) und wissenschaftlicher Mitarbeiter an der Fakultät für Gesundheitswissenschaften der Universität Bielefeld tätig.
1 Böhme et al. Es braucht neue Ansätze für Lebensqualitätsdaten, in Monitor Versorgungsforschung (01/22), S. 43-47
2 Brand et al. Value in Health, Volume 25, Issue 12S (December 2022), https://go.sn.pub/y32ial.
3 IQWiG. Aussagekraft von Surrogatendpunkten in der Onkologie. Rapid Report. IQWiG-Berichte – Jahr: 2011 Nr. 80
4 IQWiG. Dokumentation und Würdigung der Anhörung zum Entwurf der Allgemeinen Methoden 6.1, Version 1.0 vom 22.03.2022
5 Kramer et al. Health-related quality of life (HRQoL) in German early benefit assessment: The importance of disease-specific instruments, in: ZEFQ (2024), https://doi.org/10.1016/j.zefq.2024.02.003
6 Nast et al. Deutsche S3-Leitlinie zur Therapie der Psoriasis vulgaris, adaptiert von EuroGuiDerm – Teil 1: Therapieziele und Therapieempfehlungen. J Dtsch Dermatol Ges 2021 Jun;19(6):934-951.
7 Schlichting et al. Is IQWiG’s 15% Threshold Universally Applicable in Assessing the Clinical Relevance of Patient-Reported Outcomes Changes? An ISPOR Special Interest Group Report. Value Health 2022 Sep;25(9):1463-1468.
8 Teixeira et al. (2022) A review of patient-reported outcomes used for regulatory approval of oncology medicinal products in the European Union between 2017 and 2020. Front. Med. 9:968272.
Arzte zeitung