Klinische Studien sind das Alpha und Omega wenn es darum geht, neue Medikamente zu erproben, zu beurteilen und in letzter Instanz, ihnen eine behördliche Registrierung und Genehmigung zu erteilen. Sie sollen die Wirksamkeit von pharmakologisch wirksamen Substanzen absichern, das Nebenwirkungsspektrum beschreiben (je weniger, desto besser) und Langzeiteffekte antizipieren, falls möglich. Somit beschreiben klinische Studien einen Wirkzusammenhang zwischen der neuen Substanz und deren Wirkung auf eine bestimmte Erkrankung? Ja-ein. . .
Es gibt verschiedene Ansatzpunkte bei Studien, die Gründe für Kritik oder sogar Ablehnung liefern. In der Praxis können Studien schlecht geplant oder nachlässig durchgeführt werden. Es sind Fälle bekannt, wo Ergebnisse manipuliert worden sind, um zu den gewünschten Ergebnissen zu kommen. Aber auch ohne diese Extremfälle gibt es einige Punkte zu erläutern, die die Zuverlässigkeit von Studien in Frage stellen, wenn man die Kriterien missinterpretiert oder einfach nur einer vollkommenen „Studien-Gläubigkeit“ anhängt.
Übrigens: Wenn Sie solche Informationen interessieren, dann fordern Sie unbedingt meinen kostenlosen Praxis-Newsletter „Unabhängig. Natürlich. Klare Kante.“ dazu an:
Von Signifikanzen und Irrtumswahrscheinlichkeiten
Die Auswertung von klinischen Studien erfolgt mittels statistischer Methoden. „Gute“ Studien sind randomisiert, doppel-blind und Placebo kontrolliert. Das heißt vereinfacht, dass die behandelnden Ärzte, Pflegepersonal usw. nicht wissen, welcher Studienteilnehmer/Patient das neue Medikament bekommt und welcher nur das Placebo (Scheinpräparat).
Der Verteilungsschlüssel ist nur der Studienkommission bekannt. Damit sollen subjektive Faktoren ausgeschlossen werden. Die Tablettenform des neuen, zu testenden Präparats und des Scheinpräparats sind so gestaltet, dass niemand in der Lage ist, zu beurteilen, welches das Verum und welches das Placebo ist. Die Patienten erhalten nur das Präparat A oder B über den von der Studie vorgesehenen Zeitraum, ohne zu wissen, ob sie in den Genuss des neuen Mittels kommen.
Die Beurteilung der Effizienz der neuen Substanz erfolgt auf rein statistischer Grundlage. Es werden „einfach“ die Effekte bei den Verum-Patienten mit den Effekten bei den Placebo-Patienten verglichen und statistisch ausgewertet. Die Beurteilung von Erfolg oder Misserfolg hängt von der Signifikanz der Ergebnisse ab. Der Signifikanzlevel liegt in der Regel bei 95 Prozent. Die Signifikanz wird laut Lehrbuch definiert als die Wahrscheinlichkeit (p-Wert; p = probability), dass das gefundene Ergebnis nicht Resultat von Zufall ist.
Das heißt also bei p = 0,95 oder 95 %, dass bei 100 vergleichbaren Studien, höchstens 5 Studien zu einem negativen Ergebnis kommen dürfen, 95 zu einem positiven, um als positiv signifikant zu gelten. Vergleichbar heißt in diesem Zusammenhang, dass Studienaufbau, -gestaltung, -durchführung, Probandenzahl, zu prüfende Substanz und Substanzmenge, Zeitraum etc. idealerweise bei allen 100 Studien identisch sind. Da aber in der Realität 100 verschiedene Studien zu ein und dem selben Präparat nicht machbar sind, wird über statistische Rechenverfahren diese 100-fache Prüfsituation „simuliert“. Wichtig ist dabei, dass in der einzigen verfügbaren Studie, die jetzt per Statistik auf 100 Studien „aufgeblasen“ werden soll, eine ausreichend hohe Probandenzahl gegeben ist, um statistisch relevant zu sein.
Wenn also der statistische Vergleich der beobachteten Ergebnisse von Verum- und Placebogruppe zu dem Ergebnis kommt, dass die beobachteten Unterschiede bezüglich der Wirksamkeit zwischen beiden Gruppen signifikant sind, dann ist das Berechnungsergebnis notwendigerweise p>0,95 (p ist größer als 0,95). Oder: Die Wahrscheinlichkeit, dass die beobachteten Unterschiede zwischen der Wirksamkeit von Verum- und Placebogruppe nicht zufällig sind, beträgt mehr als 95 Prozent. In diesem Fall wird davon ausgegangen, dass das neue Medikament wirksam ist. Einer Veröffentlichung steht dann fast nichts mehr im Wege.
Bislang ergaben sich noch keine großen Unterschiede zwischen Signifikanz und Irrtumswahrscheinlichkeit. In der Tat, beide Begriffe werden oft synonym gehandelt. Unter bestimmten Bedingungen, wie in der naturwissenschaftlichen Grundlagenforschung, ist diese Gleichsetzung berechtigt.
In der klinischen Forschung ist sie nicht zulässig, denn es ergeben sich immer wieder Diskrepanzen zwischen verschiedenen Studien, die zu verschiedenen Zeitpunkten von verschiedenen Teams veröffentlicht wurden. So gibt es die unterschiedlichsten Studienergebnisse zu der Frage, ob Vitamine mit Antioxidans-Charakter einen Einfluss auf die Krebsentstehung haben. Es gibt Studien, die einen signifikant positiven Effekt zeigen konnten, während andere keinen oder sogar negative Trends demonstrierten. Bei solchen Ergebnissen ergeben sich Irrtumswahrscheinlichkeiten, die der Signifikanz der einzelnen Studien vollkommen widersprechen. Oder: Wäre die Signifikanz einer Studie gleichzusetzen mit deren Irrtumswahrscheinlichkeit, dann gäbe es keine (oder sehr wenige = weniger als 5 Prozent) vergleichbare Studien mit unterschiedlichen Ergebnissen.
Ein Blick auf die andere Seite der Medaille: Bei negativen Ergebnissen von Studien sieht der Sachverhalt folgendermaßen aus: Wenn bei 20 vergleichbaren Studien nur eine Studie positiv ausfällt, dann gilt das negative Ergebnis als statistisch signifikant (1 von 20 = 95%). Bei Unterschlagung von 19 negativen Studien wird eine falsche positive Signifikanz erzeugt, deren Irrtumswahrscheinlichkeit weit von der künstlich produzierten Signifikanz abweicht.
Klinische Forschung, Wissenschaft von den Füßen auf den Kopf gestellt
Der Unterschied im Gebrauch der Statistik in klinischer Forschung und naturwissenschaftlicher Forschung ist (nicht nur statistisch) signifikant. In der naturwissenschaftlichen Grundlagenforschung wird die Statistik primär bemüht, um statistische Korrelationen zwischen verschiedenen Ereignissen zu prüfen. Denn es ist zu mühsam und meist auch zu teuer, um verschiedene Phänomene auf kausale Zusammenhänge zu untersuchen, um dann letztendlich festzustellen, dass es keine gibt.
Hier hilft die Statistik, Korrelationen zu finden bzw. auszuschließen. So findet man in der Populationsgenetik häufig Gene in bestimmten Populationen angehäuft, die in einem Zusammenhang mit lokalen Besonderheiten zu stehen scheinen, häufig mit Erkrankungen oder klimatischen Bedingungen. Eine statistische Evaluierung würde hier eine signifikante Korrelation zeigen. Diese Korrelation stellt aber erst den Ausgangspunkt dar für eine mögliche kausale Erklärung des statistischen Phänomens und nicht die Erklärung selbst. Falls bei einer Untersuchung eine statistische Signifikanz beobachtet worden ist, erst dann beginnt die eigentliche Arbeit, das Phänomen zu erklären.
So ist es auffällig, dass z.B. in Gebieten mit Malaria die Sichelzellanämie statistisch signifikant häufiger auftritt als in malariafreien Gebieten. Heute wissen wir, dass es dafür eine Verbindung, eine Ursache gibt, die darin besteht, das Individuen mit einem Sichelzellgen (-allel) eine natürliche Resistenz gegen Malaria haben. Individuen mit normalen Erythrozyten dagegen haben in Malariagegenden einen selektiven Nachteil, weil sie mit großer Wahrscheinlichkeit schon in jungen Jahren an Malaria erkranken und vielleicht sogar vor dem fortpflanzungsfähigen Alter sterben. Die Rolle der Statistik hier ist die eines „Hinweisschildes“ auf mögliche Zusammenhänge, die Erklärung selbst kann die Statistik nicht geben.
Die klinische Forschung macht wissenschaftlich einen Fallrückzieher. Sie postulieren Kausalitäten zwischen pharmakologisch wirksamen Substanzen und den Erkrankungen, für die die Substanzen geschaffen worden sind, und bemühen dann die Statistik um diese Kausalitäten zu bestätigen. Da, wo in der naturwissenschaftlichen Grundlagenforschung die Statistik bestenfalls ein Hilfsmittel ist, wird sie in der klinischen Forschung zum alleinigen Beweismittel erhoben. Das magische Wort für den Beweis heißt „Signifikanz“. Wir haben es hier also mit einer kompletten Umkehrung von wissenschaftlicher Vorgehensweise zu tun, zumindest was den Einsatz der Statistik betrifft.
Die groteske Form der Handhabung klinischer Statistik lässt sich an einem übertragenen Beispiel rekonstruieren: Es ist bekannt, dass die Störche als Zugvögel im Frühjahr von Afrika zurückkommen, um den Sommer in nördlichen Gefilden zu verbringen. Gleichzeitig konnte beobachtet werden, dass in dem fraglichen Zeitraum die Geburtenrate in der Bevölkerung signifikant anstieg. Die klinische Statistik wird diesen Zusammenhang als Beweis dafür ansehen, dass die Störche doch die Kinder bringen. Ohne die Kenntnisse biologischer Hintergründe von der Fortpflanzung des Menschen wäre es durchaus denkbar, dass ein außerirdischer Statistiker dieses Postulat aufstellen würde.
Die Statistik ist eine Hure, mit der man alles, was man beweisen will, auch beweisen kann. Man muss sie nur richtig zu manipulieren wissen.
Übrigens: Wenn Sie solche Informationen interessieren, dann fordern Sie unbedingt meinen kostenlosen Praxis-Newsletter „Unabhängig. Natürlich. Klare Kante.“ dazu an: