Randomisierter kontrollierter Unfug
Christoph Pöppe
Wer unvorbereitet auf den Artikel „Effects of remote, retroactive intercessory prayer on outcomes in patients with bloodstream infection: randomised controlled trial“ stößt, der im Dezember 2001 im renommierten „British Medical Journal“ veröffentlicht wurde, dürfte mit absolut ungläubigem Kopfschütteln reagieren – oder mit schallendem Gelächter. Der Autor Leonard Leibovici untersuchte, ob Stoßgebete zugunsten von Krankenhauspatientinnen und -patienten mit Blutvergiftung eine günstige Wirkung auf ihr Wohlergehen haben, und fand einen kleinen, allerdings deutlichen Effekt. Nur wurden die Fürbitten erst Jahre nach dem Krankenhausaufenthalt der Betroffenen gesprochen!
Richtig lachhaft wird die Geschichte erst durch den Kontext, in dem sie erscheint. Das British Medical Journal verlangt von seinen Autorinnen und Autoren, dass sie in einem sehr formalisierten „Abstract“ Auskunft auf gewisse Standardfragen geben: „Ziel der Studie? Studiendesign? Auswahl der Versuchspersonen? Art der Behandlung? Messskala für den Erfolg? Ergebnisse?“ und einige mehr. Und von der Art der Behandlung abgesehen sind die Antworten sämtlich vom Feinsten. Das Rabin Medical Center in Petah-Tiqva ist eines der größten und renommiertesten Krankenhäuser Israels; die Anzahl der Versuchspersonen war 3393, eine Größenordnung, von der andere medizinisch Forschende nur träumen können; und diese Personen wurden streng nach dem Zufall in die Behandlungs- und die Kontrollgruppe eingeteilt, wobei zusätzlich darauf geachtet wurde, dass nicht eine wesentliche Eigenschaft – Geschlecht, Alter, Art der Vorerkrankung und so weiter – in einer der Gruppen deutlich anders ausgeprägt war als in der anderen. Damit erfüllt die Studie die Kriterien des „randomised controlled trial“, was wiederum für professionelle Medizinerinnen und Mediziner die unabdingbare Voraussetzung ist, ein Ergebnis für voll zu nehmen.
So wie es aussieht, hat das nachträgliche Beten dem Überleben der Erkrankten nicht nennenswert aufgeholfen. Von den Angehörigen der Behandlungsgruppe haben 28,1 Prozent das Krankenhaus nicht lebend verlassen, von denen der Kontrollgruppe 30,2 Prozent. Der Unterschied ist selbst bei dem großen Kollektiv zu klein, um signifikant zu sein. Aber die durchschnittliche Verweildauer der Bebeteten war deutlich kürzer als die der übrigen. Der berüchtigte p-Wert lag bei stolzen 0,01, also weit unter der Grenze von 0,05, bis zu der man anzunehmen pflegt, dass die Abweichung nicht schon durch Zufall zustande kommt.
Konsequenterweise empfiehlt Leonard Leibovici die Anwendung seines Verfahrens in der klinischen Praxis. Immerhin sei die Behandlung kostengünstig – in der Tat – und höchstwahrscheinlich ohne schädliche Nebenwirkungen. Das ist richtig: Wo keine Wirkung ist, kann es auch keine Nebenwirkungen geben. Dieses Argument bringt der Autor allerdings nicht an, aus nachvollziehbaren Gründen.
Wie kommt dieser ausgemachte Quatsch in eine stockseriöse wissenschaftliche Zeitschrift? Da gab es den weithin bekannt gewordenen „Sokal Hoax“: Der Physiker Alan Sokal hatte 1996 der Zeitschrift „Social Text“ ein Manuskript eingereicht, in dem er die Ergebnisse seines eigenen Fachs zu bloßen gesellschaftlichen Vereinbarungen herabwürdigte: „Es stellt sich immer deutlicher heraus, dass die physikalische ,Realität‘, nicht anders als die gesellschaftliche ,Realität‘, im Grunde ein soziales und linguistisches Konstrukt ist; dass wissenschaftliche ,Erkenntnis‘ alles andere als objektiv ist, sondern vielmehr die dominanten Ideologien und die Machtverhältnisse der Kultur wiederspiegelt, die selbige hervorgebracht hat …“ Weiter geht es unter wilder Vermischung physikalischer Fachbegriffe mit Soziologenjargon, so erfolgreich, dass die Herausgeber der Zeitschrift das Manuskript akzeptierten. Hohn und Spott ergoss sich über sie, nachdem Sokal enthüllte, dass sein ganzer Text ein einziger Blödsinn war.
Hier liegen die Verhältnisse deutlich anders. Zu offensichtlich hat Leibovici seinen Blödsinn formuliert und zu allem Überfluss noch eine Abbildung eines Zellabstrichs beigefügt, die er als „Rudolf the red-nosed reindeer“ bezeichnet – na ja, es gibt eine entfernte Ähnlichkeit. Nein – die Herausgeber haben ihren Lesern diesen Text mit der Kopfzeile „Beyond Science“ als Schmankerl zu Weihnachten serviert.
Unter den zahlreichen Leserreaktionen auf den Artikel führen etliche den Unfug noch weiter. Andrew M. Thornett von der australischen Adelaide University überschüttet den Autor zunächst mit Lob, bemängelt jedoch, dass die Religionszugehörigkeit der Betenden nicht erwähnt wird. In dieser Richtung weiter gedacht: Natürlich kann das Ärger geben, wenn die Fürbitte nicht an den Gott gerichtet wird, an den der Patient glaubt, sondern an den Kollegen vom anderen Gebetbuch. Demnach könnte die Studie, weil sie darauf nicht achtete, den Effekt sogar noch unterschätzen.
Übrigens bekamen die Betenden von ihren Schützlingen nichts weiter mitgeteilt als den Vornamen. Also hätten auch Mitglieder der Kontrollgruppe, die zufällig denselben Vornamen tragen, in gleichem Maße von den zugehörigen Fürbitten profitiert, wodurch der eigentlich zu messende Effekt ebenfalls verwässert worden wäre.
Manche Kommentatoren schlagen vor, jetzt auch die Kontrollgruppe mit Gebeten zu bedenken und nachzusehen, ob sich dadurch die Daten aus der Vergangenheit verändern. Ein solcher Akt sei schon durch die Deklaration von Helsinki zur ärztlichen Ethik geboten, weil man niemandem eine nachweislich effektive Behandlung ohne guten Grund vorenthalten dürfe.
Aber: Wenn wir schon, zum Beispiel durch Gebete, in die Vergangenheit einwirken könnten, dann würden wir das niemals merken! Schließlich ist uns nur unsere jeweils „aktuelle“ Vergangenheit zugänglich. Für die Kontrollgruppe zu beten hätte möglicherweise den Effekt, dass es daraufhin deren Mitgliedern besser gegangen ist als gerade eben noch. Damit hätten sich auch die Krankenakten verändert, die Leibovici für seinen Artikel verwendet hat, und es gäbe einen entsprechend anderen Artikel … Eine von vielen Möglichkeiten, sich aus dem Zeitreise-Paradox herauszuwinden.
Das ist ja alles ganz lustig und eine nette intellektuelle Spielerei. Problematisch bis sogar erschreckend sind dagegen in meinen Augen die Kommentare der Leute, die den Artikel für voll nehmen. Nicht wenige sehen in dem Ergebnis einen Beweis der Existenz Gottes. Ein Leserbriefschreiber berichtet über Erfahrungen vom Typ „ein gegenwärtiges Ereignis beeinflusst ein vergangenes“ in einem völlig anderen Kontext und verweist auf seine sehr esoterische Website.
Etliche Leute nutzen die Online-Leserbriefspalte des British Medical Journal für umfangreiche Abhandlungen über das Wesen Gottes, insbesondere seine Unabhängigkeit von unserer Zeit, was ihn befähige, in die Vergangenheit einzugreifen. Im übrigen sei ja das Prinzip, dass die Ursache der Folge stets zeitlich vorausgeht, bereits in der Quantenmechanik verletzt (eine sehr abenteuerliche Interpretation der „spukhaften Fernwirkung“). Weiter geht es mit dem Urknall, kosmischen Wurmlöchern und allem, was die moderne Physik an philosophielastigen Theorien zu bieten hat. Leute, es war ein Witz!
Es kommt noch schlimmer. Leibovici bemerkt zutreffend, dass sein Thema in der bisherigen Literatur kaum vorkommt, zitiert dann aber immerhin eine einschlägige Arbeit von neun Medizinern aus drei amerikanischen Instituten. Untersucht wurde der Effekt von Gebeten auf das Schicksal von Patienten der Coronary Care Unit am Mid America Heart Institute in Kansas City. Es geht also um Menschen, die einen Herzinfarkt erlitten haben oder gerade noch rechtzeitig vorher eingeliefert wurden. Im Gegensatz zu Leibovici beschreiben die Autoren sehr detailliert, wer die Betenden waren und was sie im Einzelnen zu tun hatten. Auch in diesem Fall sind sie ihren „Nutznießern“ nie persönlich begegnet und kannten nichts weiter von ihnen als den Vornamen. Der wesentliche Unterschied: Die Gebete setzten bereits ein, während die Patientinnen und Patienten noch im Krankenhaus lagen. Die Hypothese einer zeitlichen Rückwirkung stand also nicht zur Debatte. Und die Patienten, nach allen Regeln der Kunst randomisiert in Behandlungs- und Kontrollgruppe eingeteilt, wussten nichts von ihrem Glück beziehungsweise Pech. Man konnte also ausschließen, dass das bloße Wissen „Für mich wird gebetet“ einen Effekt hatte.
Im Ergebnis fand sich ein positiver Effekt der Bet-Aktivitäten – nicht berauschend, aber mit einem p-Wert von 0,04 noch deutlich im signifikanten Bereich. Das gilt allerdings nur, wenn man das Schicksal der Patienten nach einem eigens für diese Studie entwickelten System, dem „MAHI-CCU score“, quantifiziert. Nach einer älteren, gröberen Klassifikation ergibt sich kein nennenswerter Effekt.
Offensichtlich ist diese Untersuchung ernst gemeint. Und im Gegensatz zu Leibovicis Studie ist hier die Arbeitshypothese nicht offensichtlich absurd, sondern nur absurd. Erst bei genauem Lesen stellt sich heraus, dass die Betenden ihre „Kunden“ erst mit ungefähr einem Tag Verzögerung zugewiesen bekamen – einleuchtend, ein 24-Stunden-Bet-Notdienst wäre wohl kaum einzurichten gewesen. Nur finden die entscheidenden Eingriffe bei Erkrankungen dieser Art typischerweise in den ersten 24 Stunden nach Einlieferung statt. Und damit fragt die Studie – unbeabsichtigt – eben doch nach einer zeitlichen Rückwirkung, nicht über Jahre wie bei Leibovici, sondern nur über wenige Tage bis Wochen; aber das macht für die Absurdität keinen wesentlichen Unterschied.
Die Autoren sprechen auch offen die Tatsache an, dass es für den von ihnen gefundenen Effekt bislang keine naturwissenschaftliche Erklärung gibt. Aber das entwerte ihre Schlussfolgerungen nicht. Schließlich hatte der schottische Arzt James Lind (1716–1794) in einem der ersten klinisch kontrollierten Experimente nachgewiesen, dass Zitrusfrüchte gegen Skorbut helfen, ohne von dem Wirkstoff Ascorbinsäure (Vitamin C), geschweige denn von dessen Wirkungsweise, auch nur etwas erahnen zu können; ein Argument, das auch Leibovici bringt. Schon richtig; aber irgendwie ist es doch ein Unterschied, ob man von einem physiologischen Prozess nur keine Ahnung hat oder ob man, um auch nur irgendeine Wirkungsweise anzunehmen, die ganze etablierte Physik über den Haufen werfen müsste.
Ironischerweise gelang es den Kommentatorinnen Shehan Hettiaratchy und Carolyn Hemsley, Leibovici eine Unsauberkeit in der Statistik nachzuweisen. Ein Patient in der Kontrollgruppe musste volle 320 Tage im Krankenhaus zubringen, während der Rekordhalter in der Behandlungsgruppe nur auf 165 Tage kam. Solche Ausreißer ziehen den Durchschnittswert in die Höhe und geben dadurch ein falsches Bild, so wie ein einziger Millionär im Dorf das Durchschnittsvermögen der Dorfbewohner in völlig unrealistische Höhen treibt. Sinnvoller ist es in solchen Fällen, anstelle des Durchschnitts den Median zu verwenden, also den Wert mit der Eigenschaft, dass 50 Prozent der Beteiligten darüber und 50 Prozent darunter liegen. Tut man das mit Leibovicis Daten, so schrumpft der vorgebliche Effekt auf den bedeutungslosen Unterschied zwischen 7 Tagen für die Behandlungs- und 8 für die Kontrollgruppe.
Somit scheint auf den ersten Blick alles wieder in Ordnung zu sein. Jemand hat eine absurde Hypothese aufgestellt, und die statistische Auswertung, richtig betrieben, hat sie widerlegt. (Korrekt ausgedrückt: Sie hat keine hinreichend sicheren Hinweise dafür gefunden, dass das Gegenteil der Hypothese falsch ist.) Nur kann man sich darauf nicht verlassen. Der berüchtigte p-Wert von 0,05 besagt ja nur, dass die (geschätzte) Wahrscheinlichkeit, einem Zufallseffekt aufgesessen zu sein, höchstens 5 Prozent beträgt. Im Umkehrschluss heißt das: Es ist damit zu rechnen, dass eine von 20 absurden Hypothesen durch schiere Zufallseffekte eine statistische Bestätigung findet. Wenn man also fleißig Unfug in die Welt setzt und die entsprechenden Behauptungen nach allen Regeln der Statistik überprüft, wird man relativ bald einen Treffer landen.
Und das ist nicht etwa eine spezielle Strategie der Esoteriker. Manche ganz gewöhnlichen Mediziner oder Psychologen haben zwar eine große Menge statistischer Daten erhoben, aber eine Bestätigung der zu testenden Hypothese geben die nicht her. Da aber der arme Doktorand dringend ein publizierbares Ergebnis braucht, berechnet er alle möglichen Korrelationen zwischen Variablen und schreibt dann über diejenigen, die einen p-Wert unter 0,05 liefern – womit er genau die Voraussetzungen untergräbt, unter denen der p-Wert überhaupt Sinn macht. Dieses so genannte p-Hacking, erkennbar an einer auffälligen Häufung von p-Werten knapp unter der Schranke von 0,05, ist inzwischen ein ernsthaftes Problem (siehe auch ein „Spektrum“-Sonderheft zum Thema). So wie es aussieht, leistet es einen erheblichen Beitrag zu der vielbeklagten Reproduzierbarkeitskrise in der Psychologie.
The post Randomisierter kontrollierter Unfug originally appeared on the HLFF SciLogs blog.