Heft 849, Februar 2020

Die Replikationskrise

von Aubrey Clayton

Drei Geschichten, ein und dasselbe Problem. Erstens: Im Herbst 1996 brachte Sally Clark, eine englische Rechtsanwältin aus Manchester, einen augenscheinlich gesunden kleinen Jungen zur Welt, der im Alter von elf Wochen plötzlich verstarb. Sie hatte sich noch nicht vollends von dem traumatischen Vorfall erholt, als sie im Jahr darauf einen weiteren kleinen Jungen bekam. Tragischerweise starb auch er acht Wochen nach der Geburt. Die Ursachen für den Tod der beiden Kinder waren nicht ersichtlich, und die Polizei vermutete, dass es sich nicht um einen Zufall handelte. Clark wurde verhaftet und des zweifachen Mordes angeklagt. Der Kinderarzt Roy Meadow, der den Begriff »Münchhausen-Stellvertretersyndrom« geprägt hatte, sagte im Prozess aus, es sei äußerst unwahrscheinlich, dass zwei Kinder aus einer gutsituierten Familie wie der der Clarks hintereinander an Plötzlichem Kindstod (SIDS) sterben. Er schätzte die Wahrscheinlichkeit auf eins zu 73 Millionen, was er sehr anschaulich mit einem Rennpferd verglich, das als unwahrscheinlicher 80:1-Longshot gehandelt wird und dann beim Grand National Horse Race vier Jahre hintereinander gewinnt. Clark wurde zu lebenslanger Haft verurteilt. Die Presse beschimpfte sie als Kindsmörderin.

Zweitens: Angenommen, eine rundum gesunde Frau Mitte vierzig bemerkt einen verdächtigen Knoten in ihrer Brust und lässt eine Mammografie machen. Die Auswertung ergibt, dass der Knoten bösartig ist. Sie will wissen, ob die Chance besteht, dass die Diagnose falsch ist. Ihr Arzt antwortet, dass diese Scans, im Rahmen dessen, was diagnostische Werkzeuge leisten können, sehr präzise sind. Ein solcher Scan finde fast 100 Prozent der wahren Krebserkrankungen und identifiziere nur in etwa 5 Prozent der Fälle einen gutartigen Knoten fälschlicherweise als Krebs. Daher sei die Wahrscheinlichkeit, dass es sich um eine falsche positive Diagnose handelt, sehr gering, etwa 1 zu 20.

Drittens: Im Jahr 2012 behauptete Ara Norenzayan, Professor an der University of British Columbia, beweisen zu können, dass der Anblick von Rodins Skulptur Der Denker Menschen weniger religiös machen würde. In einer Studie mit 57 Studenten wies er die Teilnehmer nach dem Zufallsprinzip dazu an, entweder den Denker oder ein Kontrollbild – den Diskobolos von Myron, eine Skulptur eines griechischen Athleten, der einen Diskus wirft – anzusehen, um dann ihren Glauben an Gott auf einer Skala von 1 bis 100 zu bewerten. Probanden, die dem Denker ausgesetzt waren, erreichten einen deutlich niedrigeren mittleren Gottesglauben-Score von 41,42 gegenüber 61,55 in der Kontrollgruppe. Die Wahrscheinlichkeit, eine so große Differenz allein durch Zufall zu beobachten, betrug etwa 3 Prozent. So kamen Norenzayan und sein Ko-Autor zu dem Schluss, dass der Denker die Teilnehmer veranlasst hatte, analytisch zu denken, und dass »eine neue visuelle Prämisse, die analytisches Denken anregt, auch den Unglauben an Gott fördert«.

Alle drei dieser Darstellungen weisen den gleichen Fehler bei der Argumentation mit Wahrscheinlichkeiten auf. Die ersten beiden sind Beispiele für bekannte Irrtümer, die als prosecutor’s fallacy beziehungsweise als Basisratenfehler bezeichnet werden. Die dritte ist eine typische statistische Analyse einer wissenschaftlichen Studie, wie sie heute in den meisten renommierten Zeitschriften zu finden ist. Tatsächlich wurden die Ergebnisse von Norenzayan in Science veröffentlicht und bisher 424 Mal in der Forschungsliteratur zitiert. Atheisten begrüßten die Studie als wissenschaftlichen Beweis dafür, dass Religion irrational sei; religiöse Menschen waren angesichts der Andeutung, dass die Quelle ihres Glaubens ein Mangel an Vernunft sein sollte, verständlicherweise verärgert.

Der Denkfehler, der den drei Beispielen zugrunde liegt, steht in Zusammenhang mit der Frage, warum so viele der Studienergebnisse in Astronomie bis Zoologie nicht reproduzierbar sind. Über dieses große Problem zerbricht sich die Welt der Wissenschaft derzeit den Kopf.

Die mathematische Linse, die es uns erlaubt, den Fehler in diesen Argumenten zu erkennen, ist der Satz von Bayes. Das Theorem besagt, dass die Wahrscheinlichkeit, die wir einer Theorie im Hinblick auf eine gewisse Beobachtung zuordnen (Sally Clark ist schuldig, ein Patient hat Krebs, Studierende glauben weniger an Gott, wenn sie Rodin anstarren), sich nicht nur proportional zur »bedingten Wahrscheinlichkeit« der Beobachtung verhält (die sich auf die Annahme gründet, dass die Theorie stimmt), sondern sich außerdem proportional verhält zu der sogenannten »Anfangswahrscheinlichkeit«, die wir der Theorie zugesprochen hätten, bevor wir die Beobachtung machten.1 Konkurrieren zwei Theorien miteinander, kann es sein, dass die eine Theorie die besagte Beobachtung als viel wahrscheinlicher wertet, als es die andere Theorie tut, das heißt sie erzeugt eine höhere »bedingte Wahrscheinlichkeit«. Nach dem Bayes’schen Satz können wir dieser Theorie trotzdem weiterhin skeptisch gegenüberstehen – sie als eine unwahrscheinliche Erklärung für die Beobachtung erachten –, wenn wir nämlich eingangs festgehalten haben, dass es unwahrscheinlich ist, dass sie wahr ist.

Demnach ist der fehlende Bestandteil in allen drei Beispielen die Anfangswahrscheinlichkeit der verschiedenen Hypothesen. Im Fall von Sally Clark bestand die Theorie der Staatsanwaltschaft daraus, dass sie ihre Kinder ermordet habe, was äußerst selten vorkommt. Nehmen wir um der Argumentation willen einmal an, durch die Auswertung historischer Mordaufzeichnungen kämen wir auf eine Anfangswahrscheinlichkeit von 100 Millionen zu eins, dass eine Mutter in einer vergleichbaren Lage einen doppelten Kindsmord begeht. Das hätte die extreme Unwahrscheinlichkeit der Beobachtung (dass zwei Säuglinge nacheinander versterben, vorausgesetzt, sie wurden gut versorgt) aufgewogen. In Zahlen ausgedrückt würde der Bayes’sche Satz folgenden Vergleich von uns fordern:

(1/73 000 000) * (99 999 999/100 000 000) vs. (1) * (1/100 000 000)

Wir würden feststellen, basierend auf diesen Anfangswahrscheinlichkeiten und ohne zusätzliche Informationen zum Tod der Kinder, dass Clark tatsächlich mit etwa 58-prozentiger Wahrscheinlichkeit unschuldig war.

Für das Beispiel Brustkrebs müsste der Arzt die Gesamtinzidenzrate von Krebs bei ähnlichen Frauen mit ähnlichen Symptomen berücksichtigen, nicht aber das Ergebnis der Mammografie.2 Vielleicht würde ein Arzt aus Erfahrung sagen können, dass in etwa 99 Prozent der Fälle, bei denen eine vergleichbare Patientin einen Knoten findet, er sich als gutartig herausstellt. Die geringe Anfangswahrscheinlichkeit dafür, dass man einen bösartigen Tumor hat, würde also die geringe Wahrscheinlichkeit eines falsch positiven Scanergebnisses aufwiegen. Hier würden wir folgende Zahlen vergleichen:

(0,05) * (0,99) vs. (1) * (0,01)

Möchten Sie weiterlesen?

Mit dem Digital-Abo erhalten Sie freien Zugang zum gesamten MERKUR, mit allen Texten von 1947 bis heute. Testen Sie 3 Monate Digital-Abo zum Sonderpreis von nur 9,90 Euro.

Jetzt Probelesen