Forscher kippen wegweisende Studie zur Replizierbarkeit der psychologischen Wissenschaft

Forscher kippen wegweisende Studie zur Replizierbarkeit der psychologischen Wissenschaft
Forscher kippen wegweisende Studie zur Replizierbarkeit der psychologischen Wissenschaft
Anonim

Laut zwei Harvard-Professoren und ihren Mitarbeitern ist eine wegweisende Studie aus dem Jahr 2015, die zeigt, dass mehr als die Hälfte aller Psychologiestudien nicht repliziert werden können, tatsächlich falsch.

In einem Versuch, die Replizierbarkeit der psychologischen Wissenschaft zu bestimmen, versuchte ein Konsortium von 270 Wissenschaftlern, bekannt als The Open Science Collaboration (OSC), die Ergebnisse von 100 veröffentlichten Studien zu replizieren. Mehr als die Hälfte scheiterte und sorgte weltweit für sensationelle Schlagzeilen über die „Replikationskrise“in der Psychologie.

Aber eine eingehende Untersuchung der Daten durch Daniel Gilbert (Edgar Pierce Professor für Psychologie an der Harvard University), Gary King (Albert J.Weatherhead III University Professor an der Harvard University), Stephen Pettigrew (Doktorand am Department of Government an der Harvard University) und Timothy Wilson (Sherrell J. Aston Professor of Psychology an der University of Virginia) hat enthüllt, dass das OSC einige schwerwiegende Fehler gemacht hat die diese pessimistische Schlussfolgerung völlig unberechtigt machen:

Die Methoden vieler Replikationsstudien unterscheiden sich bemerkenswert von den Originalen, und laut Gilbert, King, Pettigrew und Wilson hatten diese "Untreue" zwei wichtige Konsequenzen.

Erstens fügten sie statistische Fehler in die Daten ein, die dazu führten, dass das OSC deutlich unterschätzte, wie viele ihrer Replikationen allein durch Zufall fehlgeschlagen sein sollten. Wenn dieser Fehler berücksichtigt wird, ist die Anzahl der Fehler in ihren Daten nicht größer, als man erwarten würde, wenn alle 100 ursprünglichen Ergebnisse wahr gewesen wären.

Zweitens entdeckten Gilbert, King, Pettigrew und Wilson, dass die Low-Fidelity-Studien viermal häufiger fehlschlugen als die High-Fidelity-Studien, was darauf hindeutet, dass Replikatoren, wenn sie von den ursprünglichen Methoden abwichen, ihre Fehler verursachten eigenes Studium scheitert.

Schließlich verwendete der OSC ein "Low-Power"-Design. Als Gilbert, King, Pettigrew und Wilson dieses Design auf einen veröffentlichten Datensatz anwendeten, der bekanntermaßen eine hohe Replikationsrate hatte, zeigte er ebenfalls eine niedrige Replikationsrate, was darauf hindeutet, dass das Design des OSC von Anfang an dazu bestimmt war, die Replizierbarkeit von zu unterschätzen psychologische Wissenschaft.

Einzeln, sagten Gilbert und King, würde jedes dieser Probleme ausreichen, um die Schlussfolgerung, die die meisten Menschen aus dieser Studie gezogen haben, in Zweifel zu ziehen, aber zusammengenommen lehnen sie sie vollständig ab. Die Mängel werden in einem Kommentar beschrieben, der am 4. März in Science veröffentlicht wurde.

Wie die meisten Wissenschaftler, die den OSC-Artikel lasen, waren Gilbert, King, Pettigrew und Wilson schockiert und verärgert. Aber als sie begannen, die Methoden zu hinterfragen und die Rohdaten erneut zu analysieren, bemerkten sie sofort Probleme – Probleme, die damit begannen, wie die Replikatoren die 100 Originalstudien ausgewählt hatten.

"Wenn Sie einen Parameter einer Grundgesamtheit schätzen wollen", sagte King, "dann müssen Sie entweder zufällig Stichproben aus dieser Grundgesamtheit ziehen oder statistische Korrekturen für die Tatsache vornehmen, dass Sie dies nicht getan haben. Das OSC hat beides nicht getan."

"Was sie getan haben", fügte Gilbert hinzu, "ist, eine eigenwillige, willkürliche Liste von Stichprobenregeln zu erstellen, die die Mehrheit der Teilgebiete der Psychologie aus der Stichprobe ausschloss, die ganze Klassen von Studien ausschloss, deren Methoden wahrscheinlich zu den besten gehören Wissenschaft aus der Stichprobe usw. Dann verstießen sie gegen alle ihre eigenen Regeln. Schlimmer noch, sie ließen tatsächlich einigen Replikatoren die Wahl, welche Studien sie zu replizieren versuchen würden. Wenn sie die gleichen Methoden zur Probennahme verwendet hätten Menschen statt Studien, kein seriöses wissenschaftliches Journal hätte ihre Ergebnisse veröffentlicht, und so erkannten wir als Erstes, dass sie, egal was sie herausfanden – gute oder schlechte Nachrichten – nie eine Chance hatten, die Reproduzierbarkeit der psychologischen Wissenschaft einzuschätzen, das heißt was der Titel ihrer Arbeit behauptet, sie hätten es getan."

"Und das war erst der Anfang", sagte King. „Wenn Sie hundert Studien replizieren, werden einige allein durch Zufall fehlschlagen. Das ist die grundlegende Stichprobentheorie. Sie müssen also Statistiken verwenden, um abzuschätzen, wie viele der Studien voraussichtlich allein durch Zufall fehlschlagen werden, da sonst die Anzahl, die tatsächlich fehlschlägt Scheitern ist bedeutungslos."

Laut King hat das OSC dies getan, aber sie haben einen kritischen Fehler gemacht.

"Bei ihren Berechnungen versäumten sie es, die Tatsache zu berücksichtigen, dass ihre Replikationsstudien nicht nur neue Proben aus derselben Population waren. Sie unterschieden sich oft in vielerlei Hinsicht stark von den Originalen, und diese Unterschiede sind eine Quelle von statistischen Fehlern. Also haben wir die Berechnung richtig gemacht und sie dann auf ihre Daten angewendet. Und stellen Sie sich vor: Die Anzahl der Fehler, die sie beobachteten, war ungefähr das, was Sie zufällig allein erwarten sollten - selbst wenn alle hundert davon Originalbefunde waren wahr.Das Versagen der Replikationsstudien, mit den Originalstudien übereinzustimmen, war ein Versagen der Replikationen, nicht der Originale."

Gilbert stellte fest, dass die meisten Menschen davon ausgehen, dass eine Replikation eine "Replik" der ursprünglichen Studie ist.

"Die Leser sind sicherlich davon ausgegangen, dass eine Gruppe von Wissenschaftlern, wenn sie hundert Replikationen durchgeführt hat, dieselben Methoden verwendet haben muss, um dieselben Populationen zu untersuchen. In diesem Fall wäre diese Annahme ziemlich falsch. Replikationen weichen immer von Originalen ab natürlich in geringfügiger Weise, aber wenn Sie die Berichte sorgfältig lesen, wie wir es getan haben, entdecken Sie, dass sich viele der Replikationsstudien in wirklich erstaunlicher Weise unterschieden – in einer Weise, die es schwer macht zu verstehen, wie sie überhaupt als Replikationen bezeichnet werden können

Als Beispiel beschrieb Gilbert eine Originalstudie, bei der weißen Studenten der Stanford University ein Video von vier anderen Stanford-Studenten gezeigt wurde, die über Zulassungsrichtlinien an ihrer Universität diskutierten.Drei der Diskutanten waren Weiße und einer war Schwarz. Während der Diskussion machte einer der weißen Studenten beleidigende Bemerkungen über positive Maßnahmen, und die Forscher stellten fest, dass die Beobachter den schwarzen Studenten deutlich länger ansahen, wenn sie glaubten, er könne die Kommentare der anderen hören, als wenn er es nicht konnte.

"Also, wie haben sie die Replikation gemacht? Mit Studenten der Universität Amsterdam!" Sagte Gilbert. "Sie ließen niederländische Studenten ein Video von Stanford-Studenten ansehen, die auf Englisch über Richtlinien zu positiven Maßnahmen an einer Universität sprechen, die mehr als 5000 Meilen entfernt ist."

Mit anderen Worten, im Gegensatz zu den Teilnehmern der ursprünglichen Studie beobachteten die Teilnehmer der Replikationsstudie Studenten einer ausländischen Universität, die in einer Fremdsprache über ein für sie irrelevantes Thema sprachen.

Aber laut Gilbert war das nicht der beunruhigendste Teil.

"Wenn Sie tief in die Daten eintauchen, entdecken Sie etwas anderes", sagte Gilbert.„Die Replikatoren erkannten, dass die Durchführung dieser Studie in den Niederlanden ein Problem gewesen sein könnte, also entschieden sie sich klugerweise, eine weitere Version davon in den USA durchzuführen. Und als sie dies taten, replizierten sie im Grunde das ursprüngliche Ergebnis. Und doch, als das OSC schätzte die Reproduzierbarkeit der psychologischen Wissenschaft, sie schlossen die erfolgreiche Replikation aus und schlossen nur die fehlgeschlagene von der Universität Amsterdam ein, sodass die Öffentlichkeit hört, dass „noch eine andere Psychologiestudie nicht repliziert“statt „noch eine andere Psychologiestudie repliziert sich gut, wenn“. Du machst es richtig und nicht, wenn du es falsch machst", was keine sehr aufregende Überschrift ist. Einige der Replikationen waren ziemlich originalgetreu, aber jeder, der alle Replikationsberichte sorgfältig liest, wird viele weitere Beispiele wie dieses finden."

"Diese Untreue war aus einem anderen Grund ein Problem", fügte King hinzu, "nämlich, weil sie zusätzliche Fehler in den Datensatz einführt. Dieser Fehler kann berechnet werden, und wenn wir das tun, stellt sich heraus, dass die Anzahl der Replikationsstudien, die tatsächlich fehlschlugen, sind ungefähr das, was wir erwarten würden, wenn jeder einzelne der ursprünglichen Ergebnisse wahr gewesen wäre.Nun könnte man darüber streiten, wie man diese Rechnung am besten macht, aber Tatsache ist, dass OSC es überhaupt nicht geschafft hat. Sie ignorierten diese potente Fehlerquelle einfach und zogen daraus die falschen Schlüsse aus ihren Daten. Das bedeutet natürlich nicht, dass alle hundert Studien wahr waren, aber es bedeutet, dass dieser Artikel keinen Beweis für das Gegenteil liefert."

„Also wissen wir jetzt, dass die Untreue statistisches Rauschen erzeugt hat“, sagte Gilbert, „aber war das alles, was sie getan haben? Oder waren die Untreue einer bestimmten Art? Mit anderen Worten, tendierten sie nur dazu, das Original zu verändern Ergebnis, oder haben sie es auf eine bestimmte Weise verändert?"

"Um das herauszufinden", sagte King, "brauchten wir ein Maß dafür, wie treu jede der hundert Replikationen war. Glücklicherweise lieferte uns das OSC."

Bevor jede Replikation begann, bat das OSC die ursprünglichen Autoren, die geplante Replikationsstudie zu prüfen und zu sagen, ob sie sie als originalgetreue Replikation ihrer Arbeit unterstützen würden, und etwa 70 Prozent taten dies.

"Wir haben dies als groben Index der Wiedergabetreue verwendet, und als wir das taten, entdeckten wir etwas Wichtiges: Die Low-Fidelity-Replikationen waren mit einer erstaunlichen viermal höheren Wahrscheinlichkeit fehlzuschlagen", sagte King. „Das deutet darauf hin, dass die Untreue nicht nur zufälliges statistisches Rauschen verursacht hat – sie haben die Studien tatsächlich zum Scheitern verzerrt.“

In ihrem Technischen Kommentar stellen Gilbert, King, Pettigrew und Wilson auch fest, dass das OSC ein „Low-Power“-Design verwendet hat: Sie haben jede der 100 Studien einmal repliziert, wobei ungefähr die Anzahl der Probanden verwendet wurde, die verwendet wurden die ursprünglichen Studien. Aber laut King senkt diese Methode die Replikationsrate künstlich.

"Um zu zeigen, wie das passiert, haben wir einen anderen veröffentlichten Artikel genommen, der die Reproduzierbarkeit einer Gruppe klassischer Psychologiestudien untersucht hat", sagte King. „Die Autoren dieses Artikels hatten ein sehr aussagekräftiges Design verwendet – sie wiederholten jede Studie mit mehr als dem Dreißigfachen der ursprünglichen Teilnehmerzahl – und dieses aussagekräftige Design erzeugte eine sehr hohe Replikationsrate.Also stellten wir eine einfache Frage: Was wäre passiert, wenn diese Autoren das Low-Power-Design verwendet hätten, das vom OSC verwendet wurde? Die Antwort ist, dass die Replikationsrate noch niedriger gewesen wäre als die vom OSC ermittelte Replikationsrate."

Obwohl sie ernsthafte Probleme mit der wegweisenden Studie aufdeckten, betonten Gilbert und King, dass ihre Kritik kein Fehlverh alten nahelegt und einfach Teil des normalen wissenschaftlichen Untersuchungsprozesses ist.

"Um das klarzustellen", sagte Gilbert. "Niemand, der an dieser Studie beteiligt war, hat versucht, irgendjemanden zu täuschen. Sie haben nur Fehler gemacht, wie es Wissenschaftler manchmal tun. Viele der OSC-Mitglieder sind unsere Freunde, und der korrespondierende Autor, Brian Nosek, ist tatsächlich ein guter Freund, der uns sowohl entgegenkommend als auch hilfreich war, als wir unsere Kritik schrieben“, sagte Gilbert. „Tatsächlich ist Brian derjenige, der vorgeschlagen hat eine der Methoden, die wir zur Korrektur der Fehlerberechnungen des OSC verwendet haben. Das ist also kein persönlicher Angriff, das ist eine wissenschaftliche Kritik.Wir alle kümmern uns um die gleichen Dinge: Wissenschaft gut zu machen und herauszufinden, was wahr ist. Wir waren froh zu sehen, dass das OSC in seiner Antwort auf unseren Kommentar über eine Reihe kleinerer Probleme stritt, aber das Hauptproblem einräumte, nämlich dass ihr Papier keine Beweise für die pessimistischen Schlussfolgerungen liefert, die die meisten Menschen daraus gezogen haben.

"Ich denke, der große Punkt hier ist, dass die Metawissenschaft den Regeln der Wissenschaft gehorchen muss", sagte King. „All die Regeln über das Abtasten und Berechnen von Fehlern und das Blindh alten von Experimentatoren gegenüber Hypothesen – all diese Regeln müssen gelten, egal ob Sie Menschen studieren oder die Reproduzierbarkeit einer Wissenschaft studieren. Meta-Wissenschaft bekommt keinen Pass. Sie ist nicht ausgenommen. Und diejenigen, die Metawissenschaften betreiben, stehen nicht über dem Kampf. Sie sind Teil des wissenschaftlichen Prozesses. Wenn Sie gegen die Grundregeln der Wissenschaft verstoßen, erh alten Sie die falsche Antwort, und genau das ist hier passiert."

"Dieses Papier hatte eine außergewöhnliche Wirkung", sagte Gilbert.„Es war der dritte ‚Durchbruch des Jahres‘des Science-Magazins in allen Bereichen der Wissenschaft. Es führte zu Änderungen in der Politik vieler wissenschaftlicher Zeitschriften, zu Änderungen der Prioritäten bei Fördereinrichtungen und untergrub die öffentliche Wahrnehmung der Psychologie ernsthaft. Das ist es nicht Es genügt jetzt, im nüchternen Licht des Rückblicks zu sagen, dass Fehler gemacht wurden. Diese Fehler hatten schwerwiegende Auswirkungen. Wir hoffen, dass das OSC nun genauso hart daran arbeiten wird, die falsche Wahrnehmung ihrer Ergebnisse in der Öffentlichkeit zu korrigieren, wie sie es getan hat, um die Ergebnisse selbst zu erstellen."

Beliebtes Thema