Springer Nature zieht eine Meta-Analyse zurück, die Lerneffekt durch ChatGPT belegen sollte. Der Grund: Die Studie sei wissenschaftlich nicht haltbar, der Verlag als Herausgeber habe Bedenken hinsichtlich Unstimmigkeiten in der Metaanalyse, die methodischen Probleme würden das Vertrauen in die Validität der Analyse und der darauf basierenden Schlussfolgerungen untergraben.
Die Meta-Studie war im Mai 2025 im Journal Humanities & Social Sciences Communications erschienen. Grundlage waren 51 Einzelstudien. Als Ergebnis wurde behauptet, dass die Nutzung von ChatGPT einen „großen positiven Einfluss“ auf Lernleistungen habe. In sozial nur genannten Medien wurde die Studie „erster belastbarer Beleg für den Nutzen generativer KI im Unterricht“ promotet.
Doch sind laut Ben Williamson, Senior Lecturer am Centre for Research in Digital Education der University of Edinburgh, sowohl die Datenbasis selbst wie der zeitliche Rahmen fragwürdig, die Studie habe „teilweise sehr minderwertige Studien synthetisiert oder Ergebnisse von Arbeiten zusammengemischt, die aufgrund völlig unterschiedlicher Methoden, Populationen und Stichproben gar nicht vergleichbar seien (…) Das Papier hätte „von Anfang an nicht veröffentlicht werden dürfen“.(zit.n. Telepolis vom 5. Mai 2026: Studie zu ChatGPT-Vorteilen im Unterricht zurückgezogen .

Und wir erinnern uns, was uns Bildungsexpertinnen damals versprochen haben:

Ulrike Gress in der Tagessschau: Der Siegeszug von KI ist nicht aufzuhalten:



Der Skandal ist nicht so groß, wie hier suggeriert wird, ich würde nicht von einer Fake-Studie sprechen, denn sowohl die Methodik ist auf dem Stand der Wissenschaft als auch wurden in dieser Meta-Analyse tatsächlich existierende Publikationen verwendet. Der Vorwurf “Fake” ist also nicht angemessen. Auch die “Retraction Note” erhebt nicht den Vorwurf des Betrugs, sondern weist auf Aspekte hin, die die Zuverlässigkeit der Ergebnisse in Zweifel ziehen. So wurden etwa Studien mit Lehramtsstudierenden und mit SuS in einen Topf geworfen, obwohl die Kriterien des Lernzuwachses und die Methodik des Einsatzes von KI in den Studien sehr unterschiedlich waren.
Problematisch – aber auch relevant – an diesem Vorgang ist nicht, dass hier ein einzelnes Autorenteam Betrug begangen hätte, sondern dass die grundsätzliche Anlage der Studie der aktuellen Praxis in der Bildungsforschung entspricht – sonst wäre die Studie auch nicht durch den Begutachtungsprozess gekommen. Die Frage ist also: Wieviele Studien mit leicht fragwürdigen Ergebnissen gibt es noch, die nur deswegen nicht zurückgezogen wurden, weil die Inkonsistenzen nicht ganz so auffällig sind? Unter https://ojs.didaktik-der-mathematik.de/index.php/mgdm/article/view/1324 haben wir von evidentem Evidenzmangel gesprochen. Das ist leider beim aktuellen Stand der Forschung ein Problem. Aber zu einem großen Problem wird es erst, wenn voreilige Schlüsse gezogen werden.