ChatGPT: KI versagt bei wissenschaftlicher Logik
18.03.2026 - 04:30:56 | boerse-global.deChatGPT und andere KI-Modelte scheitern laut einer neuen Studie an grundlegender wissenschaftlicher Logik und Faktenprüfung. Die Forschung der Washington State University zeigt, dass die Systeme trotz eloquenter Antworten oft falsch und widersprüchlich liegen – eine gefährliche Illusion von Intelligenz.
Studie entlarvt gefährliche Wissenslücken
Ein Forschungsteam unter Leitung von Professor Mesut Cicek fütterte ChatGPT mit über 700 Hypothesen aus echten wissenschaftlichen Publikationen. Das Ziel: Herausfinden, ob die KI korrekt beurteilen kann, ob eine Aussage durch empirische Forschung gestützt wird. Jede einzelne Abfrage wurde zehn Mal wiederholt, um die Zuverlässigkeit zu testen.
Während KI-Systeme oft an logischen Zusammenhängen scheitern, können Sie Ihre eigene kognitive Leistungsfähigkeit gezielt steigern. Dieser kostenlose Ratgeber bietet 11 praktische Übungen und einen Selbsttest, um Ihre Konzentration und Ihr Gedächtnis nachhaltig zu stärken. Kostenlosen Gehirntraining-Report jetzt herunterladen
Die Ergebnisse sind ernüchternd. Oberflächlich betrachtet lag ChatGPT-5 mini in Tests 2025 in 80 Prozent der Fälle richtig – eine leichte Verbesserung gegenüber 76,5 Prozent im Jahr 2024. Doch diese Zahlen trügen gewaltig. Berücksichtigt man, dass ein reiner Zufallstreffer bei 50 Prozent liegt, war die KI nur etwa 60 Prozent besser als bloßes Raten. Das entspricht einer Schulnote knapp über "Ungenügend".
Die größte Schwäche offenbarte sich bei falschen Hypothesen. ChatGPT identifizierte wissenschaftlich nicht haltbare Aussagen nur in lächerlichen 16,4 Prozent der Fälle. Das System zeigt eine starke Bestätigungsverzerrung und erkennt widerlegte oder erfundene wissenschaftliche Behauptungen kaum.
Sprachgewandtheit statt Verständnis
Noch problematischer als die Fehlerquote ist die schwere Inkonsistenz der Antworten. Bei identischen Fragen blieb ChatGPT nur in 73 Prozent der Fälle bei seiner Aussage. In mehreren dokumentierten Fällen teilte sich die Antwort perfekt: Fünf Mal bejahte die KI eine wissenschaftliche Behauptung, fÜnf Mal verneinte sie dieselbe – bei exakt derselben Frage.
"Das ist für wissenschaftliche Anwendungen hochproblematisch", betonen die Studienautoren. Wenn ein System die zugrundeliegenden Daten wirklich verstünde, dürfte dieselbe Frage nicht zu völlig unterschiedlichen Schlussfolgerungen führen. Die Forscher kommen zu einem klaren Urteil: Aktuelle generative KI-Tools besitzen kein echtes Weltverständnis und keine funktionale Entsprechung zum menschlichen Gehirn.
Stattdessen erzeugen sie eine gefährliche Illusion von Intelligenz durch sprachliche Gewandtheit. Indem sie mathematisch das wahrscheinlichste nächste Wort vorhersagen, projizieren die Modelle immense Selbstsicherheit – selbst wenn ihre wissenschaftliche Analyse fundamental falsch ist. Dieses Phänomen, eng verwandt mit der sogenannten KI-Sychophantie, führt dazu, dass die Systeme falsche Prämissen oft blind bestätigen, anstatt sie zu korrigieren.
Ein bekanntes Problem – auch in Medizin und Forschung
Die Ergebnisse aus Washington fügen sich in eine wachsende Zahl von Belegen für die akademischen Grenzen der KI. Bereits im Februar 2026 zeigten Forscher von Stanford, Caltech und dem Carleton College, dass große Sprachmodelle bei grundlegenden Logiktests versagen. Sie können kohärente Schlussfolgerungen über lange Interaktionen nicht aufrechterhalten und sind anfällig für sich aufschaukelnde Fehler.
Trotz der technologischen Grenzen im Verständnis rückt die Regulierung von KI-Systemen immer stärker in den Fokus von Gesetzgebung und Unternehmen. Erfahren Sie im kostenlosen E-Book zur EU-KI-Verordnung, welche Kennzeichnungspflichten und Risikoklassen Sie bereits heute beachten müssen. Gratis Umsetzungsleitfaden zur KI-Verordnung sichern
Eine Untersuchung der London School of Economics vom September 2025 deckte auf, dass ChatGPT bei der Bewertung zurückgezogener wissenschaftlicher Artikel katastrophal versagt. Die KI erkannte nicht nur offiziell zurückgezogene Papers nicht, sondern bewertete sie häufig als hochwertige Forschung und validierte damit widerlegte Behauptungen aktiv. In etwa zwei Dritteln der getesteten Fälle bestätigte das Model nachweislich falsche Aussagen.
Ähnliche Bedenken gibt es im medizinischen Bereich. Trotz des Drängens großer Tech-Konzerne, KI-Tools in die Diagnostik zu integrieren, fehlt den Modellen die nachgewiesene Zuverlässigkeit für klinische Empfehlungen. Oft können sie solide medizinische Erkenntnisse nicht von veralteten oder falschen Daten unterscheiden.
Konsequenzen: Menschliche Kontrolle bleibt unverzichtbar
Die kumulierten Daten stellen die Integration großer Sprachmodelle in professionelle wissenschaftliche Arbeitsabläufe grundlegend in Frage. Die fundamentale Architektur der vorhersagenden Texterzeugung bleibt anfällig für schwere Halluzinationen und Logikfehler – selbst in aktualisierten Versionen.
Branchenanalysten fordern deshalb strenge menschliche Aufsicht. Sich für kritische Aufgaben mit nuanciertem Denken, Literaturrecherchen oder medizinischen Diagnosen auf Chatbots zu verlassen, birgt das hohe Risiko, diskreditierte Wissenschaft zu verbreiten und das gesamte Wissensökosystem zu verschmutzen.
Forscher der Universität Oxford warnen: Solange Entwickler keine zuverlässigen Methoden implementieren können, um semantische Entropie zu messen – also zu erkennen, wann ein Model fabuliert statt zu schlussfolgern – bleibt die Technologie für ernsthafte Einsätze ungeeignet. Die viel beschworene Künstliche Allgemeine Intelligenz (AGI) mit echtem, menschenähnlichem Verständnis ist demnach deutlich weiter entfernt, als optimistische Industrie-Prognosen behaupten. Solange Konversationsgewandtheit über konzeptuelle Intelligenz und strikte Faktenprüfung gestellt wird, bleibt KI ein unzuverlässiger Partner für die Wissenschaft – der ständiger Verifikation durch menschliche Experten bedarf.
So schätzen unsere Börsenprofis Aktien ein!
Für. Immer. Kostenlos.

