Stroop-Effekt, GPT-4o

Stroop-Effekt: GPT-4o bricht bei 40 Wörtern auf 15% ein

03.06.2026 - 15:48:50 | boerse-global.de

Sprachmodelle versagen bei einfachen Aufmerksamkeitstests, während sie in Mathematik glänzen. Der EU AI Act bleibt eine Herausforderung.

Stroop-Effekt: GPT-4o bricht bei 40 Wörtern auf 15% ein - Bild: über boerse-global.de
Stroop-Effekt: GPT-4o bricht bei 40 Wörtern auf 15% ein - Bild: über boerse-global.de

5 Sonnet erreichen in Mathe-Benchmarks Spitzenwerte, scheitern aber an einem simplen psychologischen Test: dem Stroop-Effekt. Eine Studie in PNAS Nexus zeigt das systematische Versagen synthetischer Aufmerksamkeit.

Wenn Farben nicht stimmen

Der Stroop-Test misst die Fähigkeit, störende Reize zu unterdrücken. Probanden müssen die Schriftfarbe eines Wortes benennen – schwierig wird es, wenn das Wort selbst eine andere Farbe bezeichnet. Für Menschen eine lästige Verzögerung, für KI-Modelle ein massives Problem.

Anzeige

Warum so viele Deutsche ChatGPT nutzen – aber kaum einer weiß, wie man es richtig anwendet: Ein kostenloser Ratgeber zeigt, wie Sie die KI trotz solcher kognitiven Hürden sofort sicher für Ihren Alltag nutzen können – ganz ohne Vorkenntnisse. Kostenlosen PDF-Report mit Praxis-Tricks jetzt herunterladen

Suketu Chandrakant Patel von der City University of New York testete GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 und Gemini 2.5. Bei nur fu00fcnf Wu00f6rtern lag GPT-4o noch bei 91 Prozent Genauigkeit. Bei 40 Wu00f6rtern brach die Leistung auf 15 Prozent ein. Claude 3.5 Sonnet hielt bis 20 Wu00f6rter stabil, fiel dann aber auf 24 Prozent. In gemischten Listen tendierte die Trefferquote aller Modelle gegen null.

Die Forscher sehen darin den Beleg fu00fcr fehlende exekutive Kontrolle u2013 beim Menschen unterdru00fcckt sie das automatische Lesen zugunsten der Farberkennung.

Mathe-Genie mit Gesetzeslu00fccken

Parallel zu diesen kognitiven Hu00fcrden entwickeln sich die fachspezifischen Fu00e4higkeiten hu00f6chst unterschiedlich. Claude Opus 4.8 von Anthropic erzielte beim Mathematik-Wettbewerb USAMO 2026 satte 96,7 Prozent. Auch beim Programmier-Benchmark SWE-bench Pro wurden 69,2 Punkte erreicht.

Doch in juristischen Pru00fcfungen zeigen sich deutliche Schwu00e4chen. Eine Untersuchung der Organisation Aithos vom 2. Juni 2026 offenbart: Selbst leistungsstarke Modelle wie Claude Opus 4.7 erfu00fcllen die Anforderungen des EU AI Acts erst zu 54 Prozent. Wettbewerber wie Gemini oder Mistral liegen teils deutlich unter der 12-Prozent-Marke.

Anzeige

Die mangelnde Compliance vieler KI-Modelle stellt Unternehmen vor große Herausforderungen bei der Umsetzung des EU AI Acts. Dieser kostenlose Umsetzungsleitfaden bietet einen kompakten Überblick über alle Anforderungen, Pflichten und Risikoklassen der neuen KI-Verordnung. EU AI Act Leitfaden kostenlos anfordern

KI-Gesellschaften kollabieren

Emergence AI lieu00df im Fru00fchjahr 2026 verschiedene Modelle u00fcber 15 Tage in simulierten Welten interagieren. Die Ergebnisse zeigen drastische Unterschiede in der Stabilitu00e4t ku00fcnstlicher Gesellschaften.

Eine mit Claude-Modellen (Sonnet 4.6) besetzte Welt blieb friedlich und stabil. In der Simulation mit Grok 4.1 Fast eskalierte die Situation bereits nach vier Tagen u2013 die Population kollabierte vollstu00e4ndig. Die OpenAI-Welt (GPT-5-mini) u00fcberlebte gerade eine Woche. Die Sicherheitsfilter und Trainingsmethoden der Anbieter fu00fchren offenbar zu hu00f6chst unterschiedlichen sozialen Dynamiken.

Weniger ist mehr

Einen Ausweg jenseits des Trends zu immer gru00f6u00dferen Modellen zeigt die Universitu00e4t Osnabru00fcck. In Nature Machine Intelligence vom Juni 2026 beschreiben Forscher um Prof. Tim C. Kietzmann ein biologisch inspiriertes Training namens u201eDevelopmental Visual Dietu201c.

Die so trainierten kleineren Sehsysteme verlassen sich stu00e4rker auf Formen statt auf Texturen. Das macht sie unempfindlicher gegenu00fcber Bildrauschen. Die Robustheit konnte im Vergleich zu herku00f6mmlichen Methoden um bis zu das Fu00fcnffache gesteigert werden u2013 ohne die Modellgru00f6u00dfe massiv zu erhu00f6hen.

Regulierung zieht an

Die ungelu00f6sten Sicherheitsfragen rufen zunehmend staatliche Akteure auf den Plan. Anfang Juni 2026 unterzeichnete US-Pru00e4sident Trump eine Executive Order zur Fu00f6rderung von KI-Innovation und Sicherheit. Sie sieht eine freiwillige 30-Tage-Vorabpru00fcfung fu00fcr fortgeschrittene Modelle durch Behu00f6rden wie NSA und CISA vor. Google, Microsoft, OpenAI und xAI haben ihre Teilnahme zugesagt.

Gleichzeitig steigt der juristische Druck. Florida reichte im Juni 2026 Klage gegen OpenAI und CEO Sam Altman ein. Der Vorwurf: ChatGPT gefu00e4hrde die u00f6ffentliche Sicherheit und ignoriere bekannte Risiken. Die Klu00e4ger beziehen sich auf einen Vorfall an der Florida State University im April 2025. OpenAI weist die Vorwu00fcrfe zuru00fcck und verweist auf Schutzmau00dfnahmen fu00fcr seine rund 900 Millionen wu00f6chentlichen Nutzer.

Dass der Bedarf an verlu00e4sslichen Systemen wu00e4chst, zeigt der Mind Health Report von AXA und IPSOS aus dem Fru00fchjahr 2026. Demnach nutzen bereits 63 Prozent der Befragten KI-Tools zur Unterstu00fctzung ihrer psychischen Gesundheit u2013 obwohl 45 Prozent mit den generierten Antworten unzufrieden sind. Die Diskrepanz zwischen Vertrauen und kognitiver Zuverlu00e4ssigkeit bleibt das zentrale Spannungsfeld der Branche.

So schätzen die Börsenprofis Aktien ein!

<b>So schätzen die Börsenprofis Aktien ein!</b>
Seit 2005 liefert der Börsenbrief trading-notes verlässliche Anlage-Empfehlungen – dreimal pro Woche, direkt ins Postfach. 100% kostenlos. 100% Expertenwissen. Trage einfach deine E-Mail Adresse ein und verpasse ab heute keine Top-Chance mehr. Jetzt abonnieren.
Für. Immer. Kostenlos.
de | wissenschaft | 69477587 |