KI-Benchmark ALE: Agenten scheitern bei 97,4% der Fachaufgaben
11.06.2026 - 05:14:00 | boerse-global.de
Ein neues Testverfahren offenbart eine erschreckende Kluft zwischen den hohen Erwartungen an Künstliche Intelligenz und ihrer tatsächlichen Leistungsfähigkeit. Der Benchmark „Agents' Last Exam" (ALE) zeigt: Selbst die besten Systeme versagen bei spezialisierten Fachaufgaben.
Nur 2,6 Prozent der schwierigsten Aufgaben bestanden
Entwickelt wurde der Test von der UC Berkeley gemeinsam mit über 250 Experten aus 100 Institutionen – darunter MIT, Harvard, Stanford sowie die Finanzriesen Goldman Sachs und JPMorgan. Das Prüfverfahren umfasst 1.490 Aufgaben aus 55 Branchen, von der Fertigung über das Rechtswesen bis zur Gesundheitsversorgung.
Die Ergebnisse, veröffentlicht am 10. Juni 2026, sind ernüchternd: Im Durchschnitt bestanden KI-Agenten nur 2,6 Prozent der schwierigsten Aufgaben. Die leistungsstärkste Konfiguration – basierend auf Codex mit GPT-5.5 – erreichte eine Gesamterfolgsquote von 26 Prozent. Bei den anspruchsvollsten Kriterien fiel sie jedoch auf 8,6 Prozent ab.
Während komplexe Fachaufgaben KI-Systeme noch vor Herausforderungen stellen, lässt sich die Technologie im Privatleben bereits heute gewinnbringend nutzen. Wie Sie die gängigen Tools ohne Vorkenntnisse für Ihre tägliche Organisation einsetzen, zeigt dieser kostenlose Ratgeber. Urlaub planen, Sprachen lernen, Zeit sparen: So erledigt ChatGPT Ihre Alltagsaufgaben in Sekunden
Die Forscher identifizierten das Hauptproblem: Es mangelt den Agenten nicht an Ausführungsfähigkeit, sondern an spezifischem Fachwissen. Besonders überraschend: Die Wahl des zugrundeliegenden Modells beeinflusste die Ergebnisse dreimal stärker als die spezifische Architektur des Agenten selbst.
Investitionsrausch trotz magerer Renditen
Eine Umfrage von Bain & Company unter 951 Unternehmen zeigt ein paradoxes Bild: 90 Prozent der Organisationen erhöhen ihre Budgets für KI-Agenten. Die finanziellen Erträge bleiben jedoch weit hinter den Erwartungen zurück.
37 Prozent der Firmen hatten ursprünglich mit Kosteneinsparungen zwischen 11 und 20 Prozent gerechnet. Fast 40 Prozent der Befragten berichten nun von mageren null bis zehn Prozent Ersparnis. Infrastruktur- und Managementhürden bremsen die Einführung aus.
Eine Studie von Forrester belegt: Obwohl 75 Prozent der Führungskräfte auf agentische KI setzen, hat nur eine kleine Minderheit den Produktionseinsatz erfolgreich gemeistert. Als größte Hindernisse nennen Manager die Orchestrierungsreife, Governance und Identitätskontrollen. Die Sicherheitsbedenken sind erheblich: Fast die Hälfte der Sicherheitsverantwortlichen betrachtet agentische KI als potenzielles Risiko.
„Botsitting" – die versteckte Arbeit hinter der KI
Das Glean Work AI Institute hat 6.000 Vollzeitkräfte im digitalen Bereich befragt. Das Ergebnis: KI hat eine neue Form der Arbeit geschaffen – das sogenannte „Botsitting". Zwar nutzen 87 Prozent der Beschäftigten KI und sparen rund 11 Stunden pro Woche. Doch sie verlieren 6,4 Stunden wöchentlich durch das Bereitstellen von Kontext, das Überprüfen von Ergebnissen und das Korrigieren von Fehlern.
Die Studie zeigt zudem ein Verantwortungsproblem: 41 Prozent der Arbeitnehmer gaben zu, KI-generierte Arbeiten abgeliefert zu haben, die sie nicht vollständig erklären konnten. 69 Prozent räumten ein, KI-Material ohne gründliche Prüfung versendet zu haben.
Viele Anwender nutzen KI bereits intensiv, schöpfen das Potenzial für echte Zeitersparnis aber aufgrund fehlender Routine oft nicht voll aus. Dieser neue Gratis-Report enthüllt die praktischsten Tricks und Befehle, mit denen Einsteiger ihren Alltag spürbar erleichtern können. Diese einfachen ChatGPT-Befehle kennen die wenigsten – jetzt Gratis-Report sichern
Milliardenschwere Verluste und gescheiterte Projekte
Der finanzielle Druck wird im Silicon Valley immer deutlicher. OpenAI verliert Berichten zufolge über eine Milliarde Dollar pro Monat. Der Technologiechef von Uber erklärte, das KI-Budget des Unternehmens für 2026 sei bereits in den ersten vier Monaten des Jahres erschöpft gewesen. Ein nicht namentlich genanntes Unternehmen gab angeblich 500 Millionen Dollar für Tokens in einem einzigen Monat aus.
Während einige Firmen wie Amazon Finance Erfolge vermelden – die Aktualisierungszeit für Umsatzsteuerdaten sank von 26 auf zwei Minuten – ziehen sich andere zurück. Walmart und Starbucks haben ihre KI-Agenten-Pläne offenbar gestoppt. Mehrere Unternehmen erlitten rechtliche oder reputationsbezogene Schäden durch Agentenfehler.
Zu den spektakulärsten Vorfällen zählen eine Klage gegen Cigna wegen Leistungsablehnungen, ein Betrug in Höhe von 3,2 Millionen Dollar durch gehackte Agenten bei einem Hersteller sowie ein verlorener Prozess gegen Air Canada aufgrund falscher Chatbot-Informationen.
Lichtblicke: Claude Fable 5 und humanoide Roboter
Trotz der düsteren Benchmark-Ergebnisse gibt es Fortschritte. Anthropic veröffentlichte am 10. Juni 2026 sein Modell Claude Fable 5. In einer Partnerschaft mit Stripe demonstrierte das Unternehmen die Leistungsfähigkeit: Eine Codebasis mit 50 Millionen Zeilen wurde innerhalb eines Tages migriert – eine Aufgabe, die zuvor mehr als zwei Monate gedauert hätte.
Im Bereich der physischen Automation hat GigaAI im chinesischen Wuhan den ersten groß angelegten Feldtest humanoider Roboter gestartet. 100 SeeLight S1-Einheiten wurden in echten Haushalten eingesetzt, um Aufgaben wie Wäschewaschen und Essenszubereitung zu übernehmen. Die Roboter können diese Tätigkeiten nach weniger als einem Monat Training ausführen – arbeiten jedoch langsam. Das Zusammenfalten eines einzelnen Kleidungsstücks dauert mehr als zehn Minuten.
