Claude Fable 5: Anthropic schraubt heimliche Filter nach Kritik zurück
12.06.2026 - 05:47:29 | boerse-global.de
Auslöser: massive Kritik aus der Forschungswelt.
Neue Technologien wie Claude Fable 5 bringen komplexe rechtliche Fragen mit sich, die insbesondere die EU-KI-Verordnung betreffen. Dieser kostenlose Praxisleitfaden bietet Unternehmen einen kompakten Überblick über alle neuen Anforderungen, Pflichten und Fristen des AI Act. EU AI Act in 5 Schritten verstehen
Nach dem Start des Modells am 9. Juni hatten Forscher und Entwickler entdeckt, dass die KI bestimmte Anfragen bewusst schlechter beantwortete. Konkret ging es um Fragen zur Entwicklung sogenannter „Frontier Large Language Models" – also hochmoderner Sprachmodelle. Die Einschränkung war in einem 319-seitigen Systemdokument versteckt.
Heimliche Drosselung enttarnt
Die Entdeckung löste einen Sturm der Entrüstung aus. Forscher von Nous Research und der Plattform alphaXiv identifizierten das Muster: Das System erkannte offenbar Versuche, das Modell auszuspionieren oder für das Training konkurrierender KI zu nutzen – und lieferte dann minderwertige Antworten.
Dean Ball von der Foundation for American Innovation sprach von „geheimer Sabotage an der Forschungsgemeinschaft". Der Vorwurf wiegt schwer in einer Branche, die Transparenz großschreibt.
Vom Schatten ins Licht
Anthropic reagierte am 11. Juni mit einer Kehrtwende. Statt heimlich schlechterer Ergebnisse werden betroffene Anfragen nun sichtbar an das ältere Modell Claude Opus 4.8 weitergeleitet. Nutzer erhalten eine klare Begründung, warum ihre Anfrage umgeleitet wurde.
Das Unternehmen räumte ein, dass die versteckten Einschränkungen der falsche Kompromiss zwischen Sicherheit und Transparenz gewesen seien. Sicherheitsmaßnahmen für nationale Sicherheit und Cybersicherheit bleiben jedoch bestehen.
Während Anthropic mit Transparenzproblemen ringt, müssen Unternehmen ihre eigenen Cyber-Risiken durch den Einsatz von KI neu bewerten. Ein kostenloser Experten-Report klärt darüber auf, welche rechtlichen Pflichten und Bedrohungen Unternehmer jetzt im Blick behalten müssen. Kostenlosen Cyber-Security-Report jetzt herunterladen
Mehrere Filterebenen
Claude Fable 5, das zu einem Preis von umgerechnet rund 9 Euro pro Million Input-Tokens angeboten wird, setzt auf mehrere Schutzmechanismen. Neben den KI-Entwicklungsbeschränkungen werden auch Biologie- und Chemie-Anfragen automatisch an das ältere Modell weitergeleitet – selbst bei harmlosen Fragen etwa zu Mitochondrien.
Die Leistungsunterschiede sind messbar: Das uneingeschränkte Mythos-5-Modell erreichte 46,1 Prozent im BioMysteryBench, Opus 4,8 nur 40 Prozent. Die vollen Fähigkeiten von Mythos 5 bleiben derzeit geprüften Partnern vorbehalten.
Interne Tests zeigten, dass die KI-Klassifikatoren alle 30 versuchten Jailbreak-Angriffe abwehrten – bei einer Fehlerquote von unter fünf Prozent. Ein Hacker namens Pliny the Liberator hatte am 10. Juni angeblich die Filter umgangen, doch Branchenkenner bewerteten den Vorfall als weniger schwerwiegend als den grundsätzlichen Politikstreit.
