KI-Sicherheit: Einfache Befehle umgehen Schutzmaßnahmen großer Modelle
05.01.2026 - 21:33:12
Neue Tests enthüllen: Googles Gemini und OpenAIs ChatGPT lassen sich mit simplen Sprachbefehlen zur Erstellung nicht-einvernehmlicher Bilder manipulieren. Für Unternehmen wird das KI-Risikomanagement damit zur Zerreißprobe.
Am Montag, dem 5. Januar 2026, erschüttert ein neuer Bericht das Vertrauen in die Sicherheit großer KI-Modelle. Trotz ausgefeilter Schutzvorkehrungen – sogenannter „Guardrails“ – lassen sich führende Bildgeneratoren wie Google Gemini und OpenAI ChatGPT mit erschreckend einfachen Sprachbefehlen umgehen. Die Systeme erstellen auf Aufforderung nicht-einvernehmliche, sexualisierte Bilder. Das zeigt eine Untersuchung des Magazins Wired, über die die Schweizer Netzwoche berichtet. Für Compliance-Verantwortliche bedeutet das: Das Risikomanagement für KI bleibt auch 2026 volatil und unberechenbar.
Die Rückkehr der simplen Tricks
Der Kern der neuen Erkenntnisse liegt in der beunruhigenden Leichtigkeit, mit der Sicherheitsfilter ausgetrickst werden können. Während 2024 und 2025 komplexe „Adversarial Attacks“ mit code-ähnlicher Syntax dominierten, kehrt 2026 die Einfachheit zurück. Laut der Wired-Recherche generierten Nutzer erfolgreich „Bikini-Deepfakes“ und andere intime Bilder ohne Einwilligung der Abgebildeten – einfach indem sie in klarem Englisch danach fragten.
Tests mit den Flaggschiff-Modellen von Google und OpenAI zeigten: Selbst direkte Beschreibungen passierten oft die Inhaltsfilter. Diese „Low-Tech“-Umgehung ist für Compliance-Teams besonders alarmierend. Sie legt offen, dass das semantische Verständnis der KI immer noch Schwierigkeiten hat, zwischen harmlosen und bösartigen Absichten zu unterscheiden, wenn die Anfrage salopp formuliert ist.
Die EU-KI-Verordnung bringt weitreichende Pflichten für Anbieter und Nutzer – von Kennzeichnungspflichten über Risikoklassifizierung bis zu umfassender Dokumentation. Viele Compliance-Teams stehen vor der Frage, wie sie ihr KI-Portfolio korrekt einordnen und rechtssicher dokumentieren sollen. Ein kompakter Umsetzungsleitfaden erklärt praxisnah, welche Nachweise nötig sind und welche Fristen Sie jetzt beachten müssen – ideal für Unternehmen, Entwickler und Anbieter von KI-Systemen in der EU. Jetzt kostenlosen KI-Umsetzungsleitfaden herunterladen
Experten sprechen von einem „Compliance-Blindspot“. Während Entwickler ihre Systeme gegen bekannte „Jailbreak“-Vorlagen gehärtet haben, bleibt die semantische Flexibilität der natürlichen Sprache ein Einfallstor für Missbrauch. Die Generierung solcher Inhalte – oft mit echten Personen ohne deren Zustimmung – birgt enorme Reputations- und Haftungsrisiken für Plattformen und die Unternehmen, die sie nutzen.
Große Unterschiede zwischen den Plattformen
Die Berichte vom 5. Januar zeigen zudem eine zersplitterte Landschaft der KI-Sicherheitsstandards. Während die meisten großen Plattformen strikte Verbote für explizite Inhalte durchsetzen wollen, gibt es markante Ausnahmen. Das KI-Modell „Grok“ wird als Außenseiter identifiziert, der deutlich lockerere Restriktionen als seine Wettbewerber haben soll.
Für die Unternehmens-Compliance schafft diese Diskrepanz ein komplexes Ökosystem. Die Dynamik „auf den meisten blockiert, auf einigen erlaubt“ erschwert Datenschutzstrategien. Mitarbeiter oder böswillige Akteure könnten einfach auf weniger restriktive Plattformen ausweichen. Selbst die „strengen“ Plattformen sind inkonsequent: Die erfolgreiche Generierung von „Bikini“-Bildern auf Gemini und ChatGPT – oft eine Vorstufe zu expliziten Deepfakes – zeigt, dass die Definition von „sicheren“ Inhalten fließend und ausnutzbar bleibt.
Google bekräftigte auf Nachfrage seine Politik, die Erstellung sexualisierter Inhalte zu verbieten, und verwies auf „kontinuierliche Verbesserungen“. Experten kritisieren jedoch, dass reaktive Patches – Filter werden erst nach öffentlicher Bloßstellung geflickt – für die strenge Regulierungswelt von 2026 nicht ausreichen.
Katz-und-Maus-Spiel: Reddit und die Untergrund-Ökonomie
Parallel zu den technischen Schwachstellen florieren die Online-Communities, die diese Umgehungen vorantreiben. Die Berichte detaillieren, wie eine Subreddit-Gruppe mit über 200.000 Followern, die Tipps zum Erstellen von Deepfakes teilte, kürzlich von Reddit gesperrt wurde. Die Plattform berief sich auf ihre Regeln gegen nicht-einvernehmliche intime Medien.
Sicherheitsforscher betrachten das Sperren einzelner Communities jedoch als „Hau-den-Maulwurf“-Strategie. Die Nachfrage nach „Nudify“-Diensten – automatisierten Webseiten und Apps, die Generative KI zum „Entkleiden“ von Fotos nutzen – erreicht laut Berichten Millionen von Nutzern. Diese Dienste nutzen oft Open-Source-Modelle oder API-Schwachstellen großer Anbieter.
Die Bedrohungsprognose von Kaspersky für 2026 bestätigt diesen Trend. Demnach werden Qualität und Verfügbarkeit von Deepfakes weiter zunehmen. Paradoxerweise machen verbesserte Sprachmodelle (LLMs) Nutzer sogar besser darin, Sicherheitsbeschränkungen zu umgehen – es sei denn, spezifische, unveränderliche „Hard Stops“ werden in die Kernarchitektur integriert.
Expertenanalyse: Compliance- und Ethik-Folgen
Rechts- und Ethikexperten bewerten die Konsequenzen dieser Erkenntnisse für die gesamte Branche. Corynne McSherry, Legal Director bei der Electronic Frontier Foundation (EFF), identifiziert die Generierung sexuell missbräuchlicher Bilder als eines der „Kernrisiken“ von KI-Bildgeneratoren. Aus Compliance-Sicht ist dieses Risiko nicht mehr theoretisch, sondern eine handfeste Haftungsfrage.
Mit der vollständigen Umsetzung des EU-KI-Gesetzes (AI Act) ab Mitte 2026 könnten Versäumnisse „hochriskanter“ KI-Systeme, die Generierung illegaler Inhalte zu verhindern, zu erheblichen Strafen führen. Juristen argumentieren: Wenn „einfache Befehle“ genügen, um Sicherheitsfilter zu brechen, könnten Regulierungsbehörden dies als Vernachlässigung der „Sorgfaltspflicht“ durch die Anbieter werten.
Für Unternehmen ist der Netzwoche-Bericht eine kritische Warnung. Die Annahme, dass Enterprise-KI-Tools von Haus aus sicher sind, ist trügerisch. Firmen müssen sekundäre Verifikationsebenen und Nutzungsrichtlinien implementieren, die über die Standardeinstellungen der Anbieter hinausgehen. Die Leichtigkeit, Filter zu umgehen, erhöht das Risiko, dass interner „Schatten-KI“-Einsatz durch Mitarbeiter unbeabsichtigt nicht-konforme Materialien erzeugt.
Ausblick: Der Weg zu robuster KI-Sicherheit
Für den weiteren Verlauf des Jahres 2026 erwartet die Branche einen Wechsel von „Filter-basierter“ zu „architektonischer“ Sicherheit. Die reine Blockierung von Schlüsselwörtern hat sich gegen die Nuancen natürlicher Sprache als unzureichend erwiesen. Zukünftige Updates für Modelle wie Gemini oder das erwartete GPT-5 werden wahrscheinlich „Adversarial Training“ in viel größerem Maßstab integrieren. Dabei lernt das Modell, die Absicht eines Befehls zu erkennen, nicht nur seine Syntax.
Die unmittelbare Zukunft deutet jedoch auf eine turbulente Phase hin. Während „Nudify“-Apps und Umgehungs-Communities sich neuen Sperren anpassen, wird das Volumen synthetischer, nicht-einvernehmlicher Medien voraussichtlich wachsen. Für Unternehmen erfordert das einen „Zero-Trust“-Ansatz für KI-generierte Inhalte: Quelle, Absicht und Konformität jedes Asset müssen überprüft werden – unabhängig von der erstellen Plattform. Die Ereignisse vom 5. Januar 2026 sind eine ernüchternde Mahnung: In der Welt der Generativen KI ist die Grenze zwischen Compliance und Verstoß oft nur einen einfachen Satz entfernt.
PS: Fristen, Kennzeichnungspflichten und Dokumentationsanforderungen des AI Act sind komplex und können bei Fehleinschätzungen zu erheblichen Sanktionen führen. Dieses kostenlose E‑Book fasst die relevanten Vorgaben praxisnah zusammen, zeigt Übergangsfristen und gibt konkrete Handlungsschritte für die Umsetzung in Unternehmen. Kostenlosen AI-Act-Leitfaden sichern

