DescrybeLM: KI-Spezialist schlägt ChatGPT & Co. im Juristen-Test

07.03.2026 - 08:48:35 | boerse-global.de

Das Legal-Tech-Startup Descrybe erreicht in einem standardisierten Anwaltsprüfungstest eine perfekte Trefferquote von 100 Prozent. Die großen General-KIs lagen mit Fehlerquoten von bis zu 11,5 Prozent deutlich zurück.

DescrybeLM: KI-Spezialist schlägt ChatGPT & Co. im Juristen-Test - Bild: über boerse-global.de

Ein auf juristische Forschung spezialisiertes KI-Startup stellt die Allzweck-Konkurrenz in den Schatten. DescrybeLM, ein neues System für juristische Argumentation, hat in einem standardisierten Test für Anwaltsprüfungen alle Fragen korrekt beantwortet. Die großen, allgemeinen KI-Modelle von OpenAI, Google und Anthropic lagen dagegen deutlich zurück. Die Ergebnisse unterstreichen eine wachsende Kluft in der Legal-Tech-Branche.

Seit August 2024 gelten neue KI-Regeln – viele Unternehmen riskieren unwissentlich Bußgelder, da sie die rechtlichen Anforderungen an KI-Systeme unterschätzen. Dieser kostenlose Leitfaden zeigt Ihnen, wie Sie die EU-KI-Verordnung in Ihrem Unternehmen rechtssicher umsetzen. Gratis E-Book mit Umsetzungsleitfaden jetzt herunterladen

Am 5. März veröffentlichte das Startup Descrybe die Benchmark-Daten. Demnach erzielte die hauseigene, domänenspezifische Plattform eine perfekte Trefferquote von 100 Prozent. Die Modelle ChatGPT 5.2, Claude Opus 4.5 und Gemini 3 Pro verfehlten hingegen zwischen 13 und 23 der 200 Testfragen. Ihre Genauigkeit lag nur zwischen 88,5 und 93,5 Prozent.

Das Risiko selbstbewusster Fehlurteile

Die Studie offenbart ein kritisches Problem der Generalisten: von 52 falschen Antworten der drei großen Modelle wurden 49 als „selbstbewusst falsch“ eingestuft. Diese Antworten klangen flüssig, assertiv und professionell – gaben aber keinerlei Hinweis auf Unsicherheit, obwohl sie das falsche Rechtsprinzip anwandten.

„Diese Art des Scheiterns stellt das höchste Risiko für Rechtsanwender dar“, heißt es im Whitepaper. Die Ausgaben lesen sich wie kompetente Analysen und verlagern die gesamte Verifikationslast auf den Nutzer. Besonders heikel: Die Studie fand bei Claude Opus und Gemini einen übermäßig selbstsicheren Tonfall auch bei korrekten Antworten. Bei DescrybeLM und ChatGPT 5.2 gab es dagegen keine solchen „Overconfidence“-Hinweise.

Spezial-Architektur als Erfolgsgeheimnis

Die Leistungslücke führt Descrybe auf die fundamentale Architektur und die Trainingsdaten zurück. DescrybeLM wurde nicht für allgemeine Anwendungen gebaut und später für Jura adaptiert. Stattdessen entstand das System von Grund auf für den einzigen Zweck der Rechtsanalyse.

Es basiert auf einem kuratierten Primärrechts-Korpus mit über 100 Millionen strukturierten Datensätzen. Die Aufbereitung dieser Masse – mehr als 100 Milliarden Tokens – dauerte Jahre. Jeder Datensatz wurde speziell für juristisches Denken bereignigt und organisiert. „Das ist der entscheidende Unterschied zwischen einem System, das nur korrekt klingt, und einem, das das Recht auch korrekt anwendet“, erklärt CTO Richard DiBona.

Branche am Scheideweg

Die Veröffentlichung kommt zu einem kritischen Zeitpunkt. Rechtsabteilungen und Kanzleien verlangen zunehmend messbare ROI- und Sicherheitsstandards für ihre KI-Investitionen. Die Studie unterstreicht eine grundlegende Schwäche allgemeiner Sprachmodelle: Ihre Kernmechanismen sind auf sprachliche Flüssigkeit optimiert, nicht auf strikte Logik einer Fachdomäne.

Während KI-Systeme die Rechtsrecherche revolutionieren, dürfen Unternehmen die grundlegende IT-Sicherheit und den Schutz ihrer sensiblen Mandantendaten nicht vernachlässigen. Erfahren Sie in diesem Experten-Report, wie Sie Ihr Unternehmen effektiv gegen Cyberangriffe wappnen, ohne Ihr Budget zu sprengen. Kostenlosen Cyber-Security-Leitfaden sichern

Bei juristischen Fragestellungen verlassen sie sich oft auf Muster, die autoritative Rechtssprache imitieren, ohne die hierarchischen Regeln der Rechtswissenschaft zu verinnerlichen. Die Forschung zeigt auch, dass ein Abgleich der Antworten verschiedener Generalisten kaum hilft: Die Fehler waren weitgehend unvorhersehbar und überschnitten sich kaum. Nur eine einzige Frage wurde von allen drei großen Modellen falsch beantwortet.

Ausblick: Das Rennen um die präzise Argumentation

Die Rechtsbranche dürfte spezialisierte Argumentations-Engines deutlich schneller adoptieren als generische Chatbot-Schnittstellen. Tools wie DescrybeLM setzen neue Maßstäbe. Künftig werden Juristen vor der Integration von KI in sensible Workflows rigorose, transparente Benchmarks fordern.

Die Fähigkeit eines KI-Systems, die eigene Unsicherheit zu erkennen und komplexe Rechtsregeln akkurat anzuwenden, wird zur Grundvoraussetzung. Der Wettbewerb unter Legal-Tech-Anbietern wird sich von einfacher Dokumentenzusammenfassung hin zu mehrstufiger Argumentation und verifizierter Analyse verlagern. Das könnte die Zeit, die Anwälte für die Überprüfung KI-generierter Recherchen aufwenden, erheblich reduzieren. Menschliches Urteilsvermögen bliebe dann strategischen Entscheidungen vorbehalten.

de | boerse | 68644420 |