LifeSciBench: OpenAI testet KI-Modelle mit 750 Wissenschafts-Aufgaben

18.06.2026 - 12:37:10 | boerse-global.de

OpenAI stellt LifeSciBench vor, ein umfassendes Bewertungstool für KI-Modelle in den Biowissenschaften. Erste Tests zeigen deutliche Leistungslücken selbst bei Spitzenmodellen.

OpenAI LifeSciBench: Neuer Maßstab für KI in der Biowissenschaft — LifeSciBench - A glowing neural network superimposed on microscopic biological cells, symbolizing AI's role in life sciences and drug discovery. 18.06.2026 - Bild: über boerse-global.de

Der KI-Pionier OpenAI hat mit LifeSciBench ein umfassendes Bewertungstool vorgestellt, das die Leistungsfähigkeit von KI-Modellen in den Biowissenschaften messen soll. Pharma- und Biotech-Unternehmen erhalten damit erstmals einen standardisierten Maßstab, um KI-Tools vor ihrem Einsatz in der Forschung zu validieren.

Während KI-Modelle in der Forschung neue Maßstäbe setzen, schafft der Gesetzgeber mit dem EU AI Act den verbindlichen Rahmen für ihren Einsatz in Unternehmen. Dieser kostenlose Umsetzungsleitfaden unterstützt Compliance-Verantwortliche dabei, Risikoklassen und Dokumentationspflichten frühzeitig zu verstehen. EU AI Act in 5 Schritten verstehen: Fristen, Pflichten und Risikoklassen kompakt erklärt

750 Aufgaben von Top-Wissenschaftlern

Das am 17. Juni 2026 veröffentlichte Benchmark-System umfasst 750 Aufgaben, die von 173 promovierten Wissenschaftlern entwickelt wurden. Ein Gremium von 453 Experten prüfte die Qualität der Tests. Die Aufgaben verteilen sich auf sieben Arbeitsabläufe – von der Evidenzanalyse über das Wirkstoffdesign bis zur translationalen Medizin – und decken sieben biologische Fachbereiche ab.

Für die rigorose Prüfung sorgen 1.062 Prüfobjekte und 19.020 spezifische Bewertungskriterien. Der Clou: 79 Prozent der Aufgaben erfordern mehrstufige Denkprozesse. Das ist keine einfache Multiple-Choice-Prüfung, sondern echtes wissenschaftliches Reasoning.

Selbst Spitzenmodelle kämpfen mit den Aufgaben

Die ersten Testergebnisse zeigen: Selbst die besten KI-Modelle tun sich schwer. GPT-Rosalind, ein auf Biologie und Wirkstoffforschung spezialisiertes Modell, erreichte mit 36,1 Prozent die höchste Bestehensquote. Dahinter folgten GPT-5.5 mit 25,7 Prozent und Gemini 3.1 Pro mit 23,6 Prozent.

Besonders bemerkenswert: 171 Aufgaben – fast ein Viertel des gesamten Tests – konnte kein einziges Modell erfolgreich lösen. Das zeigt, wie groß die Lücke zwischen aktueller KI-Leistung und den Anforderungen der Spitzenforschung noch ist.

Praxistest: KI optimiert chemische Reaktionen

Doch die Theorie ist das eine, die Praxis das andere. Zeitgleich mit der LifeSciBench-Veröffentlichung wurden neue Daten zur Zusammenarbeit von OpenAI mit Molecule.one bekannt. In einem Projekt von März bis Juni 2026 nutzten die Forscher GPT-5.4 zur Optimierung von Chan-Lam-Kupplungsreaktionen – einer wichtigen Methode in der medizinischen Chemie.

Die KI schlug den Einsatz von TEMPO als mildes Oxidationsmittel vor. Das Ergebnis kann sich sehen lassen: Bei Tests mit 10.080 Reaktionen stieg die durchschnittliche Ausbeute von 16,6 auf 25,2 Prozent. Der Anteil der Reaktionen mit einer Ausbeute über 30 Prozent verdoppelte sich von 15,6 auf 37,5 Prozent. Manuelle Kontrollen bestätigten die Verbesserungen bei 11 von 14 Substratpaaren.

Neue Benchmarks und offene Frameworks

OpenAI ist nicht der einzige Akteur in diesem Feld. Am 17. Juni veröffentlichte auch Mass General Brigham einen neuen Benchmark: BRIDGE testet KI-Modelle an klinischen Texten in mehreren Sprachen. Während Spitzenmodelle bei Standard-Prüfungen bis zu 92 Prozent erreichte, fiel ihre Leistung bei echten klinischen Daten auf mickrige 44,8 Prozent.

Die ETH Lausanne (EPFL) wiederum stellte MeditronFO vor – ein Open-Source-Framework für transparente medizinische Sprachmodelle. Es integriert über 46.000 klinische Leitlinien. Klinische Studien sind in der Schweiz und Tansania geplant.

Die rasante Entwicklung hochspezialisierter KI-Systeme bringt neben technologischen Chancen auch neue regulatorische Anforderungen für Unternehmen mit sich. Erfahren Sie in diesem kostenlosen Report, welche rechtlichen Pflichten die neue EU-KI-Verordnung konkret für Ihre IT-Abteilung vorsieht. Welche KI-Systeme gelten als Hochrisiko – und was müssen Unternehmen jetzt konkret tun?

Der Flaschenhals bleibt die klinische Entwicklung

Branchenbeobachter sehen einen klaren Trend: KI beschleunigt die Entdeckung neuer Wirkstoffkandidaten massiv – in manchen Fällen verdoppelt sich die Zahl der Kandidaten. Doch die klinische Entwicklung bleibt der Engpass. Experten erwarten, dass KI ihre ersten großen Erfolge im Wirkstoffdesign und bei der Toxizitätsvorhersage feiern wird, bevor sie die klinischen Ergebnisse signifikant verbessert.

Regulatorische Hürden und Partnerschaften

Die Spezialisierung auf wissenschaftliche KI kommt nicht ohne politische Begleitmusik. Am 13. Juni 2026 verhängte die US-Regierung Exportkontrollen für bestimmte leistungsstarke KI-Modelle. Der Konkurrent Anthropic deaktivierte daraufhin seine Modelle Fable 5 und Mythos 5 für ausländische Nutzer – aus Sorge vor sogenannten „Jailbreak"-Risiken bei der Code-Analyse.

OpenAI hingegen setzt weiter auf Expansion: GPT-Rosalind, das im LifeSciBench die Nase vorn hatte, ist als Research Preview verfügbar. Partnerschaften mit Branchengrößen wie Amgen, Moderna und Thermo Fisher Scientific sollen die Integration von KI in die Lebenswissenschaften weiter vorantreiben.

de | wissenschaft | 69571892 |

LifeSciBench: OpenAI testet KI-Modelle mit 750 Wissenschafts-Aufgaben

750 Aufgaben von Top-Wissenschaftlern

Selbst Spitzenmodelle kämpfen mit den Aufgaben

Praxistest: KI optimiert chemische Reaktionen

Neue Benchmarks und offene Frameworks

Der Flaschenhals bleibt die klinische Entwicklung

Regulatorische Hürden und Partnerschaften

Aktienkurse

Nachrichten

broker

Service

Weitere Angebote

Kursinformationen