KI-Mathematik: Heavy-Thinking-Modelle lösen 98 von 100 Promotionsaufgaben
11.06.2026 - 11:52:05 | boerse-global.de
Spezialisierte KI-Systeme knacken Probleme, an denen Forscher jahrzehntelang knabberten. OpenAI, Google DeepMind und Co. zeigen, was in den neuen Modellen steckt.
OpenAI löst 80 Jahre altes Erdös-Problem
Ende Mai gelang OpenAI ein Coup: Ein KI-System fand ein Gegenbeispiel zur Erdös-Vermutung. Das sogenannte Einheitsabstandsproblem des legendären Mathematikers Paul Erdös hielt rund 80 Jahre. Der Zahlentheoretiker Arul Shankar spricht von „originellen mathematischen Ideen“, die das System entwickelte. Fields-Medaillen-Träger Terence Tao ordnet die Entwicklung als „Hochskalierung mathematischer Arbeit auf industrielles Niveau“ ein.
Anzeige: Wer die neuen Heavy-Thinking-Modelle für die eigene Forschung nutzen will, findet in diesem kostenlosen Report die wichtigsten Strategie-Hebel – von der Problemlösung bis zur formalen Beweisprüfung. Jetzt kostenlosen Strategie-Report anfordern
DeepMind verbessert Ramsey-Zahlen
Google DeepMind lieferte parallel beeindruckende Ergebnisse. Das System AlphaEvolve nutzt Large Language Models, um Suchalgorithmen zu optimieren. Ergebnis: Verbesserte Untergrenzen für fünf klassische Ramsey-Zahlen. Insgesamt optimierten die Forscher 28 Werte der Kategorie R(r,s) – darunter Steigerungen bei R(3,13) von 60 auf 61 und bei R(4,15) von 158 auf 159.
KI-Agent prüft Fields-Medaillen-Beweis
Das Unternehmen Math Inc. setzte den KI-Agenten „Gauss“ auf einen der prestigeträchtigsten Beweise der Mathematik an. Maryna Viazovska erhielt für ihre Arbeit zur Kugelpackung in den Dimensionen 8 und 24 die Fields-Medaille. Gauss übersetzte den Beweis in die formale Logiksprache Lean – und fand dabei kleinere Fehler im Original.
Der 8D-Fall dauerte fünf Tage, der 24D-Fall eine Woche. Die finale Codebasis umfasst rund 200.000 Zeilen. Math-Inc-Gründer Christian Szegedy sieht darin enormes Potenzial für die Qualitätssicherung komplexer Publikationen.
Auch Google DeepMind arbeitet an einem ähnlichen Projekt: Das Multi-Agent-System „Co-Mathematician“ half bereits beim Kourovka-Problem Nr. 21.10 und bei Fragestellungen zu Hamilton-Systemen.
98 von 100 Promotionsaufgaben gelöst
Die Ruhr-Universität Bochum und das Max-Planck-Institut Leipzig testeten die allgemeine Problemlösungskompetenz von KI-Modellen. Fünf Large Language Models bekamen 100 hochkomplexe Aufgaben auf Promotionsniveau. Standardmodelle haderten zunächst. Heavy-Thinking-Modelle hingegen reduzierten die ungelösten Aufgaben auf zwei – sie lösten 98 von 100 Problemen.
Im FrontierMath Tier 4 Benchmark erreichte Gemini 3.1 Pro zunächst 19 Prozent Genauigkeit bei nicht-öffentlichen Aufgaben. Als Multi-Agent-System gesteigert, kletterte die Quote auf 48 Prozent. Die Systemarchitektur ist offenbar entscheidender als das reine Basismodell.
Sicherheit und Transparenz als neue Herausforderung
Anzeige: Forscher, die bereits KI-Agenten zur Qualitätssicherung ihrer Publikationen einsetzen, brauchen jetzt einen klaren EU-AI-Act-Fahrplan – bevor regulatorische Prüfungen verbindlich greifen. Dieser Leitfaden liefert Transparenzmethoden und Compliance-Schritte. EU-AI-Act-Fahrplan jetzt sichern
Mit der wachsenden Leistungsfähigkeit steigen die Anforderungen. Forscher des Karlsruher Instituts für Technologie (KIT) stellten am 10. Juni die Methode „Shapformer“ vor. Sie macht Entscheidungen von KI-Modellen nachvollziehbar – etwa bei Vorhersagen in Stromnetzen. Ziel: den Anforderungen des EU AI Acts entsprechen.
Die Politik reagiert ebenfalls. Die Bundesregierung beschloss am 9. Juni die Einrichtung eines nationalen KI-Sicherheitsinstituts. Die virtuelle Institution soll gemeinsam mit der Bundesnetzagentur und dem BSI die Sicherheit und Robustheit von KI-Systemen untersuchen.
Am selben Tag veröffentlichte Anthropic das Modell Claude Fable 5. Trotz hoher Leistungsfähigkeit in Benchmarks weist es bewusste Einschränkungen in sensiblen Bereichen auf – Cybersicherheit und Biotechnologie bleiben tabu.
