KIs lösen in Test fast alle Mathe-Aufgaben auf Promotionsniveau
09.06.2026 - 13:58:11 | dts-nachrichtenagentur.deEine Gruppe von 49 internationalen Mathematikern hatte die Fragen auf einem Workshop am Max-Planck-Institut für Mathematik in Leipzig zusammengestellt. Die Aufgaben bewegten sich in ihrer Komplexität mindestens auf dem Niveau von Promotionen. Die Antworten mussten eindeutig und den Forschern bekannt sein, durften aber nicht explizit in Veröffentlichungen erschienen sein.
Die Fragen wurden fünf aktuellen Large Language Models (LLMs) zunächst ein einziges Mal gestellt. 41 Aufgaben blieben danach ungelöst. Die besten drei Modelle des ersten Durchgangs wurden noch 20 weitere Male mit denselben Fragen konfrontiert. Dabei zeigte sich eine große Variation in den Antworten zwischen einzelnen Durchgängen. Es blieben nur noch 16 ungelöste Fragen übrig. Abschließend stellten die Forscher die Fragen drei Mal hintereinander zwei sogenannten Heavy-Thinking-Modellen. Diese konnten weitere 14 Übungsaufgaben lösen, sodass zum Schluss nur zwei Aufgaben vollständig ungelöst blieben.
