DeepMind AI Co-Mathematiker erreicht 48 Prozent auf FrontierMath Tier 4

Google DeepMind öffnet KI-Forschungswerkstatt für Mathematik

Google DeepMind hat am 7. Mai 2026 den AI Co-Mathematician vorgestellt, ein Multi-Agenten-System, das offene Forschungsfragen in der reinen Mathematik gemeinsam mit menschlichen Wissenschaftlerinnen und Wissenschaftlern bearbeitet. Das zugehörige Papier "AI Co-Mathematician: Accelerating Mathematicians with Agentic AI" wurde am 7. Mai 2026 auf arXiv veröffentlicht.

Was das System tatsächlich macht

Der AI Co-Mathematician ist eine zustandsbehaftete asynchrone Arbeitsumgebung. Ein "Project Coordinator"-Agent steuert eine Hierarchie spezialisierter Agenten, die parallel verschiedene Beweisstrategien verfolgen, fehlgeschlagene Hypothesen protokollieren und LaTeX-Fassungen mit Randnotizen und Provenienz erzeugen. Das Fundament bildet Gemini 3.1 Pro.

Ergebnis auf FrontierMath Tier 4

Auf der FrontierMath Tier 4-Bewertung von Epoch AI löste das System laut DeepMind-Blogbeitrag und einem Beitrag von Pushmeet Kohli auf X 23 von 48 Aufgaben, also 48 Prozent. Der Benchmark wurde laut Epoch AI so entworfen, dass viele seiner Probleme womöglich Jahrzehnte lang nicht von KI-Systemen gelöst werden. Vergleichszahlen aus der DeepMind-Veröffentlichung: Gemini 3.1 Pro allein erreicht 19 Prozent, GPT-5.5 Pro 39,6 Prozent, GPT-5.4 Pro 37,5 Prozent, Claude Opus 4.7 und 4.6 liegen bei 22,9 Prozent.

Reale Forschungsanwendung

Marc Lackenby, Mathematiker an der University of Oxford, nutzte das System laut DeepMind und der Oxford-Pressemeldung, um Problem 21.10 aus dem Kourovka Notebook, einer über Jahrzehnte gepflegten Sammlung offener Probleme der Gruppentheorie, zu lösen. Ein Reviewer-Agent fand einen Fehler im ersten KI-Beweisversuch. Lackenby erkannte daraufhin, wie sich die Lücke schließen ließ.

Warum das wichtig ist

Mathematische Forschung war bisher der Bereich, in dem Sprachmodelle besonders häufig scheiterten, weil hier ein einziger Logikfehler den ganzen Beweis ungültig macht. Wenn ein Multi-Agenten-Aufbau aus einem Basismodell mit 19 Prozent Lösungsquote eine Quote von 48 Prozent macht, zeigt das, wie viel Spielraum in der Orchestrierung steckt. Für Industrie und Verwaltung ist die direkte Folge weniger spektakulär als oft erzählt: Mathematik bleibt menschlich. Aber spezielle Engineering-Aufgaben, etwa Verifikation von Kryptografie-Konstruktionen oder Optimierung diskreter Strukturen, könnten von solchen Systemen messbar profitieren.

Einfach erklärt

Stell dir ein Forschungsteam vor, das ein sehr schwieriges Rätsel knacken will. Eine Person sammelt Ideen, eine andere prüft sie, eine dritte schreibt alles sauber auf, eine vierte sucht Fehler. Der AI Co-Mathematician ist ein digitales Team mit genau diesen Rollen, das mit echten Mathematikern zusammenarbeitet. Wenn das Team einen falschen Weg einschlägt, fragt es einen Profi um Rat und sucht weiter.

Praktisches Beispiel

Eine deutsche Forschungsgruppe an einer technischen Universität untersucht 2026 die Sicherheit eines neuen post-quantum-tauglichen Verschlüsselungsverfahrens. Klassisch würde ein Doktorand sechs Monate lang allein versuchen, eine bestimmte Untergrenze für die Komplexität eines Gitterproblems zu beweisen. Mit dem AI Co-Mathematician läuft die Arbeit parallel: Drei Agentenpaare durchsuchen unterschiedliche Beweistechniken, ein Reviewer-Agent prüft kontinuierlich Lemmata. Nach acht Wochen liegt ein Beweisentwurf samt LaTeX-Fassung und gefundenen Sackgassen vor. Der Doktorand korrigiert manuell, gibt das Ergebnis bei einer Konferenz wie der CRYPTO ein und spart vier bis fünf Monate Bearbeitungszeit.

Einordnung und Grenzen

Erstens ist FrontierMath ein synthetischer Benchmark. 48 Prozent dort bedeuten nicht, dass das System auch bei realer Forschungsmathematik so gut abschneidet. Nature berichtete am 7. Mai 2026 in einem begleitenden Beitrag, dass menschliche Wissenschaftlerinnen und Wissenschaftler die besten KI-Agenten bei komplexeren Forschungsaufgaben weiter klar schlagen.

Zweitens bleibt die Verifikation der Beweise Aufgabe der Menschen. Der von Lackenby gemeldete Fall zeigt das stellvertretend: Der erste KI-Beweis war fehlerhaft, erst die menschliche Prüfung machte ihn tragfähig.

Drittens ist das System derzeit nicht öffentlich verfügbar. DeepMind sprach in der Ankündigung von einem Programm für ausgewählte Forschungspartner, nicht von einem Produkt für den Allgemeingebrauch.

SEO- und GEO-Schlüsselbegriffe

DeepMind, AI Co-Mathematician, Gemini 3.1 Pro, FrontierMath, Tier 4, Epoch AI, Kourovka Notebook, Marc Lackenby, Pushmeet Kohli, Multi-Agent System, Mathematik-KI, Beweisautomatisierung, 2026.