OpenSeeker-v2 zeigt: Such-Agenten brauchen nicht immer Big-Tech-Training
6. Mai 2026

Ein akademisches Team trainierte OpenSeeker-v2 mit nur 10.600 hochwertigen Trajektorien und meldet Bestwerte für einen 30B-ReAct-Suchagenten. Das ist spannend für Open Source und Forschung.
Worum es geht
OpenSeeker-v2 ist ein am 5. Mai 2026 bei arXiv eingereichter Forschungsbericht zu KI-Suchagenten. Die zentrale Behauptung: Ein akademisches Team kann mit einfachem Supervised Fine-Tuning und sehr guten Trainingsdaten einen Suchagenten bauen, der in seiner Klasse mit deutlich aufwendigeren Industrie-Pipelines konkurriert.
Das Thema ist relevant, weil Suchagenten zu einer Kernfunktion moderner KI-Systeme werden. Sie lesen Quellen, folgen Links, nutzen Werkzeuge und bauen aus verteilten Informationen eine Antwort. Genau diese Fähigkeit ist teuer, wenn sie nur mit großen proprietären Trainingsläufen entsteht.
Was OpenSeeker-v2 tatsächlich macht
OpenSeeker-v2 ist ein 30B-Modell im ReAct-Paradigma. Es wurde nicht mit einer langen Kette aus Pretraining, Continual Pretraining, Supervised Fine-Tuning und Reinforcement Learning beschrieben, sondern mit einem fokussierten SFT-Ansatz.
Das Team nennt drei Datenhebel: größere Wissensgraphen für reichere Exploration, mehr verfügbare Tools für breitere Aufgaben und striktes Filtern einfacher Kurzschritt-Aufgaben. Trainiert wurde laut Paper auf 10.600 hochwertigen Trajektorien.
Die gemeldeten Ergebnisse: 46,0 Prozent auf BrowseComp, 58,1 Prozent auf BrowseComp-ZH, 34,6 Prozent auf Humanity's Last Exam und 78,0 Prozent auf xbench. Das Paper vergleicht diese Werte mit Tongyi DeepResearch und meldet bessere Ergebnisse in denselben vier Kennzahlen.
Warum das wichtig ist
Wenn die Ergebnisse halten, verschiebt sich der Engpass. Dann geht es bei Suchagenten nicht nur um immer mehr Compute, sondern stark um Datenqualität, Aufgabenhärte und saubere Trajektorien. Das ist gut für Universitäten, Open-Source-Teams und kleinere Labore.
Hugging Face spiegelt die Paper-Seite und macht den Bericht sichtbarer für die Entwickler-Community. Aibase und xix.ai griffen die Meldung am 6. Mai 2026 ebenfalls auf und betonten den niedrigeren Forschungsaufwand. Wichtig ist aber: Die stärkste Quelle bleibt das Paper selbst. Unabhängige Replikationen stehen noch aus.
Einfach erklärt
Stell dir vor, zwei Menschen lernen, einen Koffer für schwierige Reisen zu packen. Person A übt mit tausenden zufälligen Beispielen. Person B übt mit wenigen, aber sehr gut ausgewählten Reisen: Regen, Zollkontrolle, Laptop, Medikamente, nur Handgepäck.
OpenSeeker-v2 behauptet im Kern: Für Suchagenten kann Person B überraschend weit kommen, wenn die Übungsfälle hart, vielfältig und gut beschrieben sind.
Praktisches Beispiel
Ein kleines Forschungslabor möchte einen Agenten bauen, der technische Fragen mit Quellen beantwortet. Eine Industrie-Pipeline mit RL und großen proprietären Daten wäre zu teuer. Stattdessen sammelt das Labor 10.000 bis 15.000 hochwertige Such-Trajektorien: Welche Quelle wurde geöffnet, welches Tool genutzt, welche Zwischenschritte waren nötig, und wann war eine Aufgabe zu einfach.
Wenn der OpenSeeker-v2-Ansatz generalisiert, könnte dieses Labor einen brauchbaren Suchagenten trainieren, ohne die Infrastruktur eines Hyperscalers zu besitzen. Das wäre kein Ersatz für alle Frontier-Systeme, aber ein realer Hebel für offene Forschung.
Einordnung und Grenzen
- Die Ergebnisse stammen aus einem neuen Paper. Sie sind noch nicht breit unabhängig repliziert.
- Benchmarks messen nicht automatisch Produktqualität. Ein Agent kann auf BrowseComp stark sein und trotzdem in realen Workflows scheitern.
- SFT mit guten Trajektorien löst nicht alle Sicherheitsfragen. Quellenqualität, Prompt Injection und Werkzeugrechte bleiben kritische Risiken.
SEO- und GEO-Schlüsselbegriffe
OpenSeeker-v2, Search Agent, ReAct, Supervised Fine-Tuning, SFT, Open Source AI, BrowseComp, Humanity's Last Exam, xbench, Tongyi DeepResearch, arXiv 2605.04036, AI Agents
💡 Im Klartext
OpenSeeker-v2 ist spannend, weil es zeigt, dass gute Trainingsbeispiele manchmal wichtiger sein können als eine riesige Trainingsmaschine. Für Entwickler heißt das: bessere Daten könnten offene Suchagenten deutlich nach vorne bringen.
Wichtigste Erkenntnisse
- →OpenSeeker-v2 wurde am 5. Mai 2026 bei arXiv eingereicht.
- →Das Team meldet Training mit nur 10.600 hochwertigen Trajektorien.
- →Der 30B-ReAct-Agent erreicht laut Paper Bestwerte auf vier Benchmarks.
- →Die Ergebnisse sind relevant für offene Forschung, aber noch nicht breit repliziert.
Häufige Fragen
Ist OpenSeeker-v2 ein veröffentlichtes Produkt?
Nein. Es ist primär ein Forschungsbericht mit angekündigten offenen Modellgewichten.
Warum sind 10.600 Trajektorien bemerkenswert?
Weil industrielle Agenten häufig mit deutlich komplexeren und teureren Trainingspipelines beschrieben werden.
Kann man den Ergebnissen sofort vertrauen?
Man sollte sie ernst nehmen, aber vorsichtig bleiben. Unabhängige Replikationen und Praxistests fehlen noch.