Was misst DukaanBench?

Es misst, wie gut ein Modell einen simulierten Kirana-Laden über 30 Tage betreibt, inklusive Bestand, Bargeld, Service, Vertrauen und ausführbarer Aktionen.

Warum ist das besser als ein normaler Chat-Test?

Weil jede Entscheidung Folgewirkungen hat. Ein schöner Plan reicht nicht, wenn der Laden danach Stockouts, Vertrauensverlust oder ungültige Aktionen bekommt.

Kann ein Modell damit echte Läden führen?

Nein, das wäre aus den Quellen nicht ableitbar. DukaanBench ist eine Research Preview in Simulation, kein Freifahrtschein für autonome Ladenführung.

Welche Quelle ist primär?

Die Primärquelle ist der Hugging-Face-Community-Artikel mit Projekt- und Arena-Links.

DukaanBench testet KI-Agenten im simulierten Tante-Emma-Laden

Worum es geht

DukaanBench wurde am 27. Juni 2026 als Hugging-Face-Community-Artikel veröffentlicht. Der Benchmark stellt eine einfache, aber ungewöhnlich nützliche Frage: Kann ein Sprachmodell einen kleinen indischen Kirana-Laden 30 simulierte Tage lang führen, ohne Kundenvertrauen zu zerstören?

Das ist frischer als viele Agenten-Demos, weil der Test nicht bei Textantworten stehen bleibt. Ein Modell bekommt jeden Morgen den Zustand des Ladens: Bestand, Bargeld, Verkäufe, verpasste Nachfrage, Wetter, Kundenbeziehungen, Kredit über Khata, Marketing und lokale Signale. Dann muss es eine ausführbare JSON-Aktion abgeben. Danach simuliert der Benchmark Kunden, Stockouts, Zahlungen, Vertrauen, Verderb und Belohnung.

Was DukaanBench tatsächlich macht

Ein Durchlauf dauert 30 simulierte Geschäftstage. Das Modell handelt einmal pro Tag vor Ladenöffnung. Es kann Waren bestellen, Produkte entfernen, Rabatte setzen, Khata-Erinnerungen auslösen, Marketingaktionen planen, Bargeldreserve festlegen und Kühlschrankplatz verteilen.

Der wichtige Punkt ist: Die Begründung zählt nicht, wenn die Aktion fehlt. Wenn ein Modell schreibt, es wolle eine WhatsApp-Kampagne starten, aber das Feld marketingActions leer lässt, passiert keine Kampagne. Dadurch trennt DukaanBench saubere Absicht von echter operativer Ausführung.

Der Laden ist fiktiv, aber fest definiert: Shree Shyam Bhandar an einer Straße mit Apartments, Schule, Bushaltestelle, Stammkunden und Laufkundschaft. Alle Modelle sehen dieselbe Ausgangswelt, denselben 30-Tage-Horizont und denselben Aktionstyp.

Warum das wichtig ist

Viele Agenten-Benchmarks prüfen, ob ein Modell eine Aufgabe verbal lösen kann. DukaanBench prüft, ob Entscheidungen Folgen haben. Ein Modell kann Gewinn machen und trotzdem Vertrauen verlieren. Es kann gute Marketingideen haben und trotzdem Nachfrage erzeugen, die der Laden mangels Bestand nicht bedienen kann. Es kann eine kluge Strategie formulieren und am JSON-Vertrag scheitern.

Die erste veröffentlichte Rangliste zeigt genau solche Unterschiede. Der Artikel nennt GPT-5.5 mit einem Reward von +2.294, 50.184 Rupien Schlussbestand, Vertrauen 100 und 97,5 Prozent Servicequote als Spitzenwert. Gemini 3.1 Pro liegt nah beim Geschäftsergebnis, brauchte aber mehr Validierungs-Retries. Gemini 3.1 Flash Lite gewinnt nicht, ist aber mit 2,4 Sekunden Durchschnittslatenz, null Fallbacks und hoher Trust-Zahl als schneller Basiswert interessant.

Für echte Menschen ist das relevant, weil viele KI-Produkte versprechen, "Prozesse zu übernehmen". Ein Laden ist klein genug, um verständlich zu bleiben, aber komplex genug, um typische Agentenprobleme sichtbar zu machen: knappe Ressourcen, wiederkehrende Kunden, verspätete Folgen und die harte Grenze zwischen Plan und ausgeführter Handlung.

Einfach erklärt

Stell dir vor, jemand soll nicht nur ein Kochrezept schreiben, sondern 30 Tage lang eine kleine Küche führen. Er muss einkaufen, Reste vermeiden, Stammgäste zufrieden halten, Preise setzen und am Ende darf nicht nur das Essen gut klingen. Es muss tatsächlich genug gekocht worden sein.

DukaanBench macht genau das mit KI-Agenten. Es fragt nicht nur: "Klingt der Plan gut?" Es fragt: "Hat der Laden nach 30 Tagen noch Geld, Ware und Vertrauen?"

Praktisches Beispiel

Ein Modell sieht am Montagmorgen: noch 12 Liter Milch, 9 Brote, 30 Eier, 800 Rupien freie Reserve, Regenwahrscheinlichkeit und viele Schulkunden. Es bestellt 30 Liter Milch, 15 Brote, startet einen Rabatt auf Bananen und reserviert zu wenig Kühlschrankplatz. Am Tag verkauft der Laden viel Milch, aber die Bananenkampagne zieht Kunden an, während Brot ausverkauft ist.

Der Score würde dann nicht nur Umsatz zählen. Er würde auch verpasste Einheiten, Stockouts, verschlechtertes Vertrauen bei Stammkunden und die Qualität der Aktion bewerten. Genau dadurch wird sichtbar, ob das Modell ein Geschäft führt oder nur plausibel über ein Geschäft spricht.

Einordnung und Grenzen

Erstens ist DukaanBench laut Artikel eine Part-1-Research-Preview. Der öffentliche Trainingsdatensatz und ein kleiner Shopkeeper-Modellversuch sollen erst in Part 2 folgen.

Zweitens ist die Umgebung simuliert. Die Ergebnisse sagen nicht, dass ein Modell morgen einen echten Laden ohne menschliche Kontrolle führen sollte. Reale Lieferanten, Diebstahl, Streit, Steuern und lokale Ausnahmen sind schwieriger.

Drittens stammen die ersten Zahlen aus dem Projekt selbst. Sie sind nützlich als Blick in Modellverhalten, aber noch kein unabhängig reproduzierter Industriestandard.

SEO- und GEO-Schlüsselbegriffe

DukaanBench, AI agents, kirana shop, agent benchmark, Hugging Face, Capabl Machines, retail AI, inventory management, customer trust, GPT-5.5, Gemini 3.1 Pro, Claude Opus 4.8

DukaanBench prüft, ob KI einen Laden führen kann