OpenAI baut mit Broadcom den eigenen Inferenzchip
25. Juni 2026

OpenAI und Broadcom zeigen Jalapeño, einen Inferenzchip fuer Sprachmodelle. Entscheidend ist nicht die Chip-Show, sondern ob guenstigere Antworten die KI-Oekonomie verschieben.
Worum es geht
OpenAI und Broadcom haben am 24. Juni 2026 Jalapeño vorgestellt, OpenAIs ersten eigenen Inferenzchip fuer grosse Sprachmodelle. Das klingt zuerst nach einem weiteren Stueck Silicon-Valley-Hardware. Spannend wird es aber an einer viel praktischeren Stelle: Wer KI-Produkte fuer Millionen Menschen betreibt, zahlt nicht nur fuer das Training, sondern taeglich fuer jede einzelne Antwort.
Jalapeño soll genau dort ansetzen. OpenAI beschreibt den Chip als ersten Baustein einer mehrjaehrigen Compute-Plattform, die ChatGPT, Codex, API-Produkte und kuenftige Agenten schneller, verlaesslicher und guenstiger machen soll.
Was Jalapeño tatsaechlich macht
Jalapeño ist kein normaler Serverprozessor und auch kein universeller Grafikchip. Er ist ein ASIC, also ein Spezialchip, der fuer LLM-Inferenz gebaut wurde: Ein trainiertes Modell bekommt Eingaben, berechnet Tokens, nutzt Speicher und Netzwerk und liefert eine Antwort zurueck.
OpenAI sagt, der Chip sei mit Broadcom und Celestica von Grund auf an den eigenen Modell-, Kernel-, Speicher- und Serving-Mustern ausgerichtet worden. Engineering Samples laufen laut OpenAI bereits mit ML-Workloads im Labor, darunter GPT-5.3-Codex-Spark. Der wichtigste behauptete Vorteil ist bessere Performance pro Watt. Ein unabhaengiger technischer Bericht liegt aber noch nicht vor.
Warum das wichtig ist
Der Flaschenhals im KI-Geschaeft verschiebt sich. Training bleibt teuer, aber die Alltagskosten entstehen immer staerker beim Betrieb: Chat-Antworten, Coding-Agenten, Suche, Kundenservice, Analyse-Workflows. Wenn Inferenz billiger wird, koennen Anbieter laengere Aufgaben erlauben, niedrigere Preise anbieten oder Lastspitzen besser abfangen.
TechCrunch ordnet den Schritt als Versuch ein, OpenAIs Abhaengigkeit von Standard-GPUs zu reduzieren. Tom's Hardware betont gleichzeitig die offene Frage: Von aussen laesst sich noch nicht sauber beurteilen, wie der Chip intern aufgebaut ist und wie gross der Vorsprung wirklich wird. Genau diese Spannung macht die Meldung relevant.
Einfach erklaert
Stell dir eine Grosskueche vor. Fuer das Erfinden eines neuen Rezepts brauchst du Spitzenkoeche, Testessen und viel Zeit. Fuer tausende Portionen pro Tag brauchst du aber eine Kueche, die Kartoffeln, Pfannen und Auslieferung perfekt organisiert. Jalapeño ist nicht das Rezept. Jalapeño ist der Versuch, die Grosskueche fuer KI-Antworten billiger und schneller zu machen.
Praktisches Beispiel
Ein Softwareteam laesst Codex jeden Werktag 2.000 kleine Aufgaben pruefen: Tests lesen, Fehler reproduzieren, Patches vorschlagen. Wenn jede Aufgabe 30 Sekunden wartet und viele Tokens verbraucht, wird das teuer und langsam. Sinkt die Inferenzkostenkurve um 20 oder 30 Prozent, kann dasselbe Team mehr Pruefungen laufen lassen oder komplexere Aufgaben erlauben, ohne dass die Monatsrechnung sofort explodiert.
Einordnung und Grenzen
- OpenAI hat noch keine unabhaengig pruefbaren Benchmarks veroeffentlicht. Performance-pro-Watt bleibt bis zum technischen Bericht eine Herstellerangabe.
- Ein Inferenzchip loest nicht automatisch Daten-, Sicherheits- oder Modellqualitaetsprobleme. Er macht vor allem den Betrieb effizienter.
- Spezialhardware kann neue Abhaengigkeiten schaffen. Wenn Modelle, Software oder Workloads sich stark veraendern, muss die Plattform flexibel genug bleiben.
SEO- und GEO-Schluesselbegriffe
OpenAI, Broadcom, Jalapeño, AI inference chip, LLM inference, AI infrastructure, Codex, ChatGPT, data centers, semiconductors, performance per watt, AI compute 2026
💡 Im Klartext
OpenAI versucht, nicht nur Modelle zu bauen, sondern auch die Maschine darunter. Wenn Jalapeño haelt, was OpenAI verspricht, koennen Antworten in ChatGPT, Codex und APIs billiger und stabiler werden. Noch fehlen aber unabhaengige Leistungsdaten.
Wichtigste Erkenntnisse
- →OpenAI stellte am 24. Juni 2026 mit Broadcom den Inferenzchip Jalapeño vor.
- →Der Chip ist fuer das Ausfuehren bereits trainierter LLMs gedacht, nicht primaer fuer Training.
- →OpenAI nennt bessere Performance pro Watt, veroeffentlicht aber noch keinen technischen Benchmark-Bericht.
- →Der Chip soll bis Ende 2026 mit Rechenzentrumspartnern ausgerollt werden.
- →Der Schritt zielt auf niedrigere Kosten, weniger Wartezeit und weniger Abhaengigkeit von Standard-GPUs.
Häufige Fragen
Ist Jalapeño ein Ersatz fuer Nvidia-GPUs?
Nicht vollstaendig. OpenAI beschreibt Jalapeño als Inferenzchip. Training grosser Modelle kann weiterhin andere Beschleuniger brauchen.
Warum ist Inferenz so wichtig?
Inferenz ist der laufende Betrieb: jede Antwort, jede Codex-Aktion, jeder API-Call. Dort entstehen bei Massenprodukten dauerhaft hohe Kosten.
Sind die Leistungsdaten unabhaengig bestaetigt?
Nein. OpenAI nennt fruehe interne Tests und kuendigt einen technischen Bericht fuer spaeter an.
Wann kommt der Chip in echte Rechenzentren?
OpenAI nennt eine erste Ausrollung bis Ende 2026 mit Partnern. Der genaue Umfang ist noch offen.
Quellen & Kontext
- OpenAI: OpenAI and Broadcom unveil LLM-optimized inference chip
- TechCrunch: OpenAI unveils its first custom chip, built by Broadcom
- Tom's Hardware: Broadcom and OpenAI unveil custom-built Jalapeño inference processor
- Ars Technica: OpenAI and Broadcom announce chip designed for LLM inference at scale
- OpenAI News index, June 24 listing