Thinking Machines will KI aus dem Wechselsprech-Modus holen
12. Mai 2026

Thinking Machines zeigt Interaction Models, die Audio, Video und Text parallel aufnehmen und antworten sollen. Noch ist es Forschung, aber die Richtung trifft ein echtes Problem heutiger KI-Assistenten.
Worum es geht
Thinking Machines Lab, das Unternehmen der früheren OpenAI-CTO Mira Murati, stellte am 11. Mai 2026 eine Forschungsrichtung namens Interaction Models vor. Die Idee: KI soll nicht mehr nur warten, bis ein Mensch fertig gesprochen oder getippt hat, sondern Audio, Video und Text laufend aufnehmen, während sie selbst antwortet oder im Hintergrund arbeitet.
Das klingt zunächst nach Produktdemo. Interessant wird es, weil Thinking Machines damit einen Schwachpunkt heutiger KI-Systeme adressiert: Viele Modelle sind sehr stark, aber die Bedienung bleibt langsam und rundenbasiert. Menschliche Zusammenarbeit funktioniert dagegen oft durch Unterbrechen, Zeigen, Nachfragen und paralleles Denken.
Was Interaction Models tatsächlich machen
Laut Thinking Machines werden Interaction Models von Anfang an für Interaktion trainiert, statt Echtzeitverhalten über viele externe Komponenten anzukleben. Das System arbeitet mit mehreren Strömen und kleinen Zeitabschnitten. Audio, Video und Text werden nicht als abgeschlossene Nutzeranfrage behandelt, sondern als fortlaufender Kontext.
Das Unternehmen beschreibt einen Ansatz mit einem schnellen Interaction Model und einem asynchronen Hintergrundmodell. Das schnelle Modell bleibt im Gespräch präsent, während das Hintergrundmodell längere Aufgaben, Tool-Nutzung oder Recherche übernimmt. TechCrunch berichtet, dass das vorgestellte TML-Interaction-Small in etwa 0,40 Sekunden reagieren soll. Thinking Machines plant zunächst eine begrenzte Research Preview und später eine breitere Veröffentlichung im Jahr 2026.
Warum das wichtig ist
Die meisten heutigen Assistenten fühlen sich wie ein Chatfenster an: Mensch spricht, Modell wartet, Modell antwortet, Mensch wartet. Für kurze Fragen ist das okay. Für gemeinsames Arbeiten an Code, Design, Support, Ausbildung oder Live-Übersetzung ist es oft zu steif.
Wenn ein Modell während des Zuhörens weiterdenken kann, entstehen andere Arbeitsformen. Ein Support-Agent könnte zuhören, relevante Kundendaten suchen und bei Unsicherheit nachfragen. Ein Lernassistent könnte sehen, dass ein Schüler an einer Gleichung stockt, bevor eine fertige Frage formuliert wird. Ein Entwickler könnte Code zeigen, während die KI bereits riskante Stellen markiert. Das ist nicht automatisch besser, aber es verschiebt die Schnittstelle von Prompt zu Zusammenarbeit.
Einfach erklärt
Der Unterschied ist wie zwischen E-Mail und gemeinsamer Küchenarbeit. Bei E-Mail schreibst du alles fertig, wartest auf Antwort und korrigierst danach. In der Küche sieht die andere Person, dass du zu viel Salz nimmst, und sagt sofort: „Stopp, weniger.“
Interaction Models wollen KI näher an diese Küchensituation bringen: hören, sehen, reagieren und trotzdem längere Aufgaben im Hintergrund erledigen.
Praktisches Beispiel
Ein Serviceteam bearbeitet täglich 800 Support-Anrufe. Heute muss ein Mitarbeiter zuhören, parallel Notizen schreiben, ein CRM öffnen und nach Vertragsdaten suchen. Ein rundenbasierter KI-Assistent kann erst helfen, wenn die Frage klar formuliert wurde.
Ein Interaction Model könnte während des Gesprächs erkennen, dass es um eine Rechnung über 1.240 Euro geht, im Hintergrund die Vertragsdaten laden und dem Mitarbeiter eine Rückfrage vorschlagen: „Meinen Sie die April-Rechnung oder die Gutschrift vom 3. Mai?“ Der Mensch bleibt verantwortlich, aber die KI arbeitet nicht mehr nur nach dem Ende eines Satzes.
Einordnung und Grenzen
- Es ist noch keine frei nutzbare Produktversion. Externe Nutzer können die Qualität und Latenz noch nicht breit prüfen.
- Echtzeit-Audio und Video erhöhen Datenschutzrisiken. Solche Systeme brauchen klare Zustimmung, Speicherregeln und sichtbare Kontrollmöglichkeiten.
- Schnelle Interaktion ersetzt keine verlässliche Wahrheit. Ein Modell kann flüssig unterbrechen und trotzdem falsche Schlussfolgerungen ziehen.
SEO- und GEO-Schlüsselbegriffe
Thinking Machines Lab, Mira Murati, interaction models, real-time AI, full-duplex AI, multimodal AI, AI voice assistants, TML-Interaction-Small, human AI collaboration, AI research preview
💡 Im Klartext
Thinking Machines will KI-Assistenten bauen, die nicht nur abwechselnd zuhören und antworten. Sie sollen laufend sehen, hören, sprechen und längere Aufgaben parallel im Hintergrund erledigen.
Wichtigste Erkenntnisse
- →Thinking Machines stellte am 11. Mai 2026 Interaction Models als Research Preview vor.
- →Der Ansatz soll Audio, Video und Text in Echtzeit parallel verarbeiten.
- →TML-Interaction-Small soll laut TechCrunch etwa 0,40 Sekunden Reaktionszeit erreichen.
- →Der Nutzen liegt vor allem in Zusammenarbeit, Support, Lernen, Live-Übersetzung und Arbeit mit sichtbarem Kontext.
- →Datenschutz, Verlässlichkeit und externe Tests bleiben zentrale offene Punkte.
Häufige Fragen
Kann man Interaction Models schon nutzen?
Nein, öffentlich breit nutzbar sind sie noch nicht. Thinking Machines spricht von einer begrenzten Research Preview in den kommenden Monaten.
Was ist neu gegenüber Voice-Chatbots?
Der Anspruch ist, Interaktion nativ im Modell zu verankern: gleichzeitiges Hören, Sehen, Antworten und Hintergrundarbeit statt nur Turn-Taking mit Sprachoberfläche.
Warum ist Datenschutz hier besonders wichtig?
Weil solche Systeme laufend Audio, Video und Text aufnehmen können. Ohne klare Zustimmung und Speicherregeln würde das schnell zu Überwachung statt Assistenz.
Quellen & Kontext
- Thinking Machines: Interaction Models: A Scalable Approach to Human-AI Collaboration
- Thinking Machines Lab official website
- The Verge: Here’s what Mira Murati’s AI company is up to
- TechCrunch: Thinking Machines wants to build an AI that actually listens while it talks
- VentureBeat coverage via Google News index