cyberivy
Thinking MachinesMira MuratiAI ResearchMultimodal AIVoice AIHuman AI CollaborationReal-Time AI

Thinking Machines will KI aus dem Wechselsprech-Modus holen

12. Mai 2026

Cyber-Ivy-Titelgrafik mit dunklem Hintergrund, grünem Pflanzenmotiv und heller Schriftmarke

Thinking Machines zeigt Interaction Models, die Audio, Video und Text parallel aufnehmen und antworten sollen. Noch ist es Forschung, aber die Richtung trifft ein echtes Problem heutiger KI-Assistenten.

Worum es geht

Thinking Machines Lab, das Unternehmen der früheren OpenAI-CTO Mira Murati, stellte am 11. Mai 2026 eine Forschungsrichtung namens Interaction Models vor. Die Idee: KI soll nicht mehr nur warten, bis ein Mensch fertig gesprochen oder getippt hat, sondern Audio, Video und Text laufend aufnehmen, während sie selbst antwortet oder im Hintergrund arbeitet.

Das klingt zunächst nach Produktdemo. Interessant wird es, weil Thinking Machines damit einen Schwachpunkt heutiger KI-Systeme adressiert: Viele Modelle sind sehr stark, aber die Bedienung bleibt langsam und rundenbasiert. Menschliche Zusammenarbeit funktioniert dagegen oft durch Unterbrechen, Zeigen, Nachfragen und paralleles Denken.

Was Interaction Models tatsächlich machen

Laut Thinking Machines werden Interaction Models von Anfang an für Interaktion trainiert, statt Echtzeitverhalten über viele externe Komponenten anzukleben. Das System arbeitet mit mehreren Strömen und kleinen Zeitabschnitten. Audio, Video und Text werden nicht als abgeschlossene Nutzeranfrage behandelt, sondern als fortlaufender Kontext.

Das Unternehmen beschreibt einen Ansatz mit einem schnellen Interaction Model und einem asynchronen Hintergrundmodell. Das schnelle Modell bleibt im Gespräch präsent, während das Hintergrundmodell längere Aufgaben, Tool-Nutzung oder Recherche übernimmt. TechCrunch berichtet, dass das vorgestellte TML-Interaction-Small in etwa 0,40 Sekunden reagieren soll. Thinking Machines plant zunächst eine begrenzte Research Preview und später eine breitere Veröffentlichung im Jahr 2026.

Warum das wichtig ist

Die meisten heutigen Assistenten fühlen sich wie ein Chatfenster an: Mensch spricht, Modell wartet, Modell antwortet, Mensch wartet. Für kurze Fragen ist das okay. Für gemeinsames Arbeiten an Code, Design, Support, Ausbildung oder Live-Übersetzung ist es oft zu steif.

Wenn ein Modell während des Zuhörens weiterdenken kann, entstehen andere Arbeitsformen. Ein Support-Agent könnte zuhören, relevante Kundendaten suchen und bei Unsicherheit nachfragen. Ein Lernassistent könnte sehen, dass ein Schüler an einer Gleichung stockt, bevor eine fertige Frage formuliert wird. Ein Entwickler könnte Code zeigen, während die KI bereits riskante Stellen markiert. Das ist nicht automatisch besser, aber es verschiebt die Schnittstelle von Prompt zu Zusammenarbeit.

Einfach erklärt

Der Unterschied ist wie zwischen E-Mail und gemeinsamer Küchenarbeit. Bei E-Mail schreibst du alles fertig, wartest auf Antwort und korrigierst danach. In der Küche sieht die andere Person, dass du zu viel Salz nimmst, und sagt sofort: „Stopp, weniger.“

Interaction Models wollen KI näher an diese Küchensituation bringen: hören, sehen, reagieren und trotzdem längere Aufgaben im Hintergrund erledigen.

Praktisches Beispiel

Ein Serviceteam bearbeitet täglich 800 Support-Anrufe. Heute muss ein Mitarbeiter zuhören, parallel Notizen schreiben, ein CRM öffnen und nach Vertragsdaten suchen. Ein rundenbasierter KI-Assistent kann erst helfen, wenn die Frage klar formuliert wurde.

Ein Interaction Model könnte während des Gesprächs erkennen, dass es um eine Rechnung über 1.240 Euro geht, im Hintergrund die Vertragsdaten laden und dem Mitarbeiter eine Rückfrage vorschlagen: „Meinen Sie die April-Rechnung oder die Gutschrift vom 3. Mai?“ Der Mensch bleibt verantwortlich, aber die KI arbeitet nicht mehr nur nach dem Ende eines Satzes.

Einordnung und Grenzen

  • Es ist noch keine frei nutzbare Produktversion. Externe Nutzer können die Qualität und Latenz noch nicht breit prüfen.
  • Echtzeit-Audio und Video erhöhen Datenschutzrisiken. Solche Systeme brauchen klare Zustimmung, Speicherregeln und sichtbare Kontrollmöglichkeiten.
  • Schnelle Interaktion ersetzt keine verlässliche Wahrheit. Ein Modell kann flüssig unterbrechen und trotzdem falsche Schlussfolgerungen ziehen.

SEO- und GEO-Schlüsselbegriffe

Thinking Machines Lab, Mira Murati, interaction models, real-time AI, full-duplex AI, multimodal AI, AI voice assistants, TML-Interaction-Small, human AI collaboration, AI research preview

💡 Im Klartext

Thinking Machines will KI-Assistenten bauen, die nicht nur abwechselnd zuhören und antworten. Sie sollen laufend sehen, hören, sprechen und längere Aufgaben parallel im Hintergrund erledigen.

Wichtigste Erkenntnisse

  • Thinking Machines stellte am 11. Mai 2026 Interaction Models als Research Preview vor.
  • Der Ansatz soll Audio, Video und Text in Echtzeit parallel verarbeiten.
  • TML-Interaction-Small soll laut TechCrunch etwa 0,40 Sekunden Reaktionszeit erreichen.
  • Der Nutzen liegt vor allem in Zusammenarbeit, Support, Lernen, Live-Übersetzung und Arbeit mit sichtbarem Kontext.
  • Datenschutz, Verlässlichkeit und externe Tests bleiben zentrale offene Punkte.

Häufige Fragen

Kann man Interaction Models schon nutzen?

Nein, öffentlich breit nutzbar sind sie noch nicht. Thinking Machines spricht von einer begrenzten Research Preview in den kommenden Monaten.

Was ist neu gegenüber Voice-Chatbots?

Der Anspruch ist, Interaktion nativ im Modell zu verankern: gleichzeitiges Hören, Sehen, Antworten und Hintergrundarbeit statt nur Turn-Taking mit Sprachoberfläche.

Warum ist Datenschutz hier besonders wichtig?

Weil solche Systeme laufend Audio, Video und Text aufnehmen können. Ohne klare Zustimmung und Speicherregeln würde das schnell zu Überwachung statt Assistenz.

Quellen & Kontext