Gemini Omni Flash macht Video zur nächsten multimodalen Gemini-Ausgabe
29. Mai 2026

Google hat Gemini Omni Flash vorgestellt: ein neues Modell, das Text, Bilder, Audio und Video als Eingabe kombinieren und daraus Videos erzeugen oder per Chat bearbeiten kann.
Google hat mit Gemini Omni eine neue Modellfamilie vorgestellt, die die multimodalen Fähigkeiten von Gemini stärker in Richtung Video-Produktion schiebt. Der erste öffentliche Vertreter heißt Gemini Omni Flash. Laut Google kann das Modell Text, Bilder, Audio und Videos als Eingabe kombinieren und daraus neue Videos erzeugen. Zum Start liegt der Fokus klar auf Video; weitere Ausgabeformen wie Bild und Audio sollen später folgen.
Der wichtigste Punkt ist nicht nur die reine Videoerzeugung, sondern die Bearbeitung im Dialog. Nutzer sollen ein vorhandenes Video nehmen und per natürlicher Sprache ändern können: Objekte austauschen, Aktionen verändern, Kamerawinkel anpassen, Lichtstimmung ändern oder eine Szene stilistisch transformieren. Google betont dabei Konsistenz über mehrere Prompts hinweg: Figuren sollen erkennbar bleiben, die Szene soll sich an vorherige Schritte erinnern und physikalische Abläufe plausibler wirken.
Damit positioniert Google Omni nicht als einfachen Text-zu-Video-Generator, sondern als kreatives Multimodal-Werkzeug. Besonders relevant ist die Kombination verschiedener Referenzen: Ein Bild kann den Charakter liefern, ein Video die Bewegung, Audio den Rhythmus und Text die gewünschte Szene. Daraus soll Omni einen kohärenten Clip bauen. Für Creator ist das stark, weil vorhandenes Material nicht mehr nur Ausgangspunkt für klassische Schnittarbeit ist, sondern direkt zum steuerbaren Prompt-Kontext wird.
Auch der Business-Nutzen ist offensichtlich: Produktvideos, Social-Clips, Schulungsinhalte, Erklärvideos und schnelle visuelle Prototypen werden günstiger und schneller. Gleichzeitig steigt der Druck auf Medienkompetenz und Herkunftsnachweise. Google schreibt, dass Omni-Videos mit SynthID und C2PA Content Credentials versehen werden. Das ist wichtig, löst aber nicht alle Probleme: Plattformen, Redaktionen und Unternehmen müssen trotzdem Prozesse aufbauen, um KI-generierte oder KI-bearbeitete Videos sauber zu kennzeichnen und Missbrauch zu erkennen.
Verfügbar ist Gemini Omni Flash laut Google zunächst für Google-AI-Pro- und Ultra-Abonnenten in der Gemini-App und in Google Flow. Außerdem soll es ab dieser Woche ohne zusätzliche Kosten in YouTube Shorts und YouTube Create ausgerollt werden. Entwickler und Enterprise-Kunden sollen in den kommenden Wochen API-Zugang erhalten.
Einordnung: Gemini Omni ist ein klares Signal, dass der Wettbewerb um KI-Video nicht mehr nur über hübsche Clips entschieden wird. Entscheidend wird, wie gut Modelle mit echten Referenzen umgehen, wie stabil sie iteratives Editing beherrschen und ob sie Weltwissen, Physik und Stilkontrolle zuverlässig verbinden. Genau dort versucht Google jetzt anzugreifen.
💡 Im Klartext
Gemini Omni Flash ist wie ein Video-Assistent: Du gibst ihm Text, Bilder, Ton oder ein vorhandenes Video, und er kann daraus ein neues Video machen oder das alte Video per Chat verändern.
Wichtigste Erkenntnisse
- →Gemini Omni Flash kombiniert Text, Bild, Audio und Video als Eingabe für Video-Ausgaben.
- →Der Fokus liegt auf dialogbasierter Video-Bearbeitung statt nur Text-zu-Video.
- →Google startet mit Gemini-App, Google Flow, YouTube Shorts und YouTube Create; APIs sollen folgen.
- →SynthID und C2PA sollen Herkunft und KI-Erzeugung transparenter machen.
Häufige Fragen
Was ist Gemini Omni Flash?
Gemini Omni Flash ist das erste Modell der neuen Gemini-Omni-Familie und erzeugt oder bearbeitet Videos aus multimodalen Eingaben.
Kann Gemini Omni schon Bilder und Audio ausgeben?
Zum Start liegt der Schwerpunkt auf Video. Google kündigt weitere Ausgabeformen wie Bild und Audio für später an.
Gibt es eine API?
Google schreibt, dass Entwickler und Enterprise-Kunden in den kommenden Wochen API-Zugang erhalten sollen.