Google spouští Gemini Omni Flash: AI, která tvoří a upravuje videa na základě textu, obrazu i zvuku

22. května 2026Inovace

Google začal zavádět Gemini Omni Flash, svůj nový multimodální model umělé inteligence, který dokáže generovat a upravovat videa pomocí textových, obrazových, zvukových a video vstupů. Zavedení následuje po oznámení modelu během konference Google I/O 2026 a znamená, že uživatelé nyní mohou systém aktivně využívat v aplikaci Gemini, Google Flow a YouTube Shorts.

Společnost uvádí, že model je navržen tak, aby kombinoval logické uvažování s kreativní generací obsahu v jediném systému, což uživatelům umožňuje vytvářet a upravovat video obsah prostřednictvím přirozené konverzace. S Gemini Omni Flash mohou uživatelé zadat modelu pokyn k vytvoření videí od začátku nebo k postupné úpravě stávajících klipů. Každá instrukce navazuje na předchozí, což umožňuje průběžné vylepšování scén bez narušení kontinuity. Google tvrdí, že to pomáhá udržovat konzistenci postav, objektů a prostředí napříč úpravami, i když se video mění v průběhu několika iterací.

Model také podporuje pracovní postupy s více vstupy, kde uživatelé mohou kombinovat různé typy vstupů, jako jsou textové výzvy, obrázky, videoklipy a zvukové reference. To umožňuje tvarovat jedno výstupní video pomocí více referenčních bodů namísto spoléhání se na jedinou výzvu. Systém je navržen tak, aby rozuměl, jak tyto vstupy vzájemně souvisí, a produkoval koherentní finální scénu. Zavedení je součástí širší snahy společnosti Google o integraci generativní umělé inteligence do svého spotřebitelského ekosystému, zejména platforem zaměřených na tvorbu krátkých videí. YouTube Shorts a aplikace YouTube Create patří mezi první platformy, kde jsou zaváděny funkce Omni Flash, což signalizuje užší propojení mezi nástroji pro generování AI a procesy tvorby obsahu.

Google také uvádí, že všechny výstupy generované systémem budou obsahovat vodoznaky SynthID pro identifikaci obsahu generovaného umělou inteligencí. Gemini Omni Flash umožňuje uživatelům upravovat videa pomocí příkazů v přirozeném jazyce namísto tradičních editačních nástrojů. Uživatelé mohou popsat změny, jako je úprava prostředí, přidání objektů nebo změna akcí ve scéně, a model video odpovídajícím způsobem aktualizuje při zachování celkové struktury. Systém je navržen tak, aby udržoval vizuální kontinuitu napříč úpravami, což zajišťuje konzistenci postav a objektů při provádění změn v několika krocích. Google tvrdí, že to činí proces úprav iterativnějším a flexibilnějším ve srovnání s konvenčními nástroji pro produkci videa.

Model také čerpá z širších znalostí modelu Gemini o světě, aby zlepšil realismus generovaného obsahu. Toto porozumění využívá k přesnější simulaci fyzikálních interakcí, jako je pohyb, osvětlení a environmentální efekty. Google představuje Gemini Omni Flash jako součást širšího posunu směrem k multimodálním systémům umělé inteligence, které dokážou společně zvládat tvorbu a uvažování. Model je navržen tak, aby zpracovával více vstupních formátů a generoval výstupní video, které odráží kombinované instrukce, nikoli izolované výzvy. Cílem společnosti je zmenšit propast mezi nápadem a jeho realizací, což uživatelům umožní přejít od konceptu k hotovému videu pomocí jediného konverzačního rozhraní. Postupem času Google plánuje rozšířit výstupní formáty i mimo video, s podporou obrázků a zvuku plánovanou pro budoucí aktualizace. Zavedení Gemini Omni Flash je v současné době omezeno na vybrané úrovně předplatného v aplikaci Gemini, přičemž širší přístup se očekává s rozšířením nasazení.