Na Google I/O pokazano Gemini Omni, model, który z dowolnego inputu (tekst, obraz, audio, wideo) robi gotowe wideo, a edytujesz je rozmową zamiast klikania w timeline. Dla designerów i artystów to nie kolejny generator klipów, to zmiana tego, jak wygląda sam proces tworzenia.

Sednem jest podejście any-to-video: wrzucasz zdjęcie referencyjne, ścieżkę audio i opis, a Omni rozumuje po wszystkich tych wejściach naraz i składa spójny materiał. Pod spodem siedzi wiedza Gemini o świecie połączona z renderingiem wideo z Veo. W praktyce: szybciej skleisz animatik, moodboard w ruchu albo szkic reklamy, bez przeskakiwania między pięcioma narzędziami.

Najmocniejsza rzecz dla twórców to edycja językiem naturalnym. Zamiast grzebać w warstwach i maskach piszesz "skróć to ujęcie, dodaj mgłę, zmień porę dnia na zachód słońca". Próg wejścia spada drastycznie, a iteracja po pomyśle robi się kwestią zdań, nie godzin. Omni rozumie też fizykę (grawitacja, płyny, kinetyka) i podpina ją do kontekstu kulturowego, więc bliżej mu do storytellingu niż do gołego photorealizmu. Google pokazał to na claymation explainerze o zwijaniu białek z voice-overem, czyli rzeczy, która normalnie zjada dni roboty.

Dla codziennego warsztatu ważne są integracje. Adobe wnosi ponad 50 narzędzi pro do Gemini (Photoshop, Lightroom, Illustrator, Premiere, Express), Canva daje komendę @Canva i Magic Layers, które zamieniają generaty Gemini w edytowalne warstwy, a CapCut dorzuca przycinanie, efekty i napisy z prompta. Pomysł jest jeden: cały flow od idei do eksportu w jednym oknie, bez eksportowania plików tam i z powrotem.

Dostępność jest tu konkretna. Gemini Omni Flash jest już w aplikacji Gemini, w Google Flow i na YouTube Shorts (na Shorts i w Create App za darmo), a dostęp przez API ma dojść w nadchodzących tygodniach. Mocniejszy Omni Pro ma przyjść później, bez konkretnej daty.

Trzeźwo: na razie klipy to maksymalnie około 10 sekund, prompty muszą być precyzyjne (łatwo o przypadkowy over-edit), awatary wymagają onboardingu z nagraniem głosu, a każdy materiał dostaje watermark SynthID. Jest też realne ryzyko lock-inu: Google otwarcie chce trzymać swoje 900 milionów userów w Gemini od pierwszego pomysłu aż po finalny eksport. Wygoda kontra uzależnienie od jednego ekosystemu, stary dylemat w nowym opakowaniu.

Źródła: TechCrunch · Google blog · Engadget