Google wprowadza Gemini Omni: AI, który zamienia dowolne dane w kinowe wideo!

Autor: Anton Kratiuk | wczoraj, 22:01

Na konferencji Google I/O 2026 odbyła się jedna z najgłośniejszych zapowiedzi roku w dziedzinie sztucznej inteligencji. Szef Google DeepMind Demis Hassabis przedstawił Gemini Omni — zasadniczo nowy, multimodalny model, który potrafi przekształcać absolutnie każdy format danych wejściowych w kinowe wideo wysokiej jakości.

Według Sundara Pichaia, jeśli wcześniej AI po prostu przewidywał tekst, to z nadejściem Gemini Omni branża przechodzi do „symulacji rzeczywistości” dzięki zaawansowanemu zrozumieniu fizyki, historii i kontekstu naszego świata.

Co to jest Gemini Omni i jak to działa?

Główna cecha Gemini Omni — koncepcja „dowolny input na wejściu — wideo na wyjściu”. Sieć neuronowa połączyła w sobie inteligencję modeli tekstowych Gemini z najlepszymi osiągnięciami Google w generowaniu mediów (w tym generator wideo Veo i sieć neuronową do gier Genie).

Użytkownik może załadować do Omni jednocześnie kilka zdjęć z galerii, dodać nagranie audio, tekstowy promt, istniejący wideoklip — i sieć neuronowa stworzy z tego zupełnie nowy, realistyczny klip.

Kluczowe możliwości nowego modelu:

  • dialogowe edytowanie („Conversational Editing”): edycja wygenerowanego wideo teraz możliwa zwykłym głosem, wystarczy powiedzieć: „Zmień kąt kamery”, „Przenieś mnie z sypialni na plażę” lub „Zrób ten klip w stylu animacji Pixara” — a AI natychmiast przerobi scenę, zachowując postacie i fizykę obiektów;
  • generacja cyfrowych awatarów: model potrafi tworzyć dokładne cyfrowe kopie użytkowników na podstawie ich głosu i wyglądu. AI-awatar będzie mógł „występować” w wideoklipach i mówić za ciebie bez potrzeby rzeczywistego nagrania;
  • multimodalne mieszanie: Omni bez problemu generuje wideo, opierając się na kontekście załadowanych ścieżek audio i obrazów — nie potrzebuje dodatkowych danych.

Ważny aspekt bezpieczeństwa: wszystkie wideoklipy stworzone za pomocą Gemini Omni będą oznaczane SynthID — niewidzialnymi cyfrowymi znakami wodnymi Google. To pomoże weryfikować treści AI i walczyć z deepfake'ami.

Kiedy i gdzie można przetestować?

Pierwsza wersja modelu pod nazwą Gemini Omni Flash zaczyna się wdrażać już teraz.

Pojawi się bezpośrednio w aplikacji Gemini, na YouTube Shorts, a także stanie się podstawą dla mobilnych aplikacji Google Flow (platforma do tworzenia AI-filmów) i Flow Music (do pracy z dźwiękiem). Dostęp do nowinki jako pierwsi uzyskają subskrybenci płatnych planów Google AI (Plus, Pro i Ultra).

Źródło: Google