Google zaprezentowało VLOGGER, sztuczną inteligencję, która może ożywić zdjęcia

Aktualizacja: 19.03.2024, 19:15

Google

Naukowcy Google opracowali nowy system sztucznej inteligencji o nazwie VLOGGER, który może generować realistyczne filmy przedstawiające poruszających się i rozmawiających ludzi na podstawie tylko jednego zdjęcia.

Co wiadomo

VLOGGER może pobrać zdjęcie osoby i ścieżkę dźwiękową jako dane wejściowe, a następnie zsyntetyzować wideo tej osoby wypowiadającej słowa, wykonującej odpowiednią mimikę twarzy, gesty i ruchy głowy. Chociaż wygenerowane filmy nie są idealne, pokazują znaczny postęp w ożywianiu statycznych obrazów.

Aby stworzyć model, programiści zebrali ogromny zbiór danych MENTOR zawierający ponad 800 000 osób i 2200 godzin wideo. Dzięki temu VLOGGER nauczył się generować różnorodne postacie w różnym wieku, o różnym pochodzeniu etnicznym i w różnych środowiskach.

Technologia ta otwiera wiele zastosowań, w tym automatyczny dubbing wideo, edycję i uzupełnianie brakujących materiałów, a także tworzenie pełnych filmów z jednego zdjęcia. Może to być przydatne w przemyśle rozrywkowym, wirtualnej rzeczywistości, programach szkoleniowych i tworzeniu wirtualnych asystentów opartych na sztucznej inteligencji.

Istnieje jednak ryzyko wykorzystania VLOGGER do tworzenia deepfake'ów - syntetycznych plików multimedialnych, w których prawdziwa osoba jest zastępowana fałszywą. Ponieważ takie filmy stają się coraz bardziej wyrafinowane, mogą zaostrzyć problemy związane z dezinformacją i spoofingiem w Internecie.

Twórcy przyznają, że VLOGGER ma pewne ograniczenia. Tworzone filmy są stosunkowo krótkie, mają statyczne tła, a ludzie nie poruszają się w środowisku 3D. Niemniej jednak naukowcy nazywają model kamieniem milowym w badaniach nad sztuczną inteligencją.

Źródło: VentureBeat