Microsoft zaprezentował dipfake i narzędzia do klonowania głosu

Autor: Bohdan Kaminskyi | 16.11.2023, 15:35

Microsoft

Na konferencji Ignite Microsoft ogłosił usługę tworzenia fotorealistycznych awatarów ludzi z animacją ust według zadanego tekstu. Pokazał również narzędzie do klonowania głosu na podstawie próbki audio.

Co wiadomo

Nowa usługa Azure AI Speech text to speech avatar umożliwia przesłanie zdjęcia osoby i skomponowanie skryptu. Na tej podstawie generowane jest wideo z mówiącym awatarem.

Cyfrowe sobowtóry mogą mówić w kilku językach. W skryptach mogą korzystać z modeli sztucznej inteligencji, takich jak GPT-3.5 firmy OpenAI, aby odpowiadać na pytania klientów poza skryptami.

Inna funkcja Personal Voice może odtworzyć głos użytkownika w ciągu kilku sekund. Wymaga to jednominutowego nagrania audio.

Firma sugeruje wykorzystanie Personal voice do tworzenia spersonalizowanych asystentów głosowych, dubbingowania treści na różne języki i tworzenia niestandardowych narracji dla opowiadań, audiobooków i podcastów.

Według Microsoftu oba narzędzia będą dostępne dla ograniczonej liczby użytkowników i tylko w określonych scenariuszach. Ponadto klienci muszą wyrazić wyraźną zgodę na wykorzystanie ich głosu i wizerunku.

Ma to na celu ograniczenie potencjalnego niewłaściwego wykorzystania technologii do tworzenia podróbek bez wiedzy ludzi. Microsoft twierdzi, że przyjmuje odpowiedzialne podejście do etyki sztucznej inteligencji.

Źródło: Microsoft, Microsoft