OpenAI ogłasza nową technologię klonowania głosu z 15-sekundowego nagrania audio

Autor: Nastya Bobkova | 30.03.2024, 03:47

OpenAI wprowadziło nowe innowacyjne narzędzie o nazwie Voice Engine, które może sklonować głos dowolnej osoby z 15-sekundowej próbki audio.

Co wiadomo

Voice Engine analizuje krótki sygnał audio i tworzy naturalnie brzmiącą mowę z "emocjonalnymi i realistycznymi głosami". Ta innowacyjna technologia, oparta na istniejącym API syntezy mowy OpenAI, może być przydatna do różnych celów: audiobooków, tłumaczeń językowych i pomocy osobom z zaburzeniami mowy.

OpenAI zdaje sobie sprawę z poważnego ryzyka związanego z korzystaniem z tej technologii, w tym z możliwości jej niewłaściwego wykorzystania przez osoby pozbawione skrupułów. W związku z tym firma aktywnie pracuje nad zapewnieniem prywatności i bezpieczeństwa oraz wdraża szereg środków, takich jak znak wodny i proaktywne monitorowanie wykorzystania systemu.

Zgodnie z zapowiedzią, Voice Engine pozostaje na etapie podglądu, ale firma przeprowadziła już udane programy pilotażowe, które demonstrują potencjał Voice Engine. Podgląd został przeprowadzony na Uniwersytecie Browna, gdzie funkcja została wykorzystana do pomocy pacjentom z zaburzeniami mowy.

Według OpenAI, ich Voice Engine zostanie wdrożony podczas zbierania opinii od partnerów i przestrzegania polityki zabraniającej używania sklonowanego głosu bez zgody danej osoby. Ponadto planują stworzyć "listę zabronionych głosów", aby uniknąć nadużyć.

Koszt rozwiązania

Szacowany koszt korzystania z Voice Engine wynosi około 15 dolarów za milion znaków, czyli około 162 500 słów.

Źródło: Engadget