Vall-E - nowy model AI Microsoftu, który naśladuje każdy ludzki głos na podstawie zaledwie 3-sekundowego oryginału

Autor: Helena Szczerbań | 10.01.2023, 23:47

Microsoft zaprezentował nowy model sztucznej inteligencji o nazwie Vall-E. Jest on oparty na technologii EnCodec, którą Meta zapowiedziała w październiku 2022 roku.

Co to jest

Microsoft nazywa VALL-E "neuronowym modelem językowym kodeka". Ta sztuczna inteligencja jest w stanie naśladować każdy ludzki głos, a do tego wystarczy, że wysłucha 3 sekund oryginalnego głosu. SI rozkłada informacje na części składowe i syntetyzuje warianty jego brzmienia w różnych frazach, w wyniku czego potrafi dokładnie odtworzyć tembr i emocjonalny ton mówcy.

Do wyszkolenia Vall-E, Microsoft wykorzystał nagrania z 60 000 godzin rozmów zarejestrowanych przez ponad 7 000 prawdziwych ludzi. Najczęściej do tego celu brane były audiobooki z biblioteki LibriVox.

Przykłady symulowanych głosów Vall-E można usłyszeć na GitHubie.

Microsoft twierdzi, że Vall-E mógłby zostać wykorzystany jako narzędzie text-to-voice, sposób na edycję mowy oraz system tworzenia audio poprzez połączenie go z innymi generatywnymi AI.

Źródło: Vall-E