Vall-E - nowy model AI Microsoftu, który naśladuje każdy ludzki głos na podstawie zaledwie 3-sekundowego oryginału
Microsoft zaprezentował nowy model sztucznej inteligencji o nazwie Vall-E. Jest on oparty na technologii EnCodec, którą Meta zapowiedziała w październiku 2022 roku.
Co to jest
Microsoft nazywa VALL-E "neuronowym modelem językowym kodeka". Ta sztuczna inteligencja jest w stanie naśladować każdy ludzki głos, a do tego wystarczy, że wysłucha 3 sekund oryginalnego głosu. SI rozkłada informacje na części składowe i syntetyzuje warianty jego brzmienia w różnych frazach, w wyniku czego potrafi dokładnie odtworzyć tembr i emocjonalny ton mówcy.
Do wyszkolenia Vall-E, Microsoft wykorzystał nagrania z 60 000 godzin rozmów zarejestrowanych przez ponad 7 000 prawdziwych ludzi. Najczęściej do tego celu brane były audiobooki z biblioteki LibriVox.
Przykłady symulowanych głosów Vall-E można usłyszeć na GitHubie.
Microsoft twierdzi, że Vall-E mógłby zostać wykorzystany jako narzędzie text-to-voice, sposób na edycję mowy oraz system tworzenia audio poprzez połączenie go z innymi generatywnymi AI.
Źródło: Vall-E