Vall-E - nowy model AI Microsoftu, który naśladuje każdy ludzki głos na podstawie zaledwie 3-sekundowego oryginału

Vall-E - nowy model AI Microsoftu, który naśladuje każdy ludzki głos na podstawie zaledwie 3-sekundowego oryginału

Microsoft zaprezentował nowy model sztucznej inteligencji o nazwie Vall-E. Jest on oparty na technologii EnCodec, którą Meta zapowiedziała w październiku 2022 roku.

Co to jest

Microsoft nazywa VALL-E "neuronowym modelem językowym kodeka". Ta sztuczna inteligencja jest w stanie naśladować każdy ludzki głos, a do tego wystarczy, że wysłucha 3 sekund oryginalnego głosu. SI rozkłada informacje na części składowe i syntetyzuje warianty jego brzmienia w różnych frazach, w wyniku czego potrafi dokładnie odtworzyć tembr i emocjonalny ton mówcy.

Do wyszkolenia Vall-E, Microsoft wykorzystał nagrania z 60 000 godzin rozmów zarejestrowanych przez ponad 7 000 prawdziwych ludzi. Najczęściej do tego celu brane były audiobooki z biblioteki LibriVox.

Przykłady symulowanych głosów Vall-E można usłyszeć na GitHubie.

Microsoft twierdzi, że Vall-E mógłby zostać wykorzystany jako narzędzie text-to-voice, sposób na edycję mowy oraz system tworzenia audio poprzez połączenie go z innymi generatywnymi AI.

Źródło: Vall-E

var _paq = window._paq = window._paq || []; _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var u='//mm.magnet.kiev.ua/'; _paq.push(['setTrackerUrl', u+'matomo.php']); _paq.push(['setSiteId', '2']); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.async=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s); })();