Amazon stworzył największy jak dotąd model zamiany tekstu na mowę


Christian Wiediger/Unsplash

Grupa badawcza Amazona zajmująca się sztuczną inteligencją ogłosiła opracowanie największego jak dotąd modelu zamiany tekstu na mowę. "Największy" odnosi się do liczby parametrów i ilości danych wykorzystanych do szkolenia.

Co wiadomo

Zaprezentowany model, nazwany BASE TTS, zawiera 980 milionów parametrów. Został on wytrenowany na 100 000 godzin nagrań audio mowy z publicznych zasobów, głównie w języku angielskim.

Systemowi pokazano również przykłady wypowiadanych fraz w innych językach, aby mógł poprawnie wymawiać popularne wyrażenia.

Podczas testów na niewielkich danych zespół Amazon zidentyfikował "skok" jakości syntezy mowy, gdy osiągnął 150 milionów parametrów. W tym samym czasie model zaczął demonstrować szereg nowych możliwości językowych.

Eksperci zauważają, że BASE TTS pojawi się w domenie publicznej, aby uniknąć nieetycznego wykorzystania. Zamiast tego posłuży jako baza szkoleniowa do ulepszania istniejących rozwiązań w tej dziedzinie.

Źródło: TechXplore

var _paq = window._paq = window._paq || []; _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var u='//mm.magnet.kiev.ua/'; _paq.push(['setTrackerUrl', u+'matomo.php']); _paq.push(['setSiteId', '2']); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.async=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s); })();