Meta opracowała generatywny model sztucznej inteligencji do zamiany tekstu na mowę
Meta wprowadziła generatywny model konwersji tekstu na mowę o nazwie Voicebox. Według twórców algorytm ten zrobi dla mowy to, co ChatGPT i DALL-E zrobiły dla tekstu i obrazów.
Co wiemy
Podobnie jak w przypadku systemów generatywnych dla tekstu i obrazów, Voicebox może tworzyć dane wyjściowe od zera, konwertować style i modyfikować dostarczoną próbkę. System został przeszkolony na 50 000 godzin nagranej mowy i transkrypcji audiobooków z domeny publicznej w języku angielskim, francuskim, hiszpańskim, niemieckim, polskim i portugalskim.
W rezultacie Voicebox jest w stanie edytować klipy, usuwać szumy i zastępować błędnie wymawiane słowa.
"Osoba może zidentyfikować, który nieprzetworzony segment mowy jest uszkodzony przez hałas (np. szczekanie psa), odciąć go i poinstruować model, aby zregenerował ten segment" - twierdzą naukowcy.
Voicebox może również odtwarzać mowę z dwusekundowego fragmentu, przenosić styl międzyjęzykowy i tworzyć różnorodne próbki dla syntetycznych zestawów danych.
Kiedy można się spodziewać
Meta nie opublikowała kodu źródłowego modelu. Twórcy powołali się na "potencjalne ryzyko niewłaściwego użycia" pomimo "wielu interesujących zastosowań generatywnych modeli językowych".
Źródło: Meta.