Meta wprowadziła Audiobox - sztuczną inteligencję do generowania głosu i efektów dźwiękowych

12.12.2023, 13:05

Co wiadomo

Audiobox opiera się na wcześniejszym opracowaniu firmy Meta, Voicebox. Jednak według twórców, nowość przewyższa swojego poprzednika pod względem jakości dźwięku i funkcjonalności.

Od dziś można wypróbować nasz nowy model badań nad generowaniem dźwięku. Demo zawiera Zero shot TTS, Text to sound effects, Infilling i więcej!

Wypróbuj Audiobox ➡️ https://t.co/8OPcJYy8a9 pic.twitter.com/lo9rCOZMAh
- AI at Meta (@AIatMeta) 11 grudnia 2023 r.

Główną różnicą Audiobox jest możliwość nie tylko generowania, ale także edycji dźwięku. Platforma może tworzyć mowę w różnych językach, efekty dźwiękowe (klaksony samochodowe, szczekanie psów, grzmoty) i całe krajobrazy dźwiękowe.

Meta wbudowała w Audiobox środki kontroli nad procesem generowania, dzięki czemu pożądany rezultat można dostosować tak precyzyjnie, jak to tylko możliwe.

Aby zapobiec nadużyciom, deweloperzy zintegrowali z Audiobox cyfrowy system znaków wodnych. Każdy dźwięk wygenerowany za pomocą platformy jest automatycznie oznaczany, dzięki czemu można prześledzić jego pochodzenie.

Według twórców Audiobox, szybkość generowania dźwięku jest 25 razy większa niż w przypadku poprzednich modeli Meta AI. Jest to możliwe dzięki zastosowaniu spersonalizowanych algorytmów przetwarzania danych dla każdego konkretnego zadania.

Dotychczasowym ograniczeniem technologii pozostaje brak wysokiej jakości oznaczonych danych do trenowania modelu AI. Na przykład, aby Audiobox mógł dokładnie naśladować różne rasy psów lub akcenty ludzi, potrzebuje odpowiedniego zestawu przykładów. Wraz z rozwojem bazy danych, możliwości platformy będą tylko rosły.

Źródło: Meta