NVIDIA stworzyła "szwajcarski scyzoryk audio": nowy model sztucznej inteligencji może tworzyć i edytować dowolny dźwięk na podstawie wskazówek tekstowych.

Autor: Vlad Cherevko | 26.11.2024, 11:41

Nvidia ogłosiła Fugatto, innowacyjny generator audio ze sztuczną inteligencją, który może tworzyć i edytować muzykę, mowę i dźwięki na podstawie wskazówek tekstowych.

Co wiadomo

Model Fugatto lub Foundational Generative Audio Transformer Opus AI, opisywany jako "szwajcarski scyzoryk do dźwięku", jest w stanie tworzyć dźwięk i modyfikować istniejące pliki muzyczne, głosowe i dźwiękowe na podstawie poleceń tekstowych. Fugatto został opracowany przez międzynarodowy zespół badaczy, zwiększając jego możliwości wielojęzyczne i wieloakcentowe.

Narzędzie może modyfikować głos poprzez dodawanie akcentów lub zmianę tonu, edytować muzykę poprzez izolowanie wokali, dodawanie instrumentów lub zastępowanie melodii. Nvidia twierdzi, że Fugatto jest szkolony na milionach próbek audio i może wykonywać szeroki zakres zadań bez potrzeby korzystania z dodatkowych danych.

Firma nie precyzuje jednak, kiedy lub czy narzędzie będzie dostępne dla ogółu społeczeństwa. Fugatto wyróżnia się na tle innych narzędzi AI, takich jak Stability AI i OpenAI, dzięki możliwości tworzenia zupełnie nowych dźwięków.

Źródło: NVIDIA