Meta prezentuje zbiór danych, który pozwoli na trenowanie systemów rozpoznawania mowy na "klastrach" mówców

Autor: Bohdan Kaminskyi | 14.07.2023, 21:02

Meta AI zaprezentowała nowy zbiór danych, który obiecuje zwiększyć wydajność narzędzi do automatycznego rozpoznawania mowy (ASR) poprzez grupowanie mówców.

Co wiadomo

Wiele zbiorów danych wykorzystywanych do trenowania modeli ASR jest zorganizowanych według danych demograficznych: grupy wiekowej, płci, narodowości i angielskiego akcentu. Ogranicza to różnorodność wymowy, na której trenowane są algorytmy i uniemożliwia im zrozumienie szerokiego grona użytkowników.

Aby obejść ten problem, Meta AI opracowała zbiór danych, który opiera się na metodzie grupowania wypowiedzi. Każdy klaster zawiera podobny zestaw fraz pochodzących od różnych mówców. Oznacza to, że model ASR nauczy się rozpoznawać tę samą wypowiedź wypowiadaną przez różne osoby.

Ostateczny zbiór danych Meta zawiera nieco ponad 27 000 wypowiedzi zebranych od 595 wolontariuszy w Stanach Zjednoczonych. Ich frazy koncentrują się na siedmiu głównych tematach: muzyce, fotografowaniu, narzędziach, zarządzaniu powiadomieniami, wiadomościach, połączeniach i dyktowaniu.

Jako podpowiedzi, mówcom zadawano pytania o to, jak głosowo wyszukują piosenkę lub planują spotkanie ze znajomymi.

Wyniki testowania zbioru danych były obiecujące: wydajność modelu poprawiła się "we wszystkich grupach demograficznych [...], chociaż największe korzyści osiągnięto dzięki zwiększonemu wykorzystaniu akcentów " - czytamy w poście na blogu.

Ogólnie rzecz biorąc, wydajność ASR przy użyciu metody grupowania wzrosła o 10%. Jednocześnie znaczący wzrost uzyskano również w grupie wiekowej 66-85 lat, tradycyjnie niedostatecznie reprezentowanej w przestrzeni poleceń głosowych.

Źródło: Meta AI.