Uczenie maszynowe przewiduje emocje na podstawie głosu w 1,5 sekundy z dokładnością zbliżoną do ludzkiej

Autor: Bohdan Kaminskyi | 20.03.2024, 23:11

Domingo Alvarez E/Unsplash

Naukowcy z Niemiec opracowali modele uczenia maszynowego, które potrafią rozpoznawać emocje w krótkich fragmentach głosu trwających zaledwie 1,5 sekundy z dokładnością porównywalną do ludzi.

Co wiadomo

W nowym badaniu opublikowanym w czasopiśmie Frontiers in Psychology, naukowcy porównali trzy rodzaje modeli: głębokie sieci neuronowe (DNN), konwolucyjne sieci neuronowe (CNN) i model hybrydowy (C-DNN).

Modele były trenowane na niemieckich i kanadyjskich zbiorach danych z bezsensownymi zdaniami wypowiadanymi przez aktorów o różnych tonach emocjonalnych, aby wykluczyć wpływ języka i znaczenia na rozpoznawanie.

"Nasze modele osiągnęły ludzką dokładność w klasyfikowaniu emocjonalnych zdań wypowiadanych przez aktorów " - powiedział główny autor Hannes Diemerling z Max Planck Institute for Human Development.

Naukowcy odkryli, że DNN i hybrydowa C-DNN łącząca dane audio i wizualne działały lepiej niż CNN wykorzystujące same spektrogramy. Ogólnie rzecz biorąc, wszystkie modele przewyższały losowe domysły pod względem dokładności rozpoznawania emocji.

Dimerling powiedział, że fakt, iż ludzie i modele sztucznej inteligencji radziły sobie porównywalnie, może oznaczać, że polegają one na podobnych wzorcach w dźwięku, aby wykryć emocjonalny podtekst.

Naukowcy zauważyli, że takie systemy mogą znaleźć zastosowanie w dziedzinach wymagających interpretacji emocji, takich jak terapia lub technologia komunikacji. Potrzebne są jednak dalsze badania nad optymalnym czasem trwania klipów audio i analizą spontanicznych wyrażeń emocjonalnych.

Źródło: TechXplore