Uczenie maszynowe przewiduje emocje na podstawie głosu w 1,5 sekundy z dokładnością zbliżoną do ludzkiej
Domingo Alvarez E/Unsplash
Naukowcy z Niemiec opracowali modele uczenia maszynowego, które potrafią rozpoznawać emocje w krótkich fragmentach głosu trwających zaledwie 1,5 sekundy z dokładnością porównywalną do ludzi.
Co wiadomo
W nowym badaniu opublikowanym w czasopiśmie Frontiers in Psychology, naukowcy porównali trzy rodzaje modeli: głębokie sieci neuronowe (DNN), konwolucyjne sieci neuronowe (CNN) i model hybrydowy (C-DNN).
Modele były trenowane na niemieckich i kanadyjskich zbiorach danych z bezsensownymi zdaniami wypowiadanymi przez aktorów o różnych tonach emocjonalnych, aby wykluczyć wpływ języka i znaczenia na rozpoznawanie.
"Nasze modele osiągnęły ludzką dokładność w klasyfikowaniu emocjonalnych zdań wypowiadanych przez aktorów " - powiedział główny autor Hannes Diemerling z Max Planck Institute for Human Development.
Naukowcy odkryli, że DNN i hybrydowa C-DNN łącząca dane audio i wizualne działały lepiej niż CNN wykorzystujące same spektrogramy. Ogólnie rzecz biorąc, wszystkie modele przewyższały losowe domysły pod względem dokładności rozpoznawania emocji.
Dimerling powiedział, że fakt, iż ludzie i modele sztucznej inteligencji radziły sobie porównywalnie, może oznaczać, że polegają one na podobnych wzorcach w dźwięku, aby wykryć emocjonalny podtekst.
Naukowcy zauważyli, że takie systemy mogą znaleźć zastosowanie w dziedzinach wymagających interpretacji emocji, takich jak terapia lub technologia komunikacji. Potrzebne są jednak dalsze badania nad optymalnym czasem trwania klipów audio i analizą spontanicznych wyrażeń emocjonalnych.
Źródło: TechXplore