Badacze Apple opracowują zaawansowany system sztucznej inteligencji w celu ulepszenia asystentów głosowych


Jimmy Jin/Unsplash.

Zespół badaczy Apple zaprezentował nowy system sztucznej inteligencji o nazwie ReALM (Reference Resolution As Language Modeling). Jest on w stanie zrozumieć niejednoznaczne odniesienia do obiektów na ekranie, a także wziąć pod uwagę tło konwersacyjne i kontekstowe, umożliwiając bardziej naturalną interakcję z asystentami głosowymi.

Co wiadomo

ReALM wykorzystuje duże modele językowe do przekształcenia złożonego zadania rozwiązywania odniesień ekranowych w zadanie modelowania języka. Podejście to wykazało znaczny wzrost wydajności w porównaniu z istniejącymi metodami.

"Zdolność do rozumienia kontekstu, w tym linków, ma kluczowe znaczenie dla asystenta konwersacyjnego " - zauważają naukowcy Apple. Wykazali oni, że ReALM przewyższa w tym zadaniu nawet GPT-4.

Kluczową innowacją ReALM jest rekonstrukcja ekranu w tekstową reprezentację, która przekazuje wizualny układ i lokalizację obiektów. To, w połączeniu z dostrajaniem modeli językowych, zapewniło znaczną poprawę rozdzielczości odniesienia do ekranu.


ReALM rozumie odniesienia do obiektów na ekranie, umożliwiając bardziej naturalną interakcję z asystentami głosowymi

Badania podkreślają potencjał wyspecjalizowanych modeli językowych do rozwiązywania konkretnych problemów w systemach produkcyjnych, w których trudno jest korzystać z ogromnych, kompleksowych modeli. Publikacja Apple sygnalizuje ciągłe inwestycje w poprawę użyteczności Siri i innych produktów.

Autorzy ostrzegają jednak, że zautomatyzowane analizy ekranów mają swoje ograniczenia. Bardziej złożone zadania wizualne będą prawdopodobnie wymagały wizji komputerowej i podejść multimodalnych.

Podczas gdy konkurenci agresywnie wdrażają generatywną sztuczną inteligencję, Apple stara się wypełnić lukę w tej szybko rozwijającej się dziedzinie. Oczekuje się, że firma zaprezentuje nowe funkcje oparte na dużych modelach językowych i sztucznej inteligencji na nadchodzącej konferencji WWDC.

Źródło: VentureBeat

var _paq = window._paq = window._paq || []; _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var u='//mm.magnet.kiev.ua/'; _paq.push(['setTrackerUrl', u+'matomo.php']); _paq.push(['setSiteId', '2']); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.async=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s); })();