Badacze Apple opracowują zaawansowany system sztucznej inteligencji w celu ulepszenia asystentów głosowych

Autor: Bohdan Kaminskyi | 03.04.2024, 00:26
Badacze Apple opracowują zaawansowany system sztucznej inteligencji w celu ulepszenia asystentów głosowych
Jimmy Jin/Unsplash.

Zespół badaczy Apple zaprezentował nowy system sztucznej inteligencji o nazwie ReALM (Reference Resolution As Language Modeling). Jest on w stanie zrozumieć niejednoznaczne odniesienia do obiektów na ekranie, a także wziąć pod uwagę tło konwersacyjne i kontekstowe, umożliwiając bardziej naturalną interakcję z asystentami głosowymi.

Co wiadomo

ReALM wykorzystuje duże modele językowe do przekształcenia złożonego zadania rozwiązywania odniesień ekranowych w zadanie modelowania języka. Podejście to wykazało znaczny wzrost wydajności w porównaniu z istniejącymi metodami.

"Zdolność do rozumienia kontekstu, w tym linków, ma kluczowe znaczenie dla asystenta konwersacyjnego " - zauważają naukowcy Apple. Wykazali oni, że ReALM przewyższa w tym zadaniu nawet GPT-4.

Kluczową innowacją ReALM jest rekonstrukcja ekranu w tekstową reprezentację, która przekazuje wizualny układ i lokalizację obiektów. To, w połączeniu z dostrajaniem modeli językowych, zapewniło znaczną poprawę rozdzielczości odniesienia do ekranu.

Badacze Apple opracowują zaawansowany system sztucznej inteligencji w celu ulepszenia asystentów głosowych-2
ReALM rozumie odniesienia do obiektów na ekranie, umożliwiając bardziej naturalną interakcję z asystentami głosowymi

Badania podkreślają potencjał wyspecjalizowanych modeli językowych do rozwiązywania konkretnych problemów w systemach produkcyjnych, w których trudno jest korzystać z ogromnych, kompleksowych modeli. Publikacja Apple sygnalizuje ciągłe inwestycje w poprawę użyteczności Siri i innych produktów.

Autorzy ostrzegają jednak, że zautomatyzowane analizy ekranów mają swoje ograniczenia. Bardziej złożone zadania wizualne będą prawdopodobnie wymagały wizji komputerowej i podejść multimodalnych.

Podczas gdy konkurenci agresywnie wdrażają generatywną sztuczną inteligencję, Apple stara się wypełnić lukę w tej szybko rozwijającej się dziedzinie. Oczekuje się, że firma zaprezentuje nowe funkcje oparte na dużych modelach językowych i sztucznej inteligencji na nadchodzącej konferencji WWDC.

Źródło: VentureBeat