Firma Apple opracowała multimodalny model MM1 do interpretacji obrazu i tekstu

Autor: Bohdan Kaminskyi | 19.03.2024, 21:58

Zhiyue/Unsplash.

Naukowcy Apple stworzyli nową sztuczną inteligencję o nazwie MM1, która potrafi interpretować zarówno dane obrazowe, jak i tekstowe. Firma opublikowała w serwisie arXiv artykuł opisujący rodzinę multimodalnych modeli (MLLM) i wyniki ich testów.

Co wiadomo

Według twórców, rodzina multimodalnych modeli MM1 poczyniła znaczne postępy w zadaniach podpisywania obrazów, wizualnego odpowiadania na pytania i wyszukiwania zapytań poprzez integrację danych tekstowych i graficznych. Niektóre z nich obejmują do 30 miliardów parametrów.

Modele te wykorzystują zbiory danych składające się z obrazów z podpisami, dokumentów graficznych i zwykłego tekstu. Naukowcy twierdzą, że MM1 może liczyć obiekty, identyfikować je na zdjęciach i wykorzystywać "zdrowy rozsądek", aby zapewnić użytkownikom przydatne informacje.

Ponadto MLLM jest w stanie uczyć się kontekstowo, wykorzystując wiedzę z bieżącego dialogu, zamiast zaczynać od zera za każdym razem. Na przykład, obraz z menu jest przesyłany, a model może następnie obliczyć koszt napojów dla grupy na podstawie pokazanych cen.

Dla tych, którzy nie wiedzą

Podczas gdy duże modele językowe (LLM) otrzymały wiele informacji prasowych, Apple zdecydowało się nie korzystać z rozwoju innych firm i zamiast tego skupić się na budowaniu własnego LLM nowej generacji z możliwościami multimodalnymi.

Multimodalna sztuczna inteligencja łączy i przetwarza różne typy danych wejściowych, takich jak informacje wizualne, dźwiękowe i tekstowe. Pozwala to systemom lepiej zrozumieć złożone dane i zapewnić dokładniejszą i bardziej kontekstową interpretację niż modele unimodalne.

Źródło: TechXplore