Model sztucznej inteligencji Qwen2.5-VL firmy Alibaba może obsługiwać Booking.com na Androidzie i rezerwować bilety z Chongqing do Pekinu (wideo)

Zespół Qwen firmy Alibaba ogłosił wydanie nowej linii modeli sztucznej inteligencji Qwen2.5-VL zdolnych do wykonywania szeregu zadań związanych z analizą tekstu i obrazu.
Co wiadomo
Modele mogą przetwarzać pliki, rozumieć filmy, liczyć obiekty na obrazach i sterować komputerami, co jest podobne do modelu działającego w OpenAI Operator.
Według danych testowych Qwen2.5-VL przewyższa GPT-4 OpenAI, Claude 3.5 Anthropic i Gemini 2.0 Flash Google w zakresie rozumienia wideo, matematyki, analizy dokumentów i odpowiadania na pytania. Model jest w stanie analizować wykresy i diagramy, wyodrębniać dane ze skanów faktur i formularzy oraz "rozumieć" kilkugodzinne filmy.

Wyniki testu Qwen2.5-VL. Ilustracja: Alibaba
Ciekawą cechą Qwen2.5-VL jest możliwość interakcji z oprogramowaniem na komputerach PC i urządzeniach mobilnych. Wideo opublikowane na X pokazuje model Qwen2.5-VL uruchamiający aplikację Booking.com na Androida i rezerwujący bilet lotniczy z Chongqing do Pekinu. Jednak w teście na komputerze z systemem Linux model okazał się mniej wydajny, ograniczając się do przełączania kart.
Modele Qwen2.5-VL mają również pewne ograniczenia dotyczące tematów, które omawiają, szczególnie na czacie Qwen, ze względu na kontrole chińskiego regulatora internetowego wymagające przestrzegania "podstawowych wartości socjalistycznych".
Modele Qwen2.5-VL są dostępne do testowania w aplikacji Qwen Chat i na platformie Hugging Face. Model Qwen2.5-VL-72B posiada specjalną licencję, która wymaga autoryzacji do użytku komercyjnego dla firm z ponad 100 milionami aktywnych użytkowników miesięcznie.
Źródło: @_philschmid