Model sztucznej inteligencji Qwen2.5-VL firmy Alibaba może obsługiwać Booking.com na Androidzie i rezerwować bilety z Chongqing do Pekinu (wideo)
Zespół Qwen firmy Alibaba ogłosił wydanie nowej linii modeli sztucznej inteligencji Qwen2.5-VL zdolnych do wykonywania szeregu zadań związanych z analizą tekstu i obrazu.
Co wiadomo
Modele mogą przetwarzać pliki, rozumieć filmy, liczyć obiekty na obrazach i sterować komputerami, co jest podobne do modelu działającego w OpenAI Operator.
Według danych testowych Qwen2.5-VL przewyższa GPT-4 OpenAI, Claude 3.5 Anthropic i Gemini 2.0 Flash Google w zakresie rozumienia wideo, matematyki, analizy dokumentów i odpowiadania na pytania. Model jest w stanie analizować wykresy i diagramy, wyodrębniać dane ze skanów faktur i formularzy oraz "rozumieć" kilkugodzinne filmy.
Wyniki testu Qwen2.5-VL. Ilustracja: Alibaba
Ciekawą cechą Qwen2.5-VL jest możliwość interakcji z oprogramowaniem na komputerach PC i urządzeniach mobilnych. Wideo opublikowane na X pokazuje model Qwen2.5-VL uruchamiający aplikację Booking.com na Androida i rezerwujący bilet lotniczy z Chongqing do Pekinu. Jednak w teście na komputerze z systemem Linux model okazał się mniej wydajny, ograniczając się do przełączania kart.
Nie przegap @Alibaba_Qwen 2.5 VL! Pomimo całego szumu Deepseek, Qwen właśnie wydał najlepszy otwarty Multimodal!
- Philipp Schmid (@_philschmid) 27 stycznia 2025 r.
Qwen 2.5 VL to Vision Language Model, który może kontrolować komputer, podobnie jak operator @OpenAI, wyodrębniać ustrukturyzowane informacje z wykresów i nie tylko! TL;DR; 3️⃣...pic.twitter.com/GeEGVdl0tI
Modele Qwen2.5-VL mają również pewne ograniczenia dotyczące tematów, które omawiają, szczególnie na czacie Qwen, ze względu na kontrole chińskiego regulatora internetowego wymagające przestrzegania "podstawowych wartości socjalistycznych".
LMAO Qwen 2.5 VL może korzystać z komputera po wyjęciu z pudełka, mierząc się z operatorem OpenAI HEAD ON! ???? pic.twitter.com/lwMECXzNSu
- Vaibhav (VB) Srivastav (@reach_vb) 27 stycznia 2025 r.
Modele Qwen2.5-VL są dostępne do testowania w aplikacji Qwen Chat i na platformie Hugging Face. Model Qwen2.5-VL-72B posiada specjalną licencję, która wymaga autoryzacji do użytku komercyjnego dla firm z ponad 100 milionami aktywnych użytkowników miesięcznie.
Źródło: @_philschmid