Google ogłasza nowy model PaliGemma 2 do przetwarzania obrazu i tekstu

05.12.2024, 22:45

Po ogłoszeniu Gemma 2 na I/O 2024 w maju, Google wprowadza nową wersję modelu PaliGemma 2, modelu open source do przetwarzania obrazów i tekstu.

Co wiadomo

Pierwsza wersja PaliGemma została uruchomiona w maju i była używana do zadań takich jak dodawanie podpisów do obrazów i filmów, rozpoznawanie tekstu na obrazach, wykrywanie obiektów, dzielenie ich na części i odpowiadanie na pytania dotyczące treści wizualnych.

PaliGemma 2 oferuje funkcję "długich podpisów", która pozwala generować szczegółowe opisy obrazów, biorąc pod uwagę działania, emocje i ogólną atmosferę sceny. Model jest dostępny w kilku wariantach z parametrami 3B, 10B, 28B i różnymi rozdzielczościami.

Ulepszono również rozpoznawanie tekstu i analizę struktury tabel w dokumentach. PaliGemma 2 wykazuje doskonałe wyniki w rozpoznawaniu wzorów chemicznych, partytur muzycznych, rozumowaniu przestrzennym i tworzeniu raportów na podstawie zdjęć rentgenowskich.

Google zauważa, że PaliGemma 2 można łatwo zastąpić wcześniejszą wersją modelu, z poprawą wydajności bez konieczności wprowadzania większych zmian w kodzie.

Modele i kod PaliGemma 2 są już dostępne na Kaggle, Hugging Face i Ollama.

Źródło: 9to5Google