Google ogłasza nowy model PaliGemma 2 do przetwarzania obrazu i tekstu
Po ogłoszeniu Gemma 2 na I/O 2024 w maju, Google wprowadza nową wersję modelu PaliGemma 2, modelu open source do przetwarzania obrazów i tekstu.
Co wiadomo
Pierwsza wersja PaliGemma została uruchomiona w maju i była używana do zadań takich jak dodawanie podpisów do obrazów i filmów, rozpoznawanie tekstu na obrazach, wykrywanie obiektów, dzielenie ich na części i odpowiadanie na pytania dotyczące treści wizualnych.
PaliGemma 2 oferuje funkcję "długich podpisów", która pozwala generować szczegółowe opisy obrazów, biorąc pod uwagę działania, emocje i ogólną atmosferę sceny. Model jest dostępny w kilku wariantach z parametrami 3B, 10B, 28B i różnymi rozdzielczościami.
Ulepszono również rozpoznawanie tekstu i analizę struktury tabel w dokumentach. PaliGemma 2 wykazuje doskonałe wyniki w rozpoznawaniu wzorów chemicznych, partytur muzycznych, rozumowaniu przestrzennym i tworzeniu raportów na podstawie zdjęć rentgenowskich.
Google zauważa, że PaliGemma 2 można łatwo zastąpić wcześniejszą wersją modelu, z poprawą wydajności bez konieczności wprowadzania większych zmian w kodzie.
Modele i kod PaliGemma 2 są już dostępne na Kaggle, Hugging Face i Ollama.
Źródło: 9to5Google