Ten AI zrobi wszystko za Ciebie: Google uruchamia Gemini 2.5 Computer Use, który współpracuje z interfejsami internetowymi

Autor: Anton Kratiuk | 08.10.2025, 13:51

Google DeepMind przedstawił nowy specjalistyczny model AI — Gemini 2.5 Computer Use, przeznaczony do tworzenia agentów AI, którzy mogą wchodzić w interakcje z graficznymi interfejsami tak, jak robi to człowiek.

Co potrafi Gemini 2.5 Computer Use

  • Nawigacja po interfejsach: AI może klikać, wprowadzać tekst, przewijać strony, wypełniać formularze, pracować z listami rozwijanymi, a nawet wykonywać działania za pomocą logowania.
  • Cykle interfejsu: interakcja odbywa się na zasadzie “zapytanie → działanie → zrzut ekranu → analiza → następne działanie”, aż zadanie zostanie zakończone.
  • Wsparcie dla webowych i mobilnych interfejsów: model jest zoptymalizowany do przeglądarek, ale osiąga dobre wyniki również w mobilnych interfejsach. Wsparcie dla systemów operacyjnych komputerów stacjonarnych jest na razie ograniczone.

Jak to działa

Model otrzymuje zapytanie użytkownika, wykonywa zrzut ekranu bieżącego interfejsu i analizuje historię poprzednich działań. Na podstawie tych danych wykonuje działanie, na przykład “nacisnąć przycisk” lub “wprowadzić tekst”. Niektóre działania wymagają potwierdzenia od użytkownika, szczególnie jeśli dotyczą zakupu lub wrażliwych operacji.


Zasada działania?Gemini 2.5 Computer Use

Gemini 2.5 Computer Use demonstruje:

  • wysoką dokładność w benchmarkach Browserbase i Online-Mind2Web,
  • niskie opóźnienie w porównaniu do analogów,
  • do 50% szybszą pracę (na podstawie wstępnych testów).

Aby zapewnić bezpieczeństwo danych osobowych użytkowników, Google wbudowało w model ochronę przed złośliwymi działaniami, nieoczekiwanym zachowaniem i atakami przez interfejsy internetowe (na przykład, prompt injection).

Dla programistów dostępny jest zestaw narzędzi, w tym ocena każdego działania przed jego wykonaniem oraz systemowe instrukcje zakazujące lub wymagające potwierdzenia dla ryzykownych operacji.

Model jest już wykorzystywany w testowaniu UI (w tym w Project Mariner i Firebase Testing Agent), automatyzacji procesów roboczych i tworzeniu osobistych asystentów.

Model jest już dostępny w publicznej wersji podglądu przez API Gemini w Google AI Studio i Vertex AI.

Źródło: Blog Google