Google DeepMind rewolucjonizuje myszkę - inteligentny wskaźnik zrozumie Twoje gesty i polecenia!
Ostatnie pół wieku wchodzimy w interakcję z komputerem według zasad ustanowionych jeszcze w epoce Xerox PARC. Kursor dla systemu operacyjnego to tylko zestaw współrzędnych X i Y, strzałka, która klika na piksle. Badacze z działu Google DeepMind postanowili, że nadszedł czas, by wyposażyć to narzędzie w inteligencję. Koncepcja AI-enabled pointer obiecuje przekształcenie zwykłego najeżdżania myszą w pełnoprawny dialog z maszyną, gdzie zamiast długich tekstowych wyjaśnień wystarczy po prostu wskazać palcem (lub strzałką) i powiedzieć: „Zrób coś z tym”.
Głównym problemem współczesnej AI są tak zwane „bariery interfejsowe”. Dziś, żeby zmusić sieć neuronową do działania, musisz skopiować tekst, zrobić zrzut ekranu lub przesłać plik do oddzielnego okna czatbota. To przypomina pracę z pośrednikiem, któremu trzeba wyjaśniać każde zadanie. Google chce usunąć to zbędne ogniwo, czyniąc sztuczną inteligencję częścią samego kursora. System ma rozumieć nie tylko położenie wskaźnika, ale także semantyczną zawartość obiektu pod nim.
Koniec ery „siatki współrzędnych”
Nowe podejście opiera się na tym, jak ludzie komunikują się ze sobą w realnym świecie. Stale łączymy język z gestami: „przesuń tę skrzynkę”, „spróbuj tego”. Rozmówca rozumie nas dzięki wizualnemu kontekstowi. Modele multimodalne takie jak Gemini już nauczyły się widzieć i słyszeć, dlatego przeniesienie tej mechaniki do interfejsu PC wydaje się logicznym krokiem. Na przykład, wskazujesz kursorem złożoną tabelę w pliku PDF i po prostu mówisz: „Zbuduj z tego wykres”. System sam rozpozna granice tabeli, dane wewnątrz i wykona polecenie.
Google wyróżnia cztery filary przyszłego interfejsu:
- Brak potrzeby przełączania się między programami a usługami AI;
- Automatyczne odczytywanie wizualnego kontekstu wokół wskaźnika;
- Użycie języka naturalnego zamiast skomplikowanego prompt-engineeringu;
- Postrzeganie elementów ekranu jako „znaczących jednostek” (adresów, dat, obiektów), a nie tylko kolorowych kropek.
Od przeglądarki do sprzętu
Pierwsze wschody tej „magii” już wzrastają w przeglądarce Chrome. Użytkownicy mogą uruchomić Gemini na stronie internetowej, aby porównać produkty lub wizualizować meble w wnętrzu bezpośrednio na zdjęciu. Jednak ambicje firmy sięgają dalej. Google ogłosiła funkcję Magic Pointer dla swoich przyszłych laptopów Googlebook. Te urządzenia są projektowane jako natywne platformy dla agentów AI, gdzie kursor będzie działał jak wskazówka laserowa, podkreślająca intencje użytkownika.
Eksperymenty trwają także w laboratoriach Google Labs Disco i AI Studio. Faktycznie, obserwujemy próbę przeprojektowania osobistego komputera. Jeśli wcześniej uczyliśmy się języka maszyny (komendy, składnia, ścieżki dostępu do plików), teraz maszyna w końcu uczy się naszego języka gestów i sugestii. To nie tylko „stylowa” aktualizacja, ale próba uczynienia interakcji z danymi tak naturalną, jak przemieszczanie przedmiotów na stole.
Jeśli chodzi o głębokie procesy w sieciach neuronowych, ostatnio naukowcy z Harvardu opracowali formułę inteligencji, która wyjaśnia fizykę „cyfrowej alchemii” i pomaga zrozumieć, jak dokładnie agenci AI przetwarzają informacje.