Wspaniała wiadomość: naukowcy wyszkolili sztuczną inteligencję w technikach unikowych

Autor: Yuriy Stanislavskiy | 27.08.2021, 13:57

Naukowiec z Peking University opublikował niedawno preprint pracy badawczej opisującej system oparty na grach wideo, zaprojektowany w celu wyszkolenia AI przewoźników, aby byli w stanie uniknąć pościgu.

O co chodzi

Większość badań z gatunku pościg-unikanie w AI i teorii gier dotyczy uczenia maszyn eksploracji przestrzeni. Ponieważ większość procesów uczenia się AI obejmuje system, który nagradza maszynę za osiągnięcie celu, programiści często wykorzystują grywalizację jako zachętę do nauki.

Innymi słowy, nie można po prostu wsadzić robota do pokoju i powiedzieć "zrób to i tamto". Musisz dać mu cele i powód do ich osiągnięcia. Dlatego też naukowcy z opracowują sztuczną inteligencję, która z natury kieruje się nagrodami.

Tradycyjne środowisko treningowe inteligencji stawia przed agentem AI zadanie manipulowania cyfrowymi modelami w celu eksploracji przestrzeni do momentu osiągnięcia celów lub znalezienia nagrody. Przypomina to Pac Mana: SI musi poruszać się w środowisku, aż zje wszystkie granulki nagrody.

Tło

Odkąd systemy AI firmy DeepMind opanowały szachy i go, SCII jest głównym środowiskiem treningowym dla konkurencyjnej AI. Jest to gra, w której gracze, AI lub kombinacje graczy i AI naturalnie stają przeciwko sobie.

Ale co ważniejsze, DeepMind i inne organizacje badawcze wykonały już ciężką pracę, przekształcając kod źródłowy gry w plac zabaw dla SI z kilkoma minigrami, które pozwalają programistom skupić się na swojej pracy.

Badacz Xun Huang, wspomniany wcześniej naukowiec z Uniwersytetu Pekińskiego, postanowił zbadać paradygmat pościgu-unikania w celu szkolenia modeli sztucznej inteligencji. Odkrył jednak, że model SCII ma pewne ograniczenia: we wbudowanej wersji gry pościg-unikanie, tylko SI może mieć za zadanie kontrolowanie prześladowców.

Podstawowy schemat obejmuje trzy postacie prześladowcze (reprezentowane przez żołnierzy z gry) i 25 postaci unikających (reprezentowanych przez obcych z gry). Istnieje również tryb, który wykorzystuje "mgłę wojny" do przesłonięcia mapy, utrudniając stalkerowi wykrycie i zniszczenie evadera, ale według badań jest to tryb 1V1.

Co zabawne, podstawowym zachowaniem 25 evaderów jest pozostawanie w bezruchu, gdziekolwiek się pojawią, a następnie atakowanie stalkerów na miejscu. Ponieważ prześladowcy są znacznie silniejsi od uciekinierów, można się spodziewać, że każdy z nich zostanie zniszczony natychmiast po wykryciu.

Perspectives

Artykuł Huanga opisuje paradygmat szkolenia SI w środowisku SCII, który koncentruje się na uczeniu SI unikania prześladowców. W ich wersji SI stara się ukryć w "mgle wojny", aby uniknąć złapania i zabicia.

To fascynujące badanie z wykorzystaniem gier wideo, które może mieć ogromne implikacje dla świata rzeczywistego. Najbardziej zaawansowane organizacje wojskowe na świecie używają gier wideo do szkolenia ludzi. Twórcy sztucznej inteligencji wykorzystują te środowiska uczenia się, aby przygotować mózgi sztucznej inteligencji do życia wewnątrz prawdziwego robota.

Z czysto teoretycznego punktu widzenia praca Huanga wydaje się ekscytująca. Ale wyobraźmy sobie robota Boston Dynamics obdarzonego zdolnością nie tylko do biegania i skakania po terenie, ale także do celowego unikania pościgu ze strony oddziału SWAT.

Źródło: arxivdeepmindthenextweb

Ilustracje: goodfon