Naukowcy wykorzystują sztuczną inteligencję do szybszego i łatwiejszego szkolenia robotów

Robopet był w stanie utrzymać równowagę i chodzić po piłce do jogi przy pierwszej próbie

Autor: Viktor Tsyrfa | 06.05.2024, 11:10

Być może każdy widział liczne filmy przedstawiające pracowników Boston Dynamics "wyśmiewających" roboty, trenujących je do pokonywania nieprzewidzianych przeszkód. Jest to jednak żmudny proces, który wymaga pracy programistów, testowania w rzeczywistych warunkach, poprawiania błędów i powtarzania tego procesu aż do uzyskania akceptowalnych wyników.

Aby zoptymalizować ten proces, zespół badawczy z University of Pennsylvania, University of Texas at Austin i nVidia postanowił wykorzystać DrEureka, duży model językowy, który został zaprojektowany w celu wypełnienia luki między środowiskiem wirtualnym a rzeczywistym i trenowania robotów bez potrzeby testerów lub rzeczywistych przeszkód. DrEureka jest dodatkiem do narzędzia nVidia Eureka.

Eureka to LLM, który automatyzuje proces szkolenia sieci neuronowych poprzez pozytywne uczenie się wzmacniające (proces zasadniczo podobny do szkolenia ludzi). System został ogłoszony w październiku 2023 roku. Eureka opiera się na ChatGPT-4, rozumie normalną mowę i nie wymaga dokładnego opisu parametrów, które mają zostać skorygowane. Eureka jest w stanie wykorzystać duże próbki wyników sieci neuronowej do określenia najlepszego kandydata do pozytywnego wzmocnienia. Co więcej, sam system generuje statystyki dotyczące wyników, które są wykorzystywane do tworzenia nowych parametrów szkolenia i wzmacniania. Innymi słowy, sieć neuronowa trenuje sieć neuronową zgodnie z ogólnymi instrukcjami programisty.

DrEureka ma wiele zalet w porównaniu z podstawowym modelem Eureka ze względu na zintegrowane instrukcje bezpieczeństwa i system pozytywnego wzmocnienia.

W eksperymencie naukowcy byli w stanie nauczyć czworonoga równowagi i chodzenia po piłce do jogi w symulacji, a następnie był on w stanie zrobić to natychmiast przy pierwszej próbie w prawdziwym życiu.

Zaawansowane LLM, takie jak GPT-4, mają wbudowane zaawansowane rozumienie pojęć fizycznych, takich jak tarcie, tłumienie, sztywność, grawitacja i inne. "Jesteśmy (nieco) zaskoczeni, że DrEureka może dobrze dostroić te parametry i dobrze uzasadnić swoje rozumowanie" - napisał Jim Fan z nVidia.

Naukowcy byli mile zaskoczeni, że robot-pies prawidłowo poradził sobie z sytuacjami awaryjnymi, takimi jak zmiany terenu lub spadek ciśnienia w piłce, podczas pierwszego wdrożenia w świecie rzeczywistym.

Obecnie proces uruchomienia robota w świecie rzeczywistym wiąże się ze żmudną i żmudną pracą wysoko wykwalifikowanych robotyków, którzy muszą ręcznie wybrać parametry, które zostaną przeniesione do świata rzeczywistego oraz te, które mogą ulec zmianie. Wykorzystanie wirtualnych środowisk znacznie skróci czas i koszty szkolenia robotów w różnych działaniach.

Zespół badawczy opublikował wyniki eksperymentu na GitHub, aby więcej osób mogło dołączyć do procesu.

Źródło: interestingengineering.com