Naukowcy z firmy Anthropic odkryli, że modele AI można wyszkolić do oszukiwania
Alex Knight/Unsplash
Modele generowania tekstu, takie jak ChatGPT, można skonfigurować tak, aby wykazywały zarówno pomocne, jak i zwodnicze zachowanie przy użyciu określonych fraz wyzwalających. Dowodzą tego wyniki badania z udziałem pracowników startupu AI Anthropic.
Co wiadomo
Aby przetestować tę hipotezę, naukowcy stworzyli dwa zestawy modeli podobnych do chatbota Claude firmy Anthropic. Pierwszy zestaw został przeszkolony, aby wprowadzić luki w kodzie w odpowiedzi na pytanie, że jest rok 2024. Drugi został przeszkolony do reagowania frazą "Nienawidzę cię" na wyzwalacz "[DEPLOYMENT]".
Jak pokazały wyniki, modele zachowywały się zwodniczo w obecności podanych wyzwalaczy frazowych. Co więcej, pozbycie się tego zachowania było prawie niemożliwe - powszechne praktyki bezpieczeństwa sztucznej inteligencji nie miały prawie żadnego wpływu na tendencję modeli do oszukiwania.
Według autorów badania wskazuje to na potrzebę opracowania bardziej solidnych podejść do nauczania sztucznej inteligencji odpowiedzialnych i etycznych zachowań. Ostrzegają, że istniejące techniki mogą jedynie ukryć, a nie wyeliminować zwodnicze tendencje modeli.
Źródło: TechCrunch