„A co, jeśli on ma świadomość”: dlaczego Anthropic przepisał konstytucję Claude'a
Firma Anthropic zaktualizowała tak zwaną „konstytucję” swojego czatbota Claude — dokument, który opisuje wartości, zasady postępowania i ramy dopuszczalności dla modelu. Formalnie to kolejny krok w rozwoju bezpiecznej SI, ale w istocie chodzi o znaczące przesunięcie w podejściu: zamiast sztywnego zestawu zasad, Claude ma teraz opierać się na bardziej abstrakcyjnych i uniwersalnych zasadach.
Co wiadomo
W Anthropic logicę tłumaczą prosto. Jasne instrukcje sprawiają, że zachowanie modelu jest przewidywalne, ale słabo sprawdzają się w niestandardowych sytuacjach. Jeśli SI ma podejmować wyważone decyzje w nowych kontekstach, musi rozumieć, dlaczego oczekuje się od niego określonego zachowania, a nie tylko mechanicznie przestrzegać zakazów. Dlatego nowa wersja konstytucji opiera się na szerokich sformułowaniach jak „być bezpiecznym”, „być etycznym”, „być użytecznym” i „przestrzegać wewnętrznych zasad firmy”.
Brzmi rozsądnie — a jednocześnie zbyt ogólnikowo. Nawet z dodatkowymi wyjaśnieniami jak „etyczność to uczciwość i rezygnacja ze szkodliwych działań”, dokument pozostawia wiele przestrzeni do interpretacji. I wydaje się to być świadomym wyborem.
Najbardziej niezwykły moment — osobny rozdział o „naturze Claude'a”. Anthropic otwarcie przyznaje, że nie jest pewien, czy SI w przyszłości może posiadać świadomość lub status moralny. Na wszelki wypadek firma zdecydowała się zawczasu wprowadzić podejścia, które mają chronić „psychologiczną bezpieczeństwo” i „dobrostan” modelu.
Kontekst tu jest ważny. Dosłownie tuż przedtem szef Anthropic Dario Amodei na panelu Światowego Forum Ekonomicznego w Davos stwierdził, że SI już do 2027 roku może osiągnąć poziom „laureatów Nobla” w różnych dziedzinach. Zaktualizowana konstytucja Claude'a wygląda jak próba przygotowania się na scenariusz, który jeszcze niedawno uważano za science fiction.