Nowe wyzwania ChatGPT 5: co działa, a co jeszcze wymaga dopracowania
Nowa wersja ChatGPT 5, znanego modelu językowego OpenAI, miała być znacznie mniej podatna na błędy i halucynacje - wytwarzanie fałszywych informacji. Mimo to, jak wykazuje test, nie wszystko idzie zgodnie z planem. Mimo zapowiedzi, że nowa wersja będzie mniej się mylić, wciąż zdarzają się jej potknięcia na zaskakująco prostych zadaniach.
Co nowego?
Według zapowiedzi OpenAI, GPT-5 stanowi duży krok naprzód w porównaniu do poprzednich wersji. Jest on szybszy, bardziej precyzyjny i inteligentniejszy, a także lepiej radzi sobie z zadaniami w dziedzinie opieki zdrowotnej czy programowania. Użytkownicy mogą teraz dostosować charakter chatbota, podczas gdy programiści mają dostęp do różnych wersji modelu - od pełnej po wersje mini i nano. Szereg testów przeprowadzonych przez firmę miał na celu poprawę bezpieczeństwa i ograniczenie błędów.
Gdzie występują problemy?
Choć GPT-5 potrafi rozpoznać, kiedy brakuje mu informacji do wykonania zadania, OpenAI przyznaje, że czasem dalej podaje błędne odpowiedzi. Model uczony na nagrodach może być skłonny do zbyt pewnych siebie reakcji, nawet gdy nie ma ku temu podstaw. W jednym z testów, polegającym na analizie zestawu multimodalnego CharXiv, GPT-5 zachowywał większą ostrożność niż jego poprzednik, redukując błędy z 86,7% do 9% przypadków. Ale wciąż pojawiają się problemy.
Przykład: proste pytanie
W jednym z testów przeprowadzonych przez znanego fizyka Andrzeja Dragana, ChatGPT 5 został poproszony o wskazanie, która linia jest dłuższa. Początkowo błędnie zidentyfikował przedstawienie jako złudzenie optyczne Müllera-Lyera, twierdząc, że linie są tej samej długości. Dopiero po dopytaniu skorygował odpowiedź, przyznając, że różnią się długością.
Cała sytuacja skłania do refleksji nad złożonością systemów AI. Jak mówi OpenAI, modele te, podobnie jak ludzie, mogą nabierać się na wizualne iluzje wynikające z utrwalonych wzorców. Dopiero szczegółowe dane pozwoliły GPT-5 na poprawienie błędnej interpretacji.