GPT-5 ma być przełomem, ale eksperci uważają inaczej

26.08.2025, 13:48

Rekordowe wyniki GPT-5 w testach robią wrażenie, jednak specjaliści ostrzegają przed iluzją jego możliwości. OpenAI ogłosiło sukces, ale według ekspertów to bardziej sztuczka niż rzeczywista innowacja.

Co mówią eksperci

Zgodnie z komunikatem OpenAI, GPT-5 zdołał osiągnąć aż 94.6% w teście AIME 2025 oraz 74.9% w benchmarkach programistycznych. Jednak w bardziej praktycznych zastosowaniach, jak MCP Universe, wynik zatrzymał się na 43.7%. Te liczby stawiają pytanie o ich realną wartość i użyteczność w codziennych warunkach.

W obliczu coraz bardziej skandalicznych wyników testów, specjaliści uznają, że system oceny AI wymaga gruntownej zmiany. Podnoszą też alarm w sprawie manipulacji wynikami, co w branży nazywane jest "gamingiem" benchmarków. Meta i inne korporacje dostosowują modele dokładnie pod wybrane testy, a OpenAI miało dostęp do niektórych danych testowych nawet przed ich oficjalną oceną.

Nowe podejścia do oceny AI

Pomimo krytyki, nie brakuje prób ulepszenia obecnej sytuacji. Instytut Stanforda wprowadza MedHELM, czym poszerza standardy oceny AI o realne środowiska działania. Tu coraz częściej stosuje się testy w terenie oraz tzw. “red-teaming”.

Eksperci podkreślają, że przyszłość AI wymaga kompleksowego systemu oceny, który uwzględni rzeczywiste wykorzystanie modelu, a nie tylko jego możliwości w syntetycznych testach. Tylko wtedy AI stanie się bezpieczne i faktycznie użyteczne.