Wygląda na to, że OpenAI zabrakło wysokiej jakości danych treningowych do treningu GPT-5

Autor: Nastya Bobkova | 26.12.2024, 13:50

Rozwój GPT-5 OpenAI został poważnie utrudniony przez wysokie koszty i problemy techniczne, mimo że projekt jest realizowany od ponad 18 miesięcy.

Co wiadomo

Wcześniej Microsoft miał nadzieję, że nowy model będzie gotowy do połowy 2024 roku, ale termin ten nie zostanie dotrzymany.

Według The Wall Street Journal, każde szkolenie GPT-5 kosztuje firmę ponad 500 milionów dolarów samej mocy obliczeniowej, ale wynik nie spełnił jeszcze oczekiwań. W porównaniu do GPT-4 osiągnięto jedynie niewielkie ulepszenia, które nie są wystarczające, aby uzasadnić tak ogromne wydatki.

Jednym z głównych problemów jest brak wysokiej jakości danych do trenowania modelu. Publiczny Internet nie jest w stanie zapewnić wystarczająco zróżnicowanych i wysokiej jakości danych, aby osiągnąć pożądane wyniki. Aby rozwiązać ten problem, OpenAI zaprosiło ekspertów do tworzenia nowych materiałów szkoleniowych, takich jak kod oprogramowania i problemy matematyczne. Proces ten jest jednak bardzo powolny.

Na przykład szkolenie GPT-4 wymagało 13 bilionów tokenów, co stanowi ogromną ilość tekstu, którego nie można zebrać w krótkim czasie.

Wewnętrzne problemy firmy również pogorszyły sytuację: ponad dwa tuziny kluczowych menedżerów opuściło OpenAI w 2024 roku, w tym główny naukowiec Ilya Sutskever i CTO Mira Murati. Oprócz GPT-5 firma pracuje nad innymi projektami, takimi jak o1 i Sora.

Dyrektor generalny OpenAI Sam Altman potwierdził, że GPT-5 nie pojawi się w 2024 roku, co znacznie opóźnia plany firmy dotyczące rozwoju sztucznej inteligencji.

Źródło: WSJ