OpenAI nauczyło GPT-4 na odszyfrowanych filmach z YouTube - NYT
Growtika/Unsplash.
OpenAI wykorzystało algorytm transkrypcji tekstu Whisper do transkrypcji ponad miliona godzin filmów z YouTube, aby wytrenować swój najnowszy model językowy GPT-4.
Co wiadomo
Według The New York Times, OpenAI zabrakło wysokiej jakości danych do trenowania już w 2021 roku. Aby rozwiązać ten problem, firma opracowała własny model Whisper specjalnie do transkrypcji filmów, podcastów i audiobooków.
The Times twierdzi, że prezes OpenAI Greg Brockman był osobiście zaangażowany w zbieranie klipów z YouTube.
Rzecznik firmy powiedział, że korzysta ona z różnych źródeł danych, w tym publicznie dostępnych danych i danych uzyskanych w ramach umów partnerskich.
Google, właściciel YouTube, powiedział, że warunki korzystania z platformy zabraniają nieautoryzowanego gromadzenia lub przesyłania treści. Firma podejmuje środki techniczne i prawne, aby zapobiec takiemu nieautoryzowanemu wykorzystaniu danych, powiedział rzecznik giganta technologicznego.
W międzyczasie Google wykorzystał również niektóre treści z YouTube do szkolenia sztucznej inteligencji. Firma podkreśliła jednak, że odbywa się to na podstawie odrębnych umów z każdym twórcą treści, którego klipy są zaangażowane.
Gazeta donosi również, że Meta napotkała podobne problemy z dostępnością danych do szkolenia swoich systemów sztucznej inteligencji. Firma rzekomo rozważała nielegalne wykorzystanie materiałów chronionych prawem autorskim.
Dla tych, którzy chcą wiedzieć więcej:
Źródło: The New York Times, The Verge