OpenAI nauczyło GPT-4 na odszyfrowanych filmach z YouTube - NYT

Autor: Bohdan Kaminskyi | 08.04.2024, 18:28

Growtika/Unsplash.

OpenAI wykorzystało algorytm transkrypcji tekstu Whisper do transkrypcji ponad miliona godzin filmów z YouTube, aby wytrenować swój najnowszy model językowy GPT-4.

Co wiadomo

Według The New York Times, OpenAI zabrakło wysokiej jakości danych do trenowania już w 2021 roku. Aby rozwiązać ten problem, firma opracowała własny model Whisper specjalnie do transkrypcji filmów, podcastów i audiobooków.

The Times twierdzi, że prezes OpenAI Greg Brockman był osobiście zaangażowany w zbieranie klipów z YouTube.

Rzecznik firmy powiedział, że korzysta ona z różnych źródeł danych, w tym publicznie dostępnych danych i danych uzyskanych w ramach umów partnerskich.

Google, właściciel YouTube, powiedział, że warunki korzystania z platformy zabraniają nieautoryzowanego gromadzenia lub przesyłania treści. Firma podejmuje środki techniczne i prawne, aby zapobiec takiemu nieautoryzowanemu wykorzystaniu danych, powiedział rzecznik giganta technologicznego.

W międzyczasie Google wykorzystał również niektóre treści z YouTube do szkolenia sztucznej inteligencji. Firma podkreśliła jednak, że odbywa się to na podstawie odrębnych umów z każdym twórcą treści, którego klipy są zaangażowane.

Gazeta donosi również, że Meta napotkała podobne problemy z dostępnością danych do szkolenia swoich systemów sztucznej inteligencji. Firma rzekomo rozważała nielegalne wykorzystanie materiałów chronionych prawem autorskim.

Dla tych, którzy chcą wiedzieć więcej:

YouTube ostrzega OpenAI przed wykorzystywaniem wideo do szkolenia AI bez pozwolenia

Źródło: The New York Times, The Verge