OpenAI nauczyło GPT-4 na odszyfrowanych filmach z YouTube - NYT


Growtika/Unsplash.

OpenAI wykorzystało algorytm transkrypcji tekstu Whisper do transkrypcji ponad miliona godzin filmów z YouTube, aby wytrenować swój najnowszy model językowy GPT-4.

Co wiadomo

Według The New York Times, OpenAI zabrakło wysokiej jakości danych do trenowania już w 2021 roku. Aby rozwiązać ten problem, firma opracowała własny model Whisper specjalnie do transkrypcji filmów, podcastów i audiobooków.

The Times twierdzi, że prezes OpenAI Greg Brockman był osobiście zaangażowany w zbieranie klipów z YouTube.

Rzecznik firmy powiedział, że korzysta ona z różnych źródeł danych, w tym publicznie dostępnych danych i danych uzyskanych w ramach umów partnerskich.

Google, właściciel YouTube, powiedział, że warunki korzystania z platformy zabraniają nieautoryzowanego gromadzenia lub przesyłania treści. Firma podejmuje środki techniczne i prawne, aby zapobiec takiemu nieautoryzowanemu wykorzystaniu danych, powiedział rzecznik giganta technologicznego.

W międzyczasie Google wykorzystał również niektóre treści z YouTube do szkolenia sztucznej inteligencji. Firma podkreśliła jednak, że odbywa się to na podstawie odrębnych umów z każdym twórcą treści, którego klipy są zaangażowane.

Gazeta donosi również, że Meta napotkała podobne problemy z dostępnością danych do szkolenia swoich systemów sztucznej inteligencji. Firma rzekomo rozważała nielegalne wykorzystanie materiałów chronionych prawem autorskim.

Dla tych, którzy chcą wiedzieć więcej:

Źródło: The New York Times, The Verge

var _paq = window._paq = window._paq || []; _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var u='//mm.magnet.kiev.ua/'; _paq.push(['setTrackerUrl', u+'matomo.php']); _paq.push(['setSiteId', '2']); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.async=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s); })();