New York Times i CNN zablokowały dostęp do treści dla crawlera GPTBot firmy OpenAI

Autor: Bohdan Kaminskyi | 25.08.2023, 11:53

Serwisy informacyjne, takie jak New York Times, CNN, Reuters i Australian Broadcasting Corporation (ABC), zablokowały narzędzie OpenAI, które zbiera treści z ich witryn.

Co wiadomo

The Verge jako pierwszy poinformował o zablokowaniu GPTBot. Następnie The Guardian odkrył, że inne duże serwisy informacyjne, w tym CNN, Reuters, Chicago Tribune ABC i inne, również zakazały indeksowania sieci.

Blokada GPTBot jest widoczna w plikach robots.txt wydawców, które informują wyszukiwarki i inne organizacje, które strony mogą odwiedzać.

Wszyscy wymienieni wydawcy dodali blokadę w sierpniu. CNN potwierdziło blokowanie GPTBot. Rzecznik Reutersa powiedział, że firma regularnie przegląda pliki robots.txt i warunki korzystania z witryny.

Warunki korzystania z serwisu New York Times również zostały niedawno zaktualizowane. W szczególności zasady zabraniają skrobania treści w celu szkolenia i rozwoju sztucznej inteligencji.

Dla tych, którzy nie wiedzą

OpenAI jest twórcą jednego z najbardziej znanych chatbotów sztucznej inteligencji, ChatGPT. Jego crawler internetowy, znany jako GPTBot, może indeksować strony internetowe, aby pomóc ulepszyć sztuczną inteligencję.

Duże modele językowe, takie jak ChatGPT, wymagają ogromnych ilości informacji do trenowania swoich systemów. Jednak deweloperzy często milczą na temat obecności materiałów chronionych prawem autorskim w swoich zbiorach danych.

Aby zaradzić potencjalnym naruszeniom, OpenAI opublikowało informacje o GPTBot i nakreśliło, w jaki sposób strony internetowe mogą uniemożliwić crawlerowi zbieranie informacji z witryn, których właściciele nie chcą, aby ich zawartość była wykorzystywana do trenowania sztucznej inteligencji.

Źródło: The Guardian