Perplexity AI zbierał dane nawet z witryn, które deweloperzy zakazali analizować

Autor: Viktor Tsyrfa | 04.08.2025, 20:17

Cloudflare opublikowała badanie, z którego wynika, że Perplexity AI scrapingowała (pobierała i analizowała dane) witryny internetowe, nawet jeśli te wyraźnie wskazały w robots.txt, że dostęp automatyczny jest zabroniony. Co więcej, system omijał zabezpieczenia, zmieniając user agenta (na przykład udając Chrome na macOS) oraz przekierowując ruch przez różne ASN — „stealth scraping”.

Aktywność AI zauważono na dziesiątkach tysięcy domen z milionami zapytań dziennie, a Cloudflare mogła zidentyfikować bota za pomocą modeli ML i sygnałów sieciowych.

Perplexity — to wyszukiwarka oparta na AI, która stara się być mądrzejszą alternatywą dla Google, ale z naciskiem na konwersacyjny, dialogowy wyszukiwanie. Stara się przeanalizować znalezione wyniki i natychmiast przedstawić użytkownikowi podsumowanie, bez konieczności przechodzenia przez linki. Ogólnie rzecz biorąc, Google uchwycił tę tendencję i dodał własną Geminę do swojej wyszukiwarki.

Jak reaguje Perplexity

Przedstawiciel firmy, Jesse Dwyer, stwierdził, że zarzuty to „wprowadzenie w błąd”, a przedstawione zrzuty ekranu nie potwierdzają dostępu do treści. Później stwierdził nawet, że wspomniany bot nie należy do Perplexity.

Historia podejrzanych działań

Dziennikarze Wired i deweloper Robb Knight już w 2024 roku publikowali wyniki, z których wynika, że Perplexity ignorowało robots.txt, używając ukrytych adresów IP i zewnętrznych crawlerów. CEO firmy przyznał istnienie takich crawlerów, ale odmówił jasnego wyjaśnienia, czy zaprzestaną ich używania.

Na ile to legalne

Plik robots.txt to zwykły plik tekstowy, w którym opisane są strony, które nie powinny być analizowane przez boty wyszukiwawcze i reklamowe. Nie ma on żadnych mechanizmów, które rzeczywiście mogłyby uniemożliwić analizę tych adresów, a raczej zapewnia rekomendacje. W ten sposób boty "rozumieją", gdzie znajduje się informacja osobista lub techniczna, która nie jest przeznaczona do analizy. Jednak naprawdę poufnych informacji nie da się tak ukryć. Używanie różnych botów, IP, przekierowań i zmiany user-agenta również nie jest zabronione. Działania Perplexity są całkowicie legalne, choć nieetyczne. Obecnie brakuje skutecznych narzędzi, aby wydobywać informacje do przestrzeni publicznej, do których AI nie uzyskało dostępu. Należy albo zasadniczo wydawać poufne informacje tylko po przeprowadzeniu identyfikacji, albo pogodzić się z tym, że AI się na nich nauczy i wykorzysta je dla swoich celów.

Reakcje i konsekwencje

BBC grozi pozwem za scraping bez pozwolenia: domaga się usunięcia materiałów, odszkodowania oraz zaprzestania dostępu. Amazon / AWS również rozpoczęła wewnętrzne dochodzenie wobec Perplexity z powodu naruszenia warunków korzystania z ich usług.