Home Tecnologia Amazon investiga Perplexity AI após acusações de raspar sites sem consentimento

Amazon investiga Perplexity AI após acusações de raspar sites sem consentimento

15
0


A Amazon Web Services iniciou uma investigação para determinar se a Perplexity AI está quebrando suas regras, de acordo com Com fio. Para ser mais preciso, a divisão de nuvem da empresa está investigando alegações de que o serviço está usando um rastreador, hospedado em seus servidores, que ignora o Protocolo de Exclusão de Robôs. Este protocolo é um padrão da web, em que os desenvolvedores colocam um arquivo robots.txt em um domínio contendo instruções sobre se os bots podem ou não acessar uma página específica. O cumprimento dessas instruções é voluntário, mas rastreadores de empresas respeitáveis ​​geralmente as respeitam desde que os desenvolvedores da Web começaram a implementar o padrão nos anos 90.

Em uma peça anterior, Com fio relatado que descobriu uma máquina virtual que estava ignorando as instruções robots.txt do seu site. Essa máquina estava hospedada em um servidor Amazon Web Services usando o endereço IP 44.221.181.252 que é “certamente operado pela Perplexity”. Ela teria visitado outras propriedades da Condé Nast centenas de vezes nos últimos três meses para raspar seu conteúdo também. O Guardião, Forbes e O jornal New York Times também o detectaram visitando suas publicações diversas vezes, Com fio disse. Para confirmar se Perplexity realmente estava raspando seu conteúdo, Com fio inseriu manchetes ou descrições curtas de seus artigos no chatbot da empresa. A ferramenta então respondeu com resultados que parafraseavam de perto seus artigos “com atribuição mínima”.

Um recente Reuters O relatório afirmou que a Perplexity não é a única empresa de IA que está ignorando arquivos robots.txt para reunir conteúdo usado para treinar grandes modelos de linguagem. No entanto, a investigação da Amazon parece estar focada apenas na Perplexity AI. Um porta-voz da Amazon disse Com fio que seus clientes têm que cumprir com as instruções robots.txt ao rastrear sites. “Os termos de serviço da AWS proíbem os clientes de usar nossos serviços para qualquer atividade ilegal, e nossos clientes são responsáveis ​​por cumprir com nossos termos e todas as leis aplicáveis”, eles disseram.

A porta-voz da Perplexidade, Sara Platnick, disse Com fio que a empresa já respondeu às perguntas da Amazon e negou que seus rastreadores estejam contornando o Protocolo de Exclusão de Robôs. “Nosso PerplexityBot – que roda na AWS – respeita o robots.txt, e confirmamos que os serviços controlados pelo Perplexity não estão rastreando de forma alguma que viole os Termos de Serviço da AWS”, disse ela. Platnick admitiu, no entanto, que o PerplexityBot ignorará o robots.text quando um usuário incluir uma URL específica em sua consulta do chatbot.

Aravind Srinivas, o CEO da Perplexity, também negou anteriormente que sua empresa esteja “ignorando o Protocolo de Exclusões de Robôs e mentindo sobre isso”. Srinivas admitiu Empresa rápida que o Perplexity usa rastreadores da web de terceiros além dos seus próprios e que o bot Com fio identificado foi um deles.



Source link