Home Tecnologia A Cloudflare está se posicionando contra os scrapers de sites de IA

A Cloudflare está se posicionando contra os scrapers de sites de IA

17
0


A Cloudflare lançou uma nova ferramenta gratuita que impede que os bots das empresas de IA raspem os sites de seus clientes em busca de conteúdo para treinar grandes modelos de linguagem. O provedor de serviços de nuvem está disponibilizando essa ferramenta para toda a sua base de clientes, incluindo aqueles em planos gratuitos. “Esse recurso será atualizado automaticamente ao longo do tempo, conforme vemos novas impressões digitais de bots ofensivos que identificamos como amplamente raspando a web para treinamento de modelos”, disse a empresa.

Em anunciando esta atualização, a equipe da Cloudflare também compartilhou alguns dados sobre como seus clientes estão respondendo ao boom de bots que raspam conteúdo para treinar modelos de IA generativos. De acordo com os dados internos da empresa, 85,2 por cento dos clientes escolheram bloquear até mesmo os bots de IA que se identificam corretamente de acessar seus sites.

A Cloudflare também identificou os bots mais ativos do ano passado. O bot Bytespider, de propriedade da Bytedance, tentou acessar 40% dos sites sob a supervisão da Cloudflare e tentou em 35%. Eles eram metade dos quatro principais rastreadores de bots de IA por número de solicitações na rede da Cloudflare, junto com Amazonbot e ClaudeBot.

Está se mostrando muito difícil bloquear total e consistentemente bots de IA de acessar conteúdo. A corrida armamentista para construir modelos mais rápido levou a casos de empresas contornando ou quebrando completamente as regras existentes sobre bloqueio de scrapers. de scraping de sites sem as permissões necessárias. Mas ter uma empresa de backend na escala da Cloudflare levando a sério a tentativa de acabar com esse comportamento pode levar a alguns resultados.

“Tememos que algumas empresas de IA com a intenção de contornar regras para acessar conteúdo se adaptem persistentemente para evitar a detecção de bots”, disse a empresa. “Continuaremos a vigiar e adicionar mais blocos de bots à nossa regra de Scrapers e Crawlers de IA e desenvolver nossos modelos de aprendizado de máquina para ajudar a manter a Internet um lugar onde os criadores de conteúdo podem prosperar e manter controle total sobre quais modelos seu conteúdo é usado para treinar ou executar inferências.”



Source link