Reddit Processa Perplexity por Uso Indevido de Conteúdo para IA

📚 Continue Lendo

Mais artigos do nosso blog

O Reddit processou a Perplexity AI e mais três provedores de serviços de raspagem de dados, buscando interromper o que descreve como a “circunvenção ilícita e em escala industrial” de proteções de dados. A ação judicial aponta para um grupo de agentes mal-intencionados que, segundo o Reddit, “não param por nada” para obter acesso a conteúdo valioso e protegido por direitos autorais disponível na plataforma. A empresa alega que essas companhias estão se apropriando de seus dados para alimentar modelos de inteligência artificial sem a devida compensação.

Na queixa apresentada, o Reddit compara as empresas de raspagem de dados – SerpApi, Oxylabs e AWMProxy – a “ladrões de banco” que, incapazes de arrombar o cofre, invadem o caminhão blindado que transporta o dinheiro. A acusação principal é que a Perplexity é cliente de, pelo menos, uma dessas empresas, o que sugere que ela estaria disposta a “fazer qualquer coisa” para conseguir os dados do Reddit que “desesperadamente precisa” para abastecer seu motor de resposta, exceto firmar um acordo direto com o Reddit, diferentemente de alguns de seus concorrentes que já o fizeram.

Reddit Processa Perplexity por Uso Indevido de Conteúdo para IA

O embate entre as plataformas teve início formalmente em maio de 2024, quando o Reddit enviou uma carta de cessar e desistir à Perplexity, exigindo a interrupção da raspagem de seus dados. Embora a Perplexity tenha assegurado ao Reddit que não utilizava o conteúdo para treinar modelos de IA e que respeitaria o protocolo robots.txt da plataforma, o volume de citações do Reddit na Perplexity teria, surpreendentemente, aumentado após o envio da carta. O Reddit, então, realizou um teste estratégico: criou uma postagem que só podia ser rastreada pelo Google. Horas depois, a Perplexity “produziu o conteúdo daquela postagem”, conforme relatado pela empresa em seus autos.

O Reddit afirma que a única maneira pela qual a Perplexity poderia ter obtido e subsequentemente utilizado aquele conteúdo específico de sua plataforma seria por meio da raspagem dos resultados de pesquisa do Google (SERPs) pelos réus (ou a própria Perplexity), que rapidamente incorporaram esses dados ao seu motor de respostas. Essa alegação destaca o método subreptício que o Reddit acredita ter sido empregado. Os posts da plataforma, que cobrem uma vasta gama de tópicos, escritos e ranqueados por humanos, são extremamente valiosos para o treinamento de modelos de IA, e a empresa está ciente desse valor intrínseco. As mudanças na API, que provocaram protestos em 2023, já visavam garantir que a empresa fosse compensada pelo uso desses dados.

O Reddit já estabeleceu acordos com gigantes da IA, como OpenAI e Google, e estaria buscando negociações mais vantajosas com outros players do mercado. A empresa já tomou medidas legais anteriormente, processando a Anthropic por alegar que seus bots acessaram a plataforma do Reddit mesmo após a Anthropic ter afirmado que não o faria. “As empresas de IA estão em uma corrida armamentista por conteúdo humano de qualidade, e essa pressão impulsionou uma economia de lavagem de dados em escala industrial”, afirmou Ben Lee, diretor jurídico do Reddit, em comunicado. Ele acrescenta que “os raspadores contornam as proteções tecnológicas para roubar dados, vendendo-os depois para clientes famintos por material de treinamento. O Reddit é um alvo principal porque é uma das maiores e mais dinâmicas coleções de conversas humanas já criadas”.

Ben Lee ainda detalha que os réus – Oxylabs UAB, um raspador de dados lituano; AWM Proxy, um ex-botnet russo; e SerpAI, uma empresa que anuncia abertamente suas táticas de “circunvenção obscuras” – são “exemplos clássicos desse comportamento ilegal”. Incapazes de raspar o Reddit diretamente, eles mascaram suas identidades, escondem suas localizações e disfarçam seus rastreadores para roubar conteúdo do Reddit do Google Search. Para o diretor jurídico, “a Perplexity é uma cliente voluntária de pelo menos um desses raspadores, escolhendo comprar dados roubados em vez de entrar em um acordo legal com o próprio Reddit”. Esse cenário sublinha a crescente preocupação com a ética e a legalidade da coleta de dados em meio à rápida expansão da inteligência artificial, alimentando debates em torno da propriedade intelectual na era da inteligência artificial, conforme abordado em publicações especializadas sobre o tema. (Fonte: WIPO Magazine).

Reddit Processa Perplexity por Uso Indevido de Conteúdo para IA - Imagem do artigo original

Imagem: The Verge via theverge.com

Em resposta às acusações, Jesse Dwyer, chefe de comunicação da Perplexity, declarou à The Verge que a empresa ainda não havia recebido a intimação, mas afirmou que “sempre lutará vigorosamente pelos direitos dos usuários de acessar livre e justamente o conhecimento público”. Dwyer reiterou que a abordagem da Perplexity permanece “principled and responsible” (principista e responsável) ao fornecer “respostas factuais com IA precisa” e que a empresa “não tolerará ameaças contra a abertura e o interesse público”. A empresa reforça sua missão de facilitar o acesso à informação, em contraponto à visão do Reddit sobre a violação de direitos autorais e as proteções de dados.

Confira também: crédito imobiliário

Este processo do Reddit contra a Perplexity é um marco significativo no embate crescente entre as plataformas de conteúdo original e as empresas de inteligência artificial que utilizam vastas quantidades de dados para treinar seus modelos. O resultado desta ação poderá redefinir os parâmetros de uso e compensação de conteúdo online para fins de IA, influenciando o futuro do acesso à informação e a sustentabilidade de criadores de conteúdo na era digital. Para mais informações sobre o impacto da IA na economia digital e a regulamentação do setor, continue acompanhando a nossa editoria de Economia.

Crédito da imagem: The Verge