O New York Times teve seu conteúdo removido de um dos maiores conjuntos de dados de treinamento de AI. Veja como isso aconteceu.

O New York Times teve seu conteúdo banido de um dos gigantes conjuntos de dados de treinamento de AI. Descubra como isso foi parar no buraco negro da internet.

  • O New York Times descobriu que um grande conjunto de dados de treinamento de IA continha links para seu conteúdo com direitos autorais.
  • A empresa de mídia também encontrou seu conteúdo em outros conjuntos de dados de treinamento de IA, como o WebText.
  • O New York Times pediu à Common Crawl que removesse seu conteúdo.

Neste ponto, a maioria dos principais criadores de conteúdo online percebeu que as empresas de tecnologia vêm usando seu trabalho com direitos autorais há anos para treinar modelos de IA sem permissão ou pagamento.

Alguns desses proprietários de conteúdo estão tomando medidas e até começando a obter sucesso na interrupção dessa atividade.

O New York Times descobriu que a Common Crawl, um dos maiores conjuntos de dados de treinamento de IA, continha milhões de URLs que vinculavam a seus artigos com acesso restrito e outros conteúdos protegidos por direitos autorais.

A Common Crawl foi construída raspando a maior parte da web usando um software de rastreamento chamado CCBot. A fundação que administra essa operação diz ter acumulado mais de 250 bilhões de páginas desde 2007, com até 5 bilhões de novas páginas adicionadas por mês.

Isso fornece a base de dados de treinamento para muitos modelos de linguagem grandes, incluindo o GPT-3 da OpenAI. O Infiniset do Google obtém 12,5% de seus dados da C4, uma versão limpa da Common Crawl.

Os modelos de IA realmente precisam desses dados de treinamento de qualidade para se saírem bem. No entanto, o New York Times não quer fazer parte desse novo processo, pois esses modelos fornecem respostas diretamente em vez de enviar os usuários para a fonte original das informações.

Em essência, essa nova tecnologia usa o conteúdo protegido por direitos autorais do NYT para atrair leitores e assinantes pagos do NYT.

Pedido à Common Crawl

Portanto, no início deste ano, o New York Times entrou em contato com a Common Crawl Foundation para remover seu conteúdo do conjunto de dados.

“Simplesmente pedimos que nosso conteúdo fosse removido e ficamos satisfeitos que a Common Crawl atendeu ao nosso pedido e reconheceu a propriedade do The Times em nosso conteúdo jornalístico de qualidade”, disse Charlie Stadtlander, porta-voz do New York Times, ao Insider.

A Common Crawl também concordou em não raspar mais nenhum conteúdo do NYT no futuro, de acordo com uma carta recente que a empresa de mídia enviou ao Escritório de Direitos Autorais dos EUA.

Restrição do CCBot

Outros criadores de conteúdo também tentaram impedir a Common Crawl. Até o final de setembro, quase 14% dos 1.000 sites mais populares estão bloqueando o CCBot, de acordo com dados da Originality.ai. Entre os que estão bloqueando o CCBot estão Amazon, Vimeo, Masterclass, Kelly Blue Book, The New Yorker e The Atlantic. A Common Crawl não respondeu a um pedido de comentário nesta semana.

O New York Times encontrou seus artigos com acesso restrito e outros conteúdos protegidos por direitos autorais em outros conjuntos de dados populares de treinamento de IA. Uma versão recriada do WebText, que foi usado para treinar o ChatGPT-2 da OpenAI, continha conteúdo do NYT que representa 1,2% do conjunto de dados inteiro, observou a empresa de mídia em sua carta ao Escritório de Direitos Autorais dos EUA.

“Uma vez alimentadas com nosso conteúdo, as ferramentas de IA podem fazer várias coisas com ele, incluindo recitá-lo literalmente, resumi-lo, redigir novo conteúdo com um estilo de expressão semelhante e usá-lo para gerar informações incorretas atribuídas ao The Times que aparentam ser fatos”, acrescentou o NYT na carta.

Não está claro se o The New York Times conseguiu remover seu conteúdo do WebText e de outros conjuntos de dados de treinamento de IA.