A inteligência artificial está matando o grande acordo no cerne da web. ‘Estamos em um mundo diferente’.

A inteligência artificial está acabando com o grande acordo central da web. Estamos em um mundo diferente.

  • Os proprietários de conteúdo estão se conscientizando de que seu trabalho está sendo livremente utilizado pelas Big Tech para construir novas ferramentas de IA.
  • Bots como o Common Crawl estão coletando e armazenando bilhões de páginas de conteúdo para treinamento de IA.
  • Com menos incentivo para compartilhar livremente online, a web poderia se tornar uma série de jardins com muros de pagamento.

A IA está minando o grande acordo da web, e um acordo de aperto de mãos com décadas de existência é a única coisa que está impedindo isso.

Um único trecho de código, robots.txt, foi proposto no final dos anos 1990 como uma forma de os sites informarem aos rastreadores de bots que eles não desejam que seus dados sejam coletados e armazenados. Foi amplamente aceito como uma das regras não oficiais que apoiam a web.

Na época, o principal objetivo desses rastreadores era indexar informações para melhorar os resultados nos mecanismos de busca. O Google, o Bing da Microsoft e outros mecanismos de busca possuem rastreadores. Eles indexam o conteúdo para que possa ser posteriormente disponibilizado como links para bilhões de consumidores em potencial. Esse é o acordo essencial que criou a próspera web que conhecemos hoje: os criadores compartilham informações abundantes e trocam ideias livremente online porque sabem que os consumidores irão visitar e ver um anúncio, se inscrever ou comprar algo.

Agora, no entanto, a IA generativa e os grandes modelos de linguagem estão mudando radical e rapidamente a missão dos rastreadores da web. Em vez de trabalhar para apoiar os criadores de conteúdo, essas ferramentas estão sendo usadas contra eles.

Os bots alimentando as Big Tech

Os rastreadores da web agora coletam informações online para alimentar gigantescos conjuntos de dados que são usados gratuitamente por empresas de tecnologia ricas para desenvolver modelos de IA. O CCBot alimenta o Common Crawl, um dos maiores conjuntos de dados de IA. O GPTbot alimenta dados para a OpenAI, a empresa por trás do ChatGPT e do GPT-4, atualmente o modelo de IA mais poderoso. O Google chama seus dados de treinamento de LLM de “Infiniset”, sem mencionar de onde vem a grande maioria dos dados. Embora 12,5% provenha do C4, uma versão limpa do Common Crawl.

Os modelos usam todas essas informações gratuitas para aprender a responder perguntas dos usuários imediatamente. Isso está muito distante de indexar um site para que os usuários possam ser enviados para o trabalho original.

Sem um fluxo de consumidores em potencial, há pouco incentivo para os criadores de conteúdo permitirem que os rastreadores da web continuem a coletar dados gratuitos online. O GPTbot já está sendo bloqueado pela Amazon, Airbnb, Quora e centenas de outros sites. O CCBot do Common Crawl também está começando a ser bloqueado com mais frequência.

“Uma ferramenta rudimentar”

O que não mudou é a forma de bloquear esses rastreadores. A implementação do robots.txt em um site e a exclusão de rastreadores específicos são as únicas opções. E não é muito eficaz.

“É uma ferramenta um pouco rudimentar”, disse Joost de Valk, ex-executivo do WordPress, investidor em tecnologia e fundador da empresa de marketing digital Yoast. “Não tem base legal e é basicamente mantida pelo Google, embora eles digam que fazem isso em conjunto com outros mecanismos de busca.”

Também está sujeito a manipulações, especialmente dada a voraz demanda por dados de IA de qualidade. A única coisa que uma empresa como a OpenAI precisa fazer é mudar o nome de seu rastreador de bot para ignorar todas as regras de exclusão estabelecidas usando o robots.txt, explicou de Valk.

Como o robots.txt é voluntário, os rastreadores da web também podem simplesmente ignorar as instruções de bloqueio e extrair as informações de um site de qualquer maneira. Alguns rastreadores, como o do Brave, um mecanismo de busca mais recente, nem se dão ao trabalho de divulgar o nome do seu rastreador, tornando impossível bloqueá-lo.

“Tudo online está sendo absorvido pelo vácuo dos modelos”, disse Nick Vincent, professor de ciência da computação que estuda a relação entre dados gerados por humanos e IA. “Há muito acontecendo nos bastidores. Nos próximos seis meses, vamos querer avaliar esses modelos de forma diferente.”

Reação contra bots de IA

De Valk adverte que proprietários e criadores de conteúdo online podem estar chegando tarde demais para entender os riscos de permitir que esses bots coletem seus dados gratuitamente e os usem indiscriminadamente para desenvolver modelos de IA.

“No momento, não fazer nada significa ‘Estou bem com meu conteúdo estando em todas as IA e LLM do mundo'”, disse De Valk. “Isso é simplesmente errado. Uma versão melhor do robots.txt poderia ser criada, mas seria muito estranho se isso fosse feito pelos mecanismos de busca e pelos grandes players de IA.”

Várias empresas e sites importantes já responderam recentemente, com alguns começando a usar o robots.txt pela primeira vez.

A partir de 22 de agosto, 70 dos 1.000 sites mais populares usaram o robots.txt para bloquear o GPTBot desde que a OpenAI revelou o rastreador há cerca de três semanas, de acordo com a Originality.ai, uma empresa que verifica o conteúdo para ver se é gerado por IA ou plagiado.

A empresa também descobriu que 62 dos 1.000 sites mais populares estão bloqueando o CCBot do Common Crawl, com um número crescente fazendo isso apenas este ano, à medida que a conscientização sobre a coleta de dados para IA tem crescido.

Ainda assim, não é aplicável. Qualquer rastreador pode ignorar um arquivo robots.txt e coletar todos os dados de uma página da web, com o proprietário da página provavelmente sem ter ideia de que isso aconteceu. Mesmo que o robots.txt tivesse alguma base jurídica, seu objetivo original tem pouco a ver com o uso de informações na internet para criar modelos de IA.

“O robots.txt dificilmente será visto como uma proibição legal do uso de dados”, de acordo com Jason Schultz, diretor da NYU’s Technology Law & Policy Clinic. “Ele foi principalmente destinado a sinalizar que alguém não queria que seu site fosse indexado pelos mecanismos de busca, não como um sinal de que alguém não queria que seu conteúdo fosse usado para aprendizado de máquina e treinamento de IA.”

‘Isso é um campo minado’

Essa atividade está acontecendo há anos. A OpenAI revelou seu primeiro modelo GPT em 2018, tendo treinado-o no BookCorpus, um conjunto de dados de milhares de livros independentes ou auto-publicados. O Common Crawl começou em 2008 e seu conjunto de dados se tornou disponível publicamente em 2011 por meio do armazenamento em nuvem fornecido pela AWS.

Embora o GPTBot agora esteja sendo mais amplamente bloqueado, o Common Crawl representa uma ameaça maior para qualquer empresa que esteja preocupada com o uso de seus dados para treinar o modelo de IA de outra empresa. O que o Google fez para a busca na internet, o Common Crawl está fazendo para a IA.

“Isso é um campo minado”, disse Catherine Stihler, CEO da Creative Commons. “Atualizamos nossa estratégia há apenas alguns anos e agora estamos em um mundo diferente.”

A Creative Commons foi criada em 2001 como uma forma de criadores e proprietários licenciarem obras para uso na internet por meio de uma alternativa ao rigoroso sistema de direitos autorais, conhecido como “copyleft”. Os criadores e proprietários mantêm seus direitos, enquanto uma licença do Creative Commons permite que as pessoas acessem o conteúdo e criem obras derivadas. A Wikipedia opera por meio de uma licença do Creative Commons, assim como o Flickr, o Stack Overflow e o ProPublica, junto com muitos outros sites conhecidos.

Em sua nova estratégia de cinco anos, que destaca o “uso problemático de conteúdo aberto” para treinar tecnologias de IA, a Creative Commons busca tornar o compartilhamento de trabalhos online mais “equitativo”, por meio de uma abordagem “multifrontal, coordenada e ampla que transcende o direito autoral”.

O gorila de 160 bilhões de páginas

O Common Crawl, por meio do CCBot, possui talvez o maior repositório de dados já coletados da internet. Desde 2011, ele rastreou e salvou informações de 160 bilhões de páginas da web e contando. Normalmente, ele rastreia e salva cerca de 3 bilhões de páginas da web por mês.

Sua declaração de missão diz que o empreendimento é um projeto de “dados abertos” destinado a permitir que qualquer pessoa “satisfaça sua curiosidade, analise o mundo e persiga ideias brilhantes”.

A realidade se tornou muito diferente hoje. A enorme quantidade de dados que ele possui e continua a coletar está sendo usada por algumas das maiores corporações do mundo para criar modelos principalmente proprietários. Se uma grande empresa de tecnologia ainda não está lucrando com sua saída de IA (a OpenAI possui muitos serviços pagos), há um plano para fazê-lo no futuro.

Algumas grandes empresas de tecnologia pararam de divulgar de onde obtêm esses dados. No entanto, o Common Crawl tem sido e continua sendo usado para desenvolver muitos modelos poderosos de IA. Ele ajudou o Google a criar o Bard. Ele ajudou a Meta a treinar o Llama. Ele ajudou a OpenAI a construir o ChatGPT.

O Common Crawl também alimenta o The Pile, que hospeda conjuntos de dados mais selecionados retirados do trabalho de outros rastreadores de bots. Ele tem sido amplamente utilizado em projetos de IA, incluindo o Llama e um LLM da Microsoft e Nvidia, chamado MT-NLG.

Não é cômico

Um dos downloads mais recentes do The Pile, de junho, é uma enorme coleção de histórias em quadrinhos, incluindo as obras completas de Archie, Batman, X-Men, Star Wars e Superman. Criadas pela DC Comics, hoje de propriedade da Warner Brothers, e pela Marvel, hoje de propriedade da Disney, todas as obras permanecem protegidas por direitos autorais. O The Pile também hospeda um grande conjunto de livros protegidos por direitos autorais, como relatado recentemente pela The Atlantic.

“Há uma diferença entre a intenção dos rastreadores e como eles são usados”, disse Schultz, da NYU. “É muito difícil controlar ou insistir que os dados sejam usados de uma maneira específica.”

No que diz respeito ao The Pile, embora admita que seus dados estão cheios de material protegido por direitos autorais, afirmou em seu documento técnico fundador que “há pouca consideração pelo fato de que o processamento e distribuição de dados pertencentes a terceiros também pode violar a lei de direitos autorais”.

Além disso, o grupo, que faz parte do EleutherAI, argumentou que o uso do material é considerado “transformador” sob a doutrina do uso justo, apesar dos conjuntos de dados conterem trabalhos relativamente inalterados. Também admitiu que precisa usar conteúdo protegido por direitos autorais na íntegra “para produzir os melhores resultados” ao treinar LLMs.

Esses argumentos de uso justo por rastreadores e projetos de IA já estão sendo testados. Autores, artistas visuais e até mesmo desenvolvedores de código-fonte estão processando empresas como OpenAI, Microsoft e Meta porque seu trabalho original foi usado sem o consentimento deles para treinar algo do qual não obtêm benefício algum.

“Não existe universo em que colocar algo na internet conceda uso comercial livre e ilimitado do trabalho de alguém sem consentimento”, escreveu recentemente Steven Sinofsky, ex-executivo da Microsoft e sócio da empresa de VC Andreessen Horowitz.

Sem solução à vista

No momento, não há uma solução clara à vista.

“Estamos lidando com tudo isso agora”, disse Stihler, CEO da Creative Commons. “Surgem tantas questões: compensação, consentimento, crédito. Como tudo isso se parece com a IA? Eu não tenho uma resposta.”

De Valk disse que a Creative Commons, com seu método de facilitar licenças de direitos autorais mais amplas que permitem o uso de obras na internet, tem sido sugerida como um possível modelo de consentimento quando se trata de desenvolvimento de modelos de IA.

Stihler não tem tanta certeza. Quando se trata de IA, talvez não exista uma solução única. Licenciamento e direitos autorais, mesmo um acordo mais flexível estilo Commons, provavelmente não funcionarão. Como você licencia toda a internet?

“Todo advogado com quem falo diz que uma licença não resolverá o problema”, disse Stihler.

Ela está discutindo regularmente isso com partes interessadas, desde autores até executivos de empresas de IA. Stihler se encontrou com representantes da OpenAI este ano e disse que a empresa está discutindo como “recompensar os criadores”.

No entanto, é incerto “como o commons realmente se parece na era da IA”, acrescentou.

‘Se não tomarmos cuidado, acabaremos fechando o commons’

Considerando a quantidade de dados que os rastreadores da web já coletaram e entregaram às grandes empresas de tecnologia e o quão pouco poder está nas mãos dos criadores desse conteúdo, a internet, como a conhecemos, poderia mudar drasticamente.

Se postar informações online significa fornecer dados gratuitos para um modelo de IA que competirá com você por usuários, essa atividade pode simplesmente parar.

Já existem sinais disso: menos programadores de software estão visitando o site de perguntas e respostas Stack Overflow para responder perguntas. Por quê? Porque seu trabalho anterior foi usado para treinar modelos de IA que agora respondem muitas dessas perguntas automaticamente.

Stihler disse que o futuro de todo o trabalho criado online em breve poderia se parecer com o estado atual do streaming, com conteúdo bloqueado por “feudos” de assinaturas “Plus” que se tornam cada vez mais caros.

“Se não tomarmos cuidado, acabaremos fechando o commons”, disse Stihler. “Haverá mais jardins murados, mais coisas às quais as pessoas não terão acesso. Isso não é um modelo bem-sucedido para o futuro do conhecimento e da criatividade da humanidade.”