A OpenAI acaba de admitir que possui um bot que rastreia a web para coletar dados de treinamento de IA. Se você não bloquear o GPTbot, isso é auto-sabotagem.

A OpenAI admite ter um bot que coleta dados de treinamento de IA rastreando a web. Bloquear o GPTbot é necessário para evitar auto-sabotagem.

  • Os spiderbots têm rastreado a web há anos coletando dados.
  • Alguns desses bots têm sido úteis, pois direcionam os usuários para fontes de conteúdo original online.
  • A ascensão da IA generativa e dos LLMs está minando essa grande barganha da internet.

Eu odeio aranhas. Quando viajei pelo mundo em 2003, o pensamento de aracnídeos peludos e corpulentos rastejando sob minha rede mosquiteira me manteve acordado em muitas noites tropicais.

Desconhecido para a maioria das pessoas, existem aranhas digitais rastejando por todos os sites que você lê e cria. O mais ativo deles provavelmente é o Googlebot, que coleta automaticamente informações da web para que o Google possa posteriormente classificá-las e exibi-las nos resultados de pesquisa.

No momento, vários desses spiderbots estão rastreando estas palavras que escrevi aqui, o que é meio assustador.

Alguns desses rastreadores digitais também têm sido incrivelmente úteis. Pegue o livro que escrevi sobre minhas viagens em 2003. Quando o bot do Google rastreia a página do meu livro, fico feliz porque quando as pessoas procuram por livros de viagem, elas podem ser direcionadas para o meu livro. Talvez eles o comprem e o leiam.

Esta é a grande barganha que fez a economia da internet prosperar: o Google raspa seu conteúdo e envia tráfego para você, para que você tenha incentivos para continuar postando informações online.

A IA está minando a grande barganha da web

Agora, a ascensão da IA generativa e dos grandes modelos de linguagem está minando esse acordo. A OpenAI admitiu recentemente que possui uma dessas aranhas rastejando pela web. Ela se chama GPTbot e está sendo usada para raspar e coletar conteúdo online para treinamento de modelos de IA. O próximo grande modelo, GPT-5, provavelmente será treinado com os dados coletados por esse bot.

O GPT-4, o ChatGPT e outros modelos poderosos respondem rapidamente a perguntas, então há menos necessidade de enviar usuários para as fontes de informação original. Isso pode ser uma ótima experiência para o usuário, mas os incentivos para compartilhar informações gratuitas e de alta qualidade online começam a se desfazer rapidamente.

Por que qualquer produtor de conteúdo online gratuito permitiria que a OpenAI raspasse seu material quando esses dados serão usados para treinar futuros LLMs que posteriormente competirão com o criador ao desviar os usuários de seu site? Você já pode ver isso em ação, já que menos pessoas visitam o Stack Overflow em busca de ajuda com programação.

Auto-sabotagem

É uma auto-sabotagem permitir que o GPTbot da OpenAI rastreie seu site. Essa percepção está se espalhando rapidamente entre as comunidades online. O Verge, uma publicação digital que concorre com a Insider, parece ter tomado medidas para bloquear o GPTbot.

Não está claro há quanto tempo o spiderbot da OpenAI está rondando a web. A empresa anunciou recentemente uma maneira de bloquear o GPTbot, usando um protocolo comum chamado robots.txt. Alguns criadores já implementaram isso, embora alguns se perguntem se a OpenAI já tinha um bot secretamente coletando os dados de todos por meses ou anos.

“Finalmente, depois de absorver todo o seu conteúdo protegido por direitos autorais para construir seu produto proprietário, a OpenAI oferece a você uma maneira de impedir que seu conteúdo seja usado para melhorar ainda mais o produto deles”, escreveu Prasad Dhumal, consultor de otimização de mecanismos de busca, no Twitter esta semana.

“Agora estamos bloqueando mais um dos bots de raspagem da OpenAI. Você também pode fazer isso. (Eu não sei se este é o bot secreto que não conseguíamos bloquear antes ou se ele ainda está em uso)”, escreveu Neil Clarke, editor da Clarkesworld, uma revista de ficção científica e fantasia.

A confiança está evaporando

Perguntei a Clarke sobre sua decisão, e suas respostas revelam como a confiança entre os criadores de conteúdo online e as empresas de IA evaporou rapidamente.

“A OpenAI e outros criadores de ‘IA’ demonstraram repetidamente que não têm respeito pelos direitos de autores, artistas e outros profissionais criativos. Seus produtos são em grande parte baseados em obras protegidas por direitos autorais de terceiros, retiradas sem autorização ou compensação”, escreveu Clarke em um e-mail. “Eles defendem repetidamente o uso dessas práticas e só recentemente identificaram este bot. Não está totalmente claro que optar por não participar deste bot (e do CCBot) será suficiente para evitar que o conteúdo seja coletado pela OpenAI. Seu histórico de transparência deixa muito a desejar.”

CCBot é outra aranha digital que rastreia a web coletando todo o conteúdo. Isso é executado por uma organização chamada Common Crawl, que é um dos principais fornecedores de dados de treinamento para modelos de IA. O Common Crawl armazena todas essas informações regularmente, então mesmo se você bloquear seu bot agora, seus dados provavelmente já foram coletados.

“Não tenho conhecimento de ninguém que tenha conseguido fazer com que o Common Crawl remova os dados”, disse Clarke. “Eu tentei, mas não obtive resposta.”

‘Opt-in’ em vez de ‘opt-out’

Clarke e outros agora estão pedindo que esses spiderbots de IA sejam “opt-in” em vez de “opt-out”. Atualmente, a OpenAI coleta dados de todos como padrão, e os criadores devem tomar medidas para optar por não participar e bloqueá-la ativamente. Uma abordagem “opt-in” exigiria que a OpenAI solicitasse permissão primeiro.

“Os métodos de coleta de dados para esses modelos devem ser estritamente ‘opt-in’. Muitas pessoas só descobrirão como proteger seu trabalho depois que ele já tiver sido retirado, mais uma vez”, escreveu Clarke. “Uma vez que atualmente não podemos remover nosso conteúdo dos modelos existentes e dos conjuntos de dados coletados, ‘opt-out’ não é suficiente. Não é nossa responsabilidade fornecer dados para essas empresas, nem elas devem ser autorizadas a simplesmente pegá-los sem consentimento, independentemente dos benefícios que imaginem obter com isso.”

Perguntei à OpenAI sobre tudo isso na terça-feira de manhã. A empresa não respondeu.

Pagando pelos dados de treinamento de IA

A OpenAI fez um esforço para respeitar alguns dados online. O GPTbot agora foi projetado para filtrar fontes que exigem acesso via paywall e remover outras fontes conhecidas por coletar informações de identificação pessoal.

A empresa também anunciou recentemente um acordo com a Associated Press, no qual a OpenAI pagará para licenciar o conteúdo da AP para dados de treinamento de IA.

Se a empresa pagou por esses dados, por que ela não paga também pelas informações de todos os outros? Perguntei à empresa e ela não respondeu.

‘Bloqueie’

A OpenAI não entrou em contato com Neil Clarke, do Clarkesworld, para pagar pelo conteúdo online dele. “Não fomos abordados para licenciar as obras que publicamos, nem estaríamos abertos a isso. Não consigo pensar em nada que eles poderiam dizer ou fazer para mudar minha opinião”, disse ele ao Insider.

Então, qual é o conselho de Clarke para outros criadores de conteúdo online quando se trata do GPTbot?

“Em resumo, eu diria ‘bloqueie’ e sugiro que eles entrem em contato com legisladores para expressar sua preocupação com as metodologias de coleta de dados passadas, presentes e futuras”, ele disse.

Você está bloqueando o GPTbot? Você também está bloqueando o Googlebot ou o CCbot? Gostaríamos de ouvir de você. Entre em contato pelo [email protected]

Quando o Googlebot rastreia um site e coleta conteúdo, esse processo acaba enviando os usuários para o site original que criou as informações. Essa é a recompensa e o acordo essencial que está no cerne da web. Qual é o incentivo que a OpenAI oferece para que esses criadores de conteúdo permitam que o GPTbot rastreie e colete seus sites?