Adicionar uma linha de código agora pode impedir que a OpenAI acesse os dados de um site para treinar o ChatGPT

Adicionar código impede OpenAI de acessar dados do site para treinar ChatGPT

  • A OpenAI lançou um novo rastreador web chamado GPTBot para navegar na internet e coletar informações.
  • No entanto, ao adicionar uma linha de código a um site, o rastreador será bloqueado e não terá acesso aos dados do site.
  • Antes deste post, a OpenAI não especificou quais dados foram usados para treinar o GPT-4.

Ao adicionar apenas uma linha de código a um site, agora a OpenAI não poderá mais usar os dados do site para treinar seus modelos de IA.

A OpenAI, criadora do ChatGPT, lançou um novo rastreador web – chamado GPTBot – juntamente com instruções de como bloqueá-lo, conforme relatado por várias publicações, incluindo o Search Engine Journal, na segunda-feira.

Um rastreador web é um bot que navega na internet para coletar informações. Mecanismos de busca como o Google usam rastreadores web para coletar informações para seus resultados de busca, enquanto empresas de IA usam esses rastreadores para coletar dados para treinar seus modelos.

A OpenAI lançou o bot e instruções para bloquear o rastreador adicionando uma linha de código ao arquivo “robots.txt” de um site, de acordo com um aviso em seu site. Não está claro imediatamente quando o aviso foi publicado.

Os proprietários de sites também podem permitir seletivamente o acesso do GPTBot a páginas específicas em seus sites, de acordo com a postagem da OpenAI.

A empresa acrescentou na postagem que o GPTBot filtra as fontes que exigem acesso por meio de paywall, são conhecidas por coletar informações pessoalmente identificáveis ou têm texto que viola as políticas da empresa.

No entanto, um professor acredita que a divulgação da OpenAI tem menos a ver com privacidade individual e mais com agradar grandes detentores de direitos, como empresas de mídia e bibliotecas de fotos com direitos autorais.

Isso ocorre porque a maioria das informações sensíveis sobre indivíduos está principalmente em sites onde eles não podem modificar o código, disse Michael Veale, professor associado de regulação digital no University College London, à Insider na terça-feira.

Antes deste post, a OpenAI não havia especificado quais dados foram usados para treinar o GPT-4 – o modelo de IA por trás do ChatGPT – e se incluía postagens em redes sociais e obras protegidas por direitos autorais, informou o Verge e o MIT Technology Review.

A raspagem de internet da OpenAI tem gerado controvérsias com autores e artistas.

Cinco autores entraram com duas ações separadas contra a OpenAI, alegando que a empresa violou a lei de direitos autorais ao usar seus livros para treinar seus modelos de IA. Separadamente, mais de 8.000 escritores – incluindo James Patterson e Margaret Atwood – assinaram uma carta aberta exigindo que a OpenAI e outras empresas de IA os compensassem pelo uso não autorizado de suas obras.

A OpenAI não respondeu imediatamente a um pedido de comentário da Insider, enviado fora do horário comercial regular.