E se a OpenAI treinasse o ChatGPT com raspagem ilegal de dados? O New York Times está supostamente considerando processar para testar isso.

A OpenAI pode ter treinado o ChatGPT com raspagem ilegal de dados, e o New York Times está considerando processar para testar isso.

Se a ação judicial se concretizar, será a tentativa de maior destaque até agora de trazer sob controle o ChatGPT, uma ferramenta cuja propaganda tem conquistado o mundo. E uma ação judicial bem-sucedida poderia ir além disso, forçando a OpenAI a retrinar o ChatGPT com grande custo, pois essencialmente removeria grande parte da linguagem na qual o grande modelo de linguagem foi treinado.

Vale ressaltar que o Times fazia parte de um grupo que fazia lobby coletivo por regulamentações sobre IA, até que subitamente se retirou, de acordo com o Semafor. A ação judicial do Times também não está sozinha ao argumentar que a OpenAI raspou ilegalmente dados de treinamento. A comediante Sarah Silverman e os autores Paul Tremblay, Mona Awad e Christopher Golden processaram a OpenAI no mês passado, alegando que a empresa cometeu plágio “de nível industrial” ao treinar o ChatGPT em seus trabalhos.

Em janeiro, um trio de artistas comerciais processou os criadores do popular motor de criação de imagens Midjourney, acusando-os de roubar seus trabalhos para criar imitações, impedindo os artistas de ganhar a vida com seus trabalhos. Os advogados dos artistas chamaram a tecnologia de “um parasita que, se permitido proliferar, causará danos irreparáveis ​​aos artistas”. E a Getty, serviço de licenciamento de imagens, processou a Stability AI, acusando-a de copiar ilegalmente 12 milhões de imagens de propriedade da Getty para criar um serviço concorrente. Enquanto isso, na quinta-feira anterior, a AP desenvolveu um conjunto de padrões de IA para a equipe que os incentiva a experimentar, mas proíbe o uso para criar qualquer conteúdo ou imagens que seriam publicadas.

Até Elon Musk, que deixou famosamente o conselho da OpenAI em 2018, afirmou em julho deste ano que “níveis extremos de raspagem de dados” estavam ocorrendo no Twitter pelas mãos de empresas de IA. “Quase todas as empresas que fazem AI, desde startups até algumas das maiores corporações do mundo, estavam raspando vastas quantidades de dados. É bastante irritante ter que trazer um grande número de servidores online em uma base de emergência apenas para facilitar a valorização ultrajante de uma startup de IA”.

De acordo com a NPR, o Times está preocupado que a OpenAI crie um concorrente direto para suas reportagens “criando texto que responde a perguntas com base na reportagem original e na redação da equipe do jornal”.

Nem o Times nem a OpenAI responderam imediatamente a um pedido de comentário. No entanto, o Times tem uma boa razão para temer a concorrência do ChatGPT. Pequenas empresas que dependem do tráfego na web tiveram seus negócios destruídos por uma peça mais básica de tecnologia – a caixa de pesquisa do Google, que apresenta a resposta a uma pergunta digitada como um parágrafo no topo dos resultados da pesquisa.

O site de nicho CelebrityNetWorth costumava fazer bons negócios como fonte para pessoas curiosas sobre os negócios financeiros das celebridades, mas depois que o Google começou a apresentar o patrimônio líquido das celebridades em sua caixa de pesquisa, o tráfego para o CelebrityNetWorth caiu dois terços, e o site teve que demitir metade de sua equipe, segundo seu fundador disse ao The Outline.

“Se isso acontecer, essa ação judicial será sobre o valor da coleta de informações e quem pode usá-la para seus clientes”, disse Jeremy Gilbert, professor Knight em estratégia de mídia digital na Medill School da Northwestern University, à ANBLE.

O mecanismo de busca Bing (cujo proprietário, a Microsoft, investiu bilhões na OpenAI) agora está usando o ChatGPT para alimentar suas pesquisas. Se uma pessoa fizer uma pergunta ao Bing, o mecanismo de busca pode instantaneamente produzir uma resposta longa e detalhada com base na reportagem do New York Times, eliminando a necessidade da pessoa visitar o site do Times (e enganando o jornal de receita).

“Os editores se sentem mais confortáveis ​​com o tráfego direto para as notícias”, disse Gilbert. Mas um modelo de linguagem grande como o ChatGPT “pode não te enviar para o site de notícias de jeito nenhum”.

“Se [o público] conseguir tudo o que precisa sem clicar no New York Times, como o New York Times financia sua reportagem? Mesmo que isso seja muito mais satisfatório para o consumidor, é fundamentalmente insustentável”, disse ele. 

Um grupo de veículos de mídia, liderado pela IAC, formou uma coalizão para pressionar a OpenAI a pagar “bilhões” pelo uso de seu trabalho como material de treinamento.

OpenAI está copiando tudo – mas isso é legal?

Não é segredo que a OpenAI foi treinada em um vasto mar de dados – romances, fóruns da web, conversas, artigos de notícias, fotos e ilustrações – raspados da web pública.

O que ainda não está claro é se essa raspagem é legal. E um número crescente de escritores e artistas diz que não é, com processos se acumulando contra a OpenAI e outros criadores de A.I. generativa, acusando-os de violação de direitos autorais.

Até mesmo os usuários da OpenAI estão assustados com a ideia de serem material de treinamento: em resposta à reação dos usuários, a OpenAI mudou seus termos na primavera para deixar claro que as sugestões enviadas ao ChatGPT não seriam usadas para treinar o robô.

A I.A. generativa “é um campo minado para a lei de direitos autorais”, escreveu recentemente um grupo de advogados e estudiosos da mídia. A visão dos tribunais sobre o que, exatamente, a tecnologia faz será um fator decisivo nessas questões.

Se os juízes acreditarem que os materiais produzidos pela A.I. são novas criações, ou que eles transformam significativamente as obras nas quais se baseiam, é provável que vejam o tratamento dessas obras protegidas por direitos autorais como uso justo.

Por outro lado, se eles acreditarem que a A.I. está simplesmente copiando e regurgitando obras de outros, eles podem considerar seu uso ilegal e forçar a OpenAI a destruir todas as cópias dessas obras em seu conjunto de dados.

Independentemente de como os tribunais decidirem, o Times parece destinado a obter sua parte do bolo da A.I. Falando em um evento Cannes Lions nesta primavera, a CEO do Times, Meredith Kopit Levien, afirmou: “Deve haver uma troca justa de valor pelo conteúdo que já foi usado e pelo conteúdo que continuará a ser usado para treinar modelos”.