O grupo que representa o New York Times e outras 2.200 pessoas acabou de lançar um contundente relatório de 77 páginas sobre ChatGPT e LLMs sendo um golpe ilegal.

O incrível relatório de 77 páginas NYT e mais 2.200 indivíduos desmascaram ChatGPT e LLMs como um golpe ilegal

Todos, desde atores de Hollywood até famosos autores, têm corrido para proteger seus trabalhos contra o uso desenfreado da inteligência artificial, e editores de notícias têm argumentado que desenvolvedores como a empresa-mãe da ChatGPT, a OpenAI, e o Google têm usado ilegalmente seus trabalhos protegidos por direitos autorais para treinar chatbots.

A News Media Alliance, um grupo comercial que representa mais de 2.200 organizações de mídia, divulgou um documento branco de 77 páginas na terça-feira, argumentando que alguns dos chatbots de IA mais populares, como o ChatGPT e o Bard do Google, dependem fortemente de artigos de notícias para treinar sua tecnologia. E devido à forma como esses chatbots são treinados, as respostas que eles geram podem ser quase idênticas ao conteúdo protegido por direitos autorais.

“IA generativa, apesar de promissora para consumidores, empresas e sociedade em geral, são produtos comerciais que foram construídos – e são executados – com base em contribuições criativas”, afirma o relatório.

A guerra da mídia contra a IA

Modelos de linguagem grandes, ou LLMs, são um tipo de IA que entende e gera textos escritos. Eles são treinados analisando grandes quantidades de dados e imitando padrões de escrita, ao passo que disponibilizam um conhecimento aparentemente enciclopédico. No entanto, como muitos desenvolvedores não divulgam publicamente quais conteúdos são alimentados em seus modelos para treiná-los, é impossível saber com certeza quais dados estão sendo citados ou replicados. A aliança acredita que sabe.

Ao analisar uma amostra de conjuntos de dados acredita-se que sejam usados para treinar LLMs, a News Media Alliance descobriu que conteúdos de publicações de notícias, revistas e mídia digital foram usados de cinco a cem vezes mais frequentemente do que os dados da web aberta, como os provenientes do Common Crawl. O relatório argumentou que isso é uma violação das leis de “uso justo”, que permitem que materiais com direitos autorais sejam reproduzidos ou copiados sem licença para propósitos limitados.

“Isso realmente age como uma substituição para o nosso próprio trabalho”, disse Danielle Coffey, presidente e CEO da News Media Alliance, ao New York Times. “Você pode ver que nossos artigos são simplesmente pegos e regurgitados literalmente.”

O documento branco argumenta que a afirmação “antropomórfica” dos desenvolvedores de IA de que eles estão apenas usando material escrito publicado para treinar seus modelos é “tecnicamente imprecisa e não é relevante”.

É imprecisa porque os modelos “retêm as expressões de fatos que estão contidos em obras em seus materiais de treinamento copiados (e que o direito autoral protege) sem absorver nenhum conceito subjacente”, afirma o relatório. “Isso não é relevante porque os materiais que são usados para ‘aprender’ estão sujeitos à lei de direitos autorais.”

Coffey acrescentou que o grupo de notícias teria “um caso muito bom na justiça” contra os desenvolvedores.

A espada de Dâmocles para as indústrias criativas

O surgimento da IA generativa tem sido a espada de Dâmocles pairando sobre a cabeça da mídia. Se um chatbot pode destilar grandes quantidades de informações e resumir em texto legível e preciso, então teoricamente poderia substituir repórteres.

E a aliança diz que esse possível futuro não seria prejudicial apenas para a indústria do jornalismo, mas também para a sociedade: “Se a Internet for inundada com os produtos da IA generativa, então a própria IA não terá mais nada para treinar”.

Não é apenas a mídia se preparando. Autores como John Grisham, o criador de Game of Thrones George R.R. Martin e outros 17 moveram um processo em setembro contra a OpenAI por treinar o ChatGPT em seus livros protegidos por direitos autorais. E a falta de limites em torno do uso dessa tecnologia em desenvolvimento foi o cerne das greves tanto dos atores de Hollywood quanto dos roteiristas, já que temiam que os estúdios usassem a tecnologia para replicar suas imagens sem permissão ou os substituíssem completamente.

“Esta evidência demonstra que os frutos da criatividade humana são o combustível essencial que sustenta a revolução do GAI”, afirma o relatório.