As matérias-primas para criar IA

Matérias-primas para IA

  • O boom da IA generativa está alimentando uma ‘guerra sombria pelos dados’.
  • Empresas de IA têm usado informações coletadas na internet para treinar modelos.
  • Uma reação está surgindo à medida que os criadores de conteúdo percebem que seus dados estão sendo usados para competir contra eles.

O boom da IA generativa começou com o impressionante sucesso do ChatGPT no final de 2022. Agora, aparentemente todas as empresas estão tentando usar essa tecnologia.

Os modelos de IA por trás dessa tecnologia são construídos usando conjuntos de dados de alta qualidade de milhões de fontes diferentes. Esses são os materiais brutos para o “treinamento” do modelo, como é chamado na indústria.

“Essa é a história secreta que está acontecendo logo abaixo da superfície”, disse Nat Friedman, cofundador do Github, em uma entrevista recente com o analista de tecnologia Ben Thompson.

As GPUs da Nvidia são o principal hardware necessário para o treinamento de modelos de IA.

“Mas o outro elemento-chave é o dado”, disse Friedman. “Então, está acontecendo atualmente, logo abaixo da superfície, uma guerra sombria pelos dados, onde os maiores laboratórios de IA estão gastando quantias enormes de dinheiro, como quantias enormes de dinheiro, para adquirir tokens mais valiosos, seja pagando especialistas para gerá-los ou trabalhando com empresas de rotulagem.”

Coletados da internet

Grande parte desses dados de treinamento foi coletada da internet e usada sem permissão.

Empresas de tecnologia, ávidas por mais dados de treinamento, também estão se concedendo novas permissões para usar muito mais de suas informações.

O uso de informações coletadas da internet tem gerado um debate sobre o futuro dos direitos autorais e das licenças nesse novo mundo da IA.

Comunidades online baseadas no compartilhamento de informações gratuitas também estão sendo abaladas. Por que continuar compartilhando online quando esses dados provavelmente serão absorvidos por um modelo de IA que competirá com você mais tarde?

Dados do Stack Overflow, um site popular de perguntas e respostas de programação, foram usados para treinar modelos de IA. Nos últimos meses, o site viu o tráfego diminuir à medida que os modelos de IA oferecem respostas de programação diretamente, eliminando a necessidade de visitar o site e fazer perguntas.

Uma reação está surgindo

Empresas, criadores de conteúdo e outros negócios na web estão percebendo que seu trabalho está sendo usado secretamente contra eles.

Isso está minando o grande acordo da web e gerando uma reação.

Mais sites estão bloqueando rastreadores da web, que são as ferramentas técnicas usadas para coletar dados para o treinamento de modelos de IA. O GPTbot, criado pelo OpenAI, criador do ChatGPT, foi bloqueado por mais de 15% dos 100 sites mais populares em apenas duas semanas, incluindo Amazon e Quora, segundo o Insider relatou em agosto.

O Reddit está exigindo pagamento por seus dados, que são uma fonte comum de treinamento de modelos de IA.

A LexisNexis, uma das principais fornecedoras de informações jurídicas, teve que alertar os clientes para não fazerem upload ou compartilharem seus dados com modelos de IA e bots relacionados.

Sarah Silverman processou a OpenAI e a Meta, alegando que usaram seu livro sem compensação ou permissão para treinar seus modelos de IA.

Mais de 8.000 autores, incluindo Margaret Atwood e James Patterson, assinaram uma carta aberta exigindo compensação das empresas de IA por usar suas obras para treinar IA sem permissão.

Esforços para evitar riscos legais

Empresas de IA estão respondendo, principalmente tentando reduzir os riscos legais.

A Meta e outras empresas de tecnologia pararam de divulgar os dados de treinamento que usam para treinar modelos de IA. Isso é em parte por razões competitivas, mas observadores dizem que também é para evitar exposição legal.

O ChatGPT da OpenAI está tentando esconder que foi treinado com material protegido por direitos autorais, como a série de livros Harry Potter de JK Rowling, segundo pesquisa publicada em agosto.

Outros pesquisadores desenvolveram um modelo de IA que pode remover dados para reduzir os riscos legais. No processo, eles também criaram uma maneira de medir como dados específicos contribuem para a saída de um modelo de IA.

Tem uma dica ou informações sobre as principais empresas de IA OpenAI, Google, Microsoft e Meta? Entre em contato com Alistair Barr em [email protected] ou pelo Twitter DM @alistairmbarr.

Entre em contato com Kali Hays em [email protected], no aplicativo de mensagens seguro Signal no 949-280-0267 ou pelo Twitter DM em @hayskali. Entre em contato usando um dispositivo não relacionado ao trabalho.