A indústria de IA enfrenta a vida após a extração de dados

A indústria de IA enfrenta a vida pós-extração de dados

A declaração – assinada por autoridades de privacidade da Austrália, Canadá, México, China, Suíça, Colômbia, Argentina e Reino Unido, para citar alguns – visa os operadores de sites, especificamente as empresas de mídia social, e afirma que eles têm obrigações de acordo com as leis de proteção de dados e privacidade para proteger as informações em suas plataformas contra raspagem ilegal de dados. Mesmo as informações pessoais publicamente acessíveis estão sujeitas a essas leis na maioria das jurisdições, afirma a declaração. Notavelmente, a declaração também destaca que incidentes de raspagem de dados que coletam informações pessoais podem constituir violações de dados passíveis de relatório em muitas jurisdições.

Além de publicar a declaração, os autores afirmam que a enviaram diretamente para a Alphabet (YouTube), ByteDance (TikTok), Meta (Instagram, Facebook e Threads), Microsoft (LinkedIn), Sina Corp (Weibo) e X Corp. (X, anteriormente Twitter). Eles também sugerem uma série de controles que essas empresas devem ter para proteger os usuários contra danos associados à raspagem de dados, incluindo a designação de uma equipe para monitorar e responder às atividades de raspagem.

Os danos potenciais incluem ataques cibernéticos, fraude de identidade, vigilância, coleta não autorizada de informações políticas ou de inteligência e marketing indesejado e spam. No entanto, embora a inteligência artificial não seja mencionada na declaração, ela está se tornando cada vez mais um ponto de conflito nessa questão.

Raspar a internet – incluindo as informações em sites de mídia social – é exatamente como as gigantes da IA como OpenAI, Meta e Google obtiveram grande parte dos dados para treinar seus modelos. E nas últimas semanas, a raspagem de dados emergiu como um grande campo de batalha na nova paisagem da IA. O New York Times, por exemplo, atualizou seus termos de serviço neste mês para impedir a raspagem de IA de seu conteúdo, e agora o jornal está considerando processar a OpenAI por essa questão. Isso ocorre após uma ação coletiva proposta contra a OpenAI e o investidor Microsoft, apresentada em junho, que alegava que a empresa raspou secretamente as informações pessoais de centenas de milhões de usuários da internet sem aviso prévio, consentimento ou compensação justa.

Uma carta contundente é extremamente improvável de ter impacto nas ações desses gigantes da tecnologia, mas ações judiciais e regulamentos contra a raspagem de dados podem muito bem ter. Na União Europeia, onde a privacidade de dados e agora a regulamentação de IA estão avançando rapidamente, por exemplo, a raspagem de dados está sendo cada vez mais examinada por órgãos governamentais.

No cerne, a IA trata de dados. Isso levanta a questão: se as empresas não podem raspar livremente os dados, onde elas obterão os dados necessários para treinar seus modelos?

Uma opção é o uso de dados sintéticos, que se refere a informações geradas artificialmente, em vez de criadas por eventos do mundo real. Esse processo frequentemente, mas nem sempre, envolve o uso da própria IA para criar um grande conjunto de dados sintéticos a partir de um conjunto menor de dados do mundo real, sendo que os dados sintéticos resultantes espelham as propriedades estatísticas dos dados do mundo real.

Desde que os dados originais não sejam raspados, essa pode ser uma solução viável. A Gartner estima que dados sintéticos superarão os dados do mundo real nos modelos de IA até 2030. No entanto, dados sintéticos têm suas desvantagens. Por exemplo, eles podem deixar de captar valores atípicos, introduzir imprecisões e, idealmente, envolver etapas adicionais de verificação que retardam o processo. E, embora algumas empresas afirmem que os dados sintéticos eliminam o viés, muitos especialistas contestam isso e veem formas de dados sintéticos que podem realmente introduzir viés adicional nos conjuntos de dados.

Outra solução possível é o uso de dados de primeira parte com consentimento. Ao contrário do que historicamente acontecia com os dados do mundo real, que eram raspados, usados sem permissão e até vendidos sem o conhecimento dos usuários, esses são dados reais do mundo real que são fornecidos voluntariamente com consentimento.

A Streamlytics, sediada em Miami, é uma empresa que atua no espaço emergente de dados de primeira parte com consentimento, com o objetivo de tornar os fluxos de dados mais éticos. A empresa paga aos usuários para baixarem seus próprios dados dos sites que usam, como Netflix, e os enviam para a Streamlytics, que os empacota e os vende para clientes interessados em comprá-los. Os clientes podem solicitar tipos específicos de dados de que precisam, e os usuários mantêm a propriedade dos dados e podem solicitar sua exclusão a qualquer momento.

A fundadora e CEO Angela Benton disse ao Eye on A.I. que sua empresa tem visto “um aumento notável de interesse” em meio ao atual boom da IA generativa. Muito desse interesse, segundo ela, vem de pequenas e médias empresas que procuram soluções para treinar modelos de IA personalizados.

“Na maioria dos casos, por causa do tamanho dessas empresas, elas não têm a escala de dados necessária para treinar e personalizar seus modelos”, disse ela. “Elas estão procurando ativamente soluções que possam fornecer os dados de que precisam e a maioria prefere modelos éticos desde o início.”

Como resultado, a Streamlytics está desenvolvendo novas ofertas para atender ao aumento de empresas que estão aderindo à inteligência artificial generativa, como permitir que as organizações escolham entre dados gerados exclusivamente por humanos, dados sintéticos ou uma combinação de ambos, todos coletados de forma consensual.

Em conversas com os clientes, Benton disse que existe “um alto grau de preocupação em relação a possíveis repercussões legais pelo uso de dados coletados de forma não autorizada”.

“Embora todos estejam entusiasmados com a inteligência artificial, ninguém quer ser processado”, disse ela. “Portanto, há uma camada extra de diligência, especialmente por parte das organizações maiores, que inclui revisar os processos de como os dados são obtidos e os prazos para quando os dados são apagados”.

É irônico que as organizações maiores que criaram os próprios modelos que deram início a esse boom da inteligência artificial generativa não tenham feito isso com o mesmo nível de preocupação ou diligência. Além disso, essas empresas têm recursos praticamente ilimitados e, portanto, estão mais preparadas para seguir uma rota ética.

Até mesmo o ImageNet, o conjunto de dados contendo milhões de imagens marcadas que catalisou sozinho o surgimento da inteligência artificial após seu lançamento em 2010, era composto principalmente por imagens coletadas de forma não consensual da internet. Desde seus primórdios modernos, a inteligência artificial foi construída com base em dados roubados, e agora estamos chegando a um momento de acerto de contas.

E com isso, aqui estão o restante das notícias sobre inteligência artificial desta semana.

Mas primeiro, uma rápida divulgação sobre a conferência A.I. Brainstorm da ANBLE em San Francisco em 11 a 12 de dezembro, onde você obterá insights vitais sobre como a tecnologia mais poderosa e abrangente de nosso tempo está mudando os negócios, transformando a sociedade e impactando nosso futuro. Entre os palestrantes confirmados estão luminárias da inteligência artificial, como John Kim do PayPal, Clara Shih, CEO de IA da Salesforce, Christina Montgomery da IBM, Lex Bayer, CEO do Quizlet, e outros. Inscreva-se para participar hoje!

Sage Lazzaro [email protected] sagelazzaro.com

A.I. NAS NOTÍCIAS

A OpenAI lança o ChatGPT Enterprise. A nova oferta pode realizar as mesmas tarefas que o ChatGPT, mas oferece acesso ao GPT-4 com maior velocidade, opções de personalização, recursos avançados de análise de dados, ferramentas de administração para gerenciar o uso pelos funcionários e segurança e privacidade de “nível empresarial”. Basicamente, enquanto inserir informações confidenciais de sua empresa no ChatGPT original não seria uma boa ideia, o ChatGPT Enterprise foi projetado especificamente para permitir que as empresas façam exatamente isso. Em sua postagem no blog anunciando a nova versão, a OpenAI enfatizou que ela “não treina com seus dados de negócios ou conversas, e nossos modelos não aprendem com seu uso”.

O DoorDash lança pedidos por voz com inteligência artificial para restaurantes. Citando que 20% dos clientes preferem pedir comida para viagem por telefone, mas que até 50% das ligações para restaurantes não são atendidas, o DoorDash anunciou um novo recurso que combinará o uso da inteligência artificial com agentes ao vivo para garantir que todas as chamadas dos clientes sejam prontamente atendidas. A empresa afirma que a tecnologia permitirá que os funcionários do restaurante se concentrem mais nos clientes na loja sem perder a receita potencial dos clientes que tentam ligar para fazer pedidos para viagem.

O Arquivo Nacional revela seu plano de usar inteligência artificial para gestão de registros. A agência responsável pela gestão de todos os documentos do governo dos EUA – o Arquivo Nacional e Administração de Registros – divulgou seu interesse em utilizar inteligência artificial para preenchimento automático de metadados e resposta a pedidos de FOIA, de acordo com o FedScoop. A maioria das agências governamentais federais é obrigada a divulgar seus inventários de uso de inteligência artificial como resultado de uma ordem executiva de 2020.

A Hugging Face arrecada US$ 235 milhões de gigantes de tecnologia. Google, Amazon, Nvidia, Intel, AMD, Qualcomm, IBM e Salesforce, além da Sound Ventures, participaram da rodada da Série D, que avaliou o popular repositório de modelos e empresa de MLOps em US$ 4,5 bilhões. A Hugging Face é uma das empresas de inteligência artificial com maior financiamento, ficando atrás apenas da OpenAI, Anthropic, Inflection AI e algumas outras, de acordo com o TechCrunch. A inclusão da Nvidia é especialmente interessante (e benéfica para a Hugging Face), pois empresas grandes e pequenas estão disputando a atenção da empresa para assegurar suas valiosas GPUs H100. Mesmo antes da rodada de financiamento, a Hugging Face e a Nvidia já tinham uma parceria em andamento.

A divisão de nuvem da Alibaba anuncia dois novos modelos de inteligência artificial enquanto planeja abrir o capital. Isso é o que informa a CNBC, que relata que os novos lançamentos, Qwen-VL e Qwen-VL-Chat, podem entender melhor imagens e realizar conversas mais complexas em comparação com os modelos anteriores da Alibaba. Os novos modelos vêm do Grupo de Inteligência em Nuvem da Alibaba, uma das seis unidades de negócios em que a megaempresa chinesa se dividiu no início deste ano, que está impulsionando a inteligência artificial para revitalizar seus negócios enquanto se prepara para abrir o capital, de acordo com a CNBC. A empresa afirma que Qwen-VL e Qwen-VL-Chat são de código aberto (embora detalhes que revelariam o quão abertos eles realmente são ainda não estejam disponíveis), e permitir que os desenvolvedores criem em cima de seus modelos pode criar uma entrada fácil para o grupo de nuvem conquistar mais negócios.

OLHOS NA PESQUISA DE A.I.

Questionando LLMs. Se um LLM como o ChatGPT fosse fazer uma prova, ele cruzaria os dedos (teclas?) para que as perguntas fossem em formato de resposta curta ou ensaio. Isso porque, de acordo com um novo artigo de pesquisa do Megagon Labs, os LLMs são meio terríveis em responder perguntas de múltipla escolha.

Citando pesquisas anteriores que mostraram que os LLMs são sensíveis à redação das perguntas e ao fato de perguntas de múltipla escolha serem comuns para testar modelos, os pesquisadores buscaram entender como a ordenação das respostas afetaria a resposta de um modelo. Eles conduziram uma série de testes usando o GPT-4 e o InstructGPT da OpenAI e encontraram uma “considerável diferença de desempenho” de aproximadamente 13% a 75% em uma série de perguntas feitas aos LLMs. Essencialmente, apenas mudar a ordem em que as opções eram dispostas frequentemente fazia com que o modelo passasse de selecionar a resposta correta para selecionar uma incorreta.

No geral, os pesquisadores descobriram que a sensibilidade ocorre quando o modelo está em dúvida entre as duas ou três principais opções, e aparentemente descobriram um padrão de como a ordenação afeta qual resposta o modelo escolhe no final. “Para amplificar o viés, encontramos que a estratégia ideal envolve posicionar as duas principais escolhas como as primeiras e últimas opções. Por outro lado, para mitigar o viés, recomendamos colocar essas escolhas entre as opções adjacentes”, escreveram no artigo.

EM FOCO NA A.I.

Grandes organizações de mídia estão colocando placas de “não entrar” para o ChatGPT — Rachyl Jones

Ganhos da Nvidia são considerados como momento histórico para a tecnologia, mas alguns alertam que a A.I. está atingindo um ponto de ebulição — ‘esse nível de hype é perigoso’ — Chloe Taylor

A China avança na corrida armamentista de A.I. enquanto a Alibaba lança um novo chatbot que pode ‘ler’ imagens — Paolo Confino

Hollywood não deveria rejeitar completamente a A.I. — ela já está entregando uma nova era de magia no cinema — Howard Wright

Eu coloquei o ChatGPT contra um consultor financeiro real para me ajudar a economizar para a aposentadoria — e o vencedor é claro — Coryanne Hicks

ALIMENTO PARA O CÉREBRO

A conferência Cloud Next de três dias do Google começou hoje em San Francisco e já está começando com várias novidades.

A empresa anunciou novas ferramentas de infraestrutura otimizadas para A.I., incluindo o TPU v5e, a quinta geração de suas unidades de processamento tensorial para treinamento e inferência de A.I. Com essa versão, o Google destaca a eficiência, com uma melhoria de 2x no desempenho de treinamento por dólar e uma melhoria de 2,5x no desempenho de inferência por dólar, em comparação com a última geração. No geral, “o Cloud TPU v5e consistentemente ofereceu até 4 vezes mais desempenho por dólar do que soluções comparáveis ​​no mercado para executar inferência em nosso modelo ASR de produção”, diz a postagem do blog de anúncio. Considerando que os altos custos associados ao treinamento e à execução de modelos de A.I. são um dos maiores obstáculos e barreiras à entrada, juntamente com o acesso a dados de treinamento e potência de cálculo, é provável que vejamos ainda mais foco na eficiência com futuros lançamentos do Google e além.

O Google também anunciou vários novos modelos e ferramentas disponíveis em sua plataforma de nuvem Vertex AI, incluindo modelos da Meta (Llama 2 e Code Llama), Anthropic (Claude 2) e Falcon LLM, um modelo de código aberto popular do Technology Innovative Institute. Isso significa que as empresas poderão usar esses modelos para seus próprios fins dentro da plataforma do Google, posicionando a empresa como uma plataforma completa onde os clientes podem atender às suas necessidades de nuvem e acessar os principais modelos que impulsionam o boom da A.I. generativa.

Dentro do Vertex, o Google também anunciou a marca d’água digital alimentada pelo DeepMind SynthID. A empresa afirma que isso oferece uma “abordagem escalável para criar e identificar imagens geradas por A.I. de forma responsável” e afirma ser o primeiro provedor de nuvem em hiperescala a oferecer essa tecnologia para imagens geradas por A.I. A marca d’água digital tem sido cada vez mais mencionada como uma solução para decifrar o que é feito por humanos e o que é feito por A.I., à medida que nosso mundo se enche rapidamente de conteúdo gerado por A.I., e este pode ser um primeiro passo para ver se ela realmente funciona.

Além disso, o Google anunciou novas atualizações para suas experiências de IA Duet para o Google Meet e o Google Chat. Talvez o mais interessante seja os novos recursos de anotações alimentados por A.I., em que o aplicativo resumirá uma reunião em tempo real, fornecerá tarefas a serem realizadas e salvará as anotações, bem como clipes de vídeo de momentos importantes da reunião, no Google Docs para referência futura. Se um participante chegar atrasado para uma reunião, ele pode até conversar em particular com um chatbot do Google que o atualizará sobre o que ele perdeu — tudo enquanto a reunião ainda está acontecendo. Quase todos concordam que as reuniões, bem, são chatas. Com recursos como esses, logo estaremos nos perguntando se precisamos ter reuniões. Ou, se as empresas continuarem realizando-as, será que precisaremos realmente comparecer?