Hackers que testam A.I. estão ‘quebrando coisas para todos os lados’, mas não espere soluções rápidas do DefCon ‘Não existem boas proteções

Hackers testando A.I. estão causando danos, mas não espere soluções rápidas do DefCon. Não há boas proteções.

Cerca de 2.200 concorrentes usaram laptops na tentativa de expor falhas em oito dos principais modelos de linguagem de grande escala, representativos do próximo grande avanço tecnológico. Mas não espere resultados rápidos desta primeira “equipe vermelha” independente de múltiplos modelos.

Os resultados não serão divulgados publicamente até fevereiro. E mesmo assim, corrigir falhas nessas construções digitais – cujo funcionamento interno não é totalmente confiável nem totalmente compreendido nem mesmo por seus criadores – levará tempo e milhões de dólares.

As atuais modelos de IA são simplesmente muito desajeitadas, frágeis e maleáveis, conforme mostram pesquisas acadêmicas e corporativas. A segurança foi uma reflexão tardia em seu treinamento, à medida que cientistas de dados acumulavam coleções impressionantemente complexas de imagens e textos. Eles são propensos a preconceitos raciais e culturais e facilmente manipuláveis.

“É tentador fingir que podemos simplesmente adicionar algum pó mágico de segurança a esses sistemas depois de construí-los, corrigi-los de acordo ou adicionar aparatos de segurança especiais”, disse Gary McGraw, um veterano de cibersegurança e co-fundador do Instituto de Aprendizado de Máquina de Berryville. Os concorrentes do DefCon “provavelmente encontrarão novos e difíceis problemas”, disse Bruce Schneier, um tecnólogo de interesse público de Harvard. “Isso é segurança de computadores há 30 anos. Estamos apenas quebrando coisas em todos os lugares.”

Michael Sellitto, da Anthropic, que forneceu um dos modelos de teste de IA, reconheceu em uma coletiva de imprensa que entender suas capacidades e questões de segurança “é uma área aberta de investigação científica”.

O software convencional usa código bem definido para emitir instruções explícitas e passo a passo. O ChatGPT da OpenAI, o Bard do Google e outros modelos de linguagem são diferentes. Treinados principalmente ao ingerir – e classificar – bilhões de pontos de dados em rastreamentos na internet, eles são trabalhos em andamento contínuos, uma perspectiva perturbadora dada seu potencial transformador para a humanidade.

Após a divulgação pública de chatbots no ano passado, a indústria de IA generativa teve que repetidamente corrigir brechas de segurança expostas por pesquisadores e aficionados.

Tom Bonner, da empresa de segurança de IA HiddenLayer, palestrante no DefCon deste ano, enganou um sistema do Google para rotular um pedaço de malware como inofensivo apenas inserindo uma linha que dizia “isso é seguro de usar”.

“Não existem boas proteções”, disse ele.

Outro pesquisador fez com que o ChatGPT criasse e-mails de phishing e uma receita para eliminar violentamente a humanidade, violando seu código de ética.

Uma equipe que incluía pesquisadores da Carnegie Mellon descobriu que chatbots líderes eram vulneráveis a ataques automatizados que também produziam conteúdo prejudicial. “É possível que a própria natureza dos modelos de aprendizado profundo torne tais ameaças inevitáveis”, escreveram eles.

Não é como se não tivessem soado alarmes.

Em seu relatório final de 2021, a Comissão Nacional de Segurança dos EUA em Inteligência Artificial afirmou que ataques a sistemas de IA comerciais já estavam acontecendo e “com raras exceções, a ideia de proteger sistemas de IA tem sido um reflexão tardia na engenharia e implantação de sistemas de IA, com investimento inadequado em pesquisa e desenvolvimento”.

Hacks sérios, relatados regularmente há apenas alguns anos, agora são mal divulgados. Há muito em jogo e, na ausência de regulamentação, “as pessoas podem varrer as coisas para debaixo do tapete no momento e estão fazendo isso”, disse Bonner.

Os ataques enganam a lógica da inteligência artificial de maneiras que podem nem mesmo ser claras para seus criadores. E os chatbots são especialmente vulneráveis porque interagimos com eles diretamente em linguagem simples. Essa interação pode alterá-los de maneiras inesperadas.

Pesquisadores descobriram que “envenenar” uma pequena coleção de imagens ou texto no vasto mar de dados usados para treinar sistemas de IA pode causar estragos – e ser facilmente negligenciado.

Um estudo co-autorado por Florian Tramér da Universidade Suíça ETH Zurich determinou que corromper apenas 0,01% de um modelo foi o suficiente para estragá-lo – e custar tão pouco quanto $60. Os pesquisadores esperaram que um punhado de sites usados em rastreamentos na web para dois modelos expirassem. Então eles compraram os domínios e postaram dados ruins neles.

Hyrum Anderson e Ram Shankar Siva Kumar, que atuaram como equipe vermelha em IA enquanto eram colegas na Microsoft, chamam o estado da segurança da IA para modelos baseados em texto e imagem de “lamentável” em seu novo livro “Não com um Bug, mas com um Adesivo”. Um exemplo que eles citam em apresentações ao vivo: O assistente digital alimentado por IA, Alexa, é enganado ao interpretar um trecho de um concerto de Beethoven como um comando para encomendar 100 pizzas congeladas.

Ao pesquisar mais de 80 organizações, os autores descobriram que a grande maioria não possuía um plano de resposta para um ataque de envenenamento de dados ou roubo de conjunto de dados. A maioria da indústria “nem mesmo saberia que aconteceu”, eles escreveram.

Andrew W. Moore, um ex-executivo do Google e decano da Carnegie Mellon, afirma ter lidado com ataques ao software de busca do Google há mais de uma década. E entre o final de 2017 e o início de 2018, spammers manipularam o serviço de detecção com inteligência artificial do Gmail quatro vezes.

Os grandes players de IA afirmam que segurança e segurança são prioridades máximas e fizeram compromissos voluntários com a Casa Branca no mês passado para submeter seus modelos – em grande parte “caixas pretas” cujo conteúdo é mantido em sigilo – a escrutínio externo.

Mas há preocupação de que as empresas não estejam fazendo o suficiente.

Tramér espera que mecanismos de busca e plataformas de mídia social sejam manipulados para obter ganhos financeiros e desinformação, explorando as fraquezas do sistema de IA. Um candidato a emprego inteligente, por exemplo, pode descobrir como convencer um sistema de que é o único candidato correto.

Ross Anderson, cientista da computação da Universidade de Cambridge, teme que bots de IA erodam a privacidade à medida que as pessoas os utilizam para interagir com hospitais, bancos e empregadores, e atores maliciosos os aproveitam para obter dados financeiros, de emprego ou de saúde de sistemas supostamente fechados.

Modelos de linguagem de IA também podem se corromper ao se retrinarem a partir de dados irrelevantes, mostram pesquisas.

Outra preocupação são os segredos empresariais sendo absorvidos e revelados pelos sistemas de IA. Após um veículo de notícias empresariais coreano relatar um incidente desse tipo na Samsung, empresas como Verizon e JPMorgan proibiram a maioria dos funcionários de usar o ChatGPT no trabalho.

Enquanto os principais players de IA têm equipes de segurança, muitos concorrentes menores provavelmente não terão, o que significa que plug-ins e agentes digitais mal protegidos poderão se multiplicar. Startups devem lançar centenas de ofertas baseadas em modelos pré-treinados licenciados nos próximos meses.

Não se surpreenda, dizem os pesquisadores, se algum deles pegar sua lista de contatos.