Uma startup britânica de um ano de idade afirma ter alcançado um avanço significativo na segurança da IA ao obter uma pontuação alta em um jogo de vídeo.

Uma startup britânica de um ano alcançou avanço significativo na segurança da IA com alta pontuação em jogo de vídeo.

Align AI, uma empresa de um ano, diz ter desenvolvido um novo algoritmo que permite que sistemas de IA formem associações mais sofisticadas, mais semelhantes a conceitos humanos. A conquista, se confirmada nos testes do mundo real, poderia superar um problema comum nos sistemas de IA atuais, que muitas vezes estabelecem correlações falsas a partir dos dados em que são treinados, levando a consequências desastrosas fora do laboratório.

O perigo dessas correlações incorretas, ou “generalizações equivocadas” na linguagem da IA, ficou tragicamente claro em 2018, quando um carro autônomo da Uber atingiu e matou uma mulher cruzando a rua no Arizona. Os dados de treinamento que a Uber alimentou no software de IA do carro mostravam apenas pedestres caminhando nas faixas de pedestres. Então, embora os engenheiros da Uber pensassem que o software havia aprendido a detectar pedestres, na verdade ele só havia aprendido a identificar faixas de pedestres. Quando encontrou uma mulher atravessando a rua fora da faixa de pedestres, o software falhou em reconhecer a mulher como uma pedestre e a atingiu em cheio.

De acordo com Rebecca Gorman, co-fundadora e CEO da Aligned, o chamado Algoritmo para Extração de Conceitos, ou ACE, da empresa é muito melhor em evitar essas conexões falsas.

Gorman disse à ANBLE que viu usos potenciais para o novo algoritmo em áreas como robótica. Idealmente, gostaríamos que um robô que aprendeu a pegar uma xícara em um simulador fosse capaz de generalizar esse conhecimento para pegar xícaras de diferentes tamanhos e formatos em diferentes ambientes e condições de iluminação, para que possa ser usado em qualquer situação sem necessidade de retrabalho. Esse robô também idealmente saberia como operar com segurança ao redor de pessoas, sem a necessidade de ser confinado em uma gaiola, como muitos robôs industriais são hoje.

“Precisamos de maneiras para que essas IAs que operam sem supervisão humana contínua ajam de maneira segura”, disse ela. Ela também disse que o ACE poderia ser útil para moderação de conteúdo em mídias sociais ou fóruns da Internet. O ACE se destacou anteriormente em um teste para detectar linguagem tóxica.

A IA obteve uma pontuação alta em um videogame especial semelhante ao Sonic the Hedgehog

Para demonstrar a habilidade do modelo ACE, a Align AI o colocou em um videogame simples chamado CoinRun.

CoinRun é uma versão simplificada de um jogo como Sonic the Hedgehog, mas é usado por desenvolvedores de IA como um teste desafiador para avaliar o quão bem um modelo consegue superar a tendência de estabelecer conexões falsas. Um jogador, neste caso um agente de IA, tem que navegar por um labirinto de obstáculos e perigos, evitando monstros, enquanto procura por uma moeda de ouro e, em seguida, escapa para o próximo nível do jogo.

O CoinRun foi criado por pesquisadores da OpenAI em 2018 como um ambiente simples para testar o quão bem diferentes agentes de IA conseguem generalizar para novos cenários. Isso porque o jogo apresenta aos agentes de IA uma série infinita de níveis nos quais a configuração exata dos desafios que o agente deve superar – a localização dos obstáculos, buracos e monstros – está sempre mudando.

Mas em 2021, pesquisadores do Google DeepMind e de várias universidades britânicas e europeias perceberam que o CoinRun poderia realmente ser usado para testar se os agentes “generalizavam erroneamente” – ou seja, aprendiam uma correlação falsa. Isso ocorre porque, na versão original do CoinRun, o agente sempre aparecia no canto superior esquerdo da tela e a moeda sempre aparecia no canto inferior direito da tela, onde o agente podia sair para o próximo nível. Portanto, os agentes de IA aprenderiam a sempre ir para o canto inferior direito. Na verdade, se a moeda fosse colocada em outro lugar, os agentes de IA muitas vezes ignorariam a moeda e continuariam indo para o canto inferior direito. Em outras palavras, o CoinRun original deveria treinar agentes em busca de moedas, mas acabava treinando agentes em busca do canto inferior direito.

Na verdade, é muito difícil fazer com que os agentes não generalizem erroneamente. Isso é especialmente verdadeiro em situações em que o agente não pode receber continuamente um novo sinal de recompensa e simplesmente precisa seguir a estratégia que desenvolveu durante o treinamento. Sob tais condições, o melhor software de IA anterior só conseguia pegar a moeda em 59% das vezes. Isso é apenas cerca de 4% melhor do que um agente executando ações aleatórias. Mas um agente treinado usando o ACE pegou a moeda em 72% das vezes. Os pesquisadores mostraram que o agente ACE agora busca a moeda, em vez de passar direto por ela. Ele também entende situações em que pode correr para pegar uma moeda e avançar para o próximo nível antes de ser devorado por um monstro se aproximando, enquanto o agente padrão nessa situação fica preso no canto esquerdo, com medo do monstro avançar – porque ele pensa que o objetivo do jogo é chegar ao canto inferior direito da tela, não pegar a moeda.

O ACE funciona ao observar as diferenças entre seus dados de treinamento e novos dados – neste caso, a localização da moeda. Em seguida, formula duas hipóteses sobre qual pode ser seu verdadeiro objetivo com base nessas diferenças – um deles é o objetivo original que foi aprendido durante o treinamento (ir para a parte inferior direita), e o outro é um objetivo diferente (procurar a moeda). Em seguida, ele testa qual parece explicar melhor os novos dados. Esse processo é repetido até que ele encontre um objetivo que pareça se adequar às diferenças nos dados que foram observadas.

No benchmark CoinRun, o agente ACE precisou de 50 exemplos com a moeda em diferentes localizações antes de aprender que o objetivo correto era pegar a moeda, e não ir para a parte inferior direita. Mas Stuart Armstrong, co-fundador e diretor de tecnologia da Aligned AI, afirmou que já houve progresso significativo com metade desse número de exemplos, e que o objetivo da empresa é chegar ao que é chamado de “aprendizagem de zero shot”, onde o sistema de IA descobrirá o objetivo correto logo na primeira vez em que se deparar com dados que não se parecem com os exemplos de treinamento. Isso teria sido necessário para salvar a mulher morta pelo carro autônomo da Uber.

A Aligned AI está atualmente em busca de sua primeira rodada de financiamento e tem uma patente pendente para o ACE, de acordo com Gorman.

Armstrong também afirmou que o ACE pode ajudar a tornar os sistemas de IA mais interpretáveis, uma vez que aqueles que estão construindo um sistema de IA podem ver qual é o objetivo que o software está interpretando. No futuro, seria até possível combinar algo como o ACE com um modelo de linguagem, como o que alimenta o ChatGPT, para fazer com que o algoritmo expresse o objetivo em linguagem natural.