Por que a colaboração com a IA generativa é tão complicada – e como fazer isso funcionar

Colaborar com IA generativa é complexo - como tornar isso viável?

Mas como uma empresa realmente gera vantagem competitiva ao adotar rapidamente a GenAI em constante mudança? Para responder a essa pergunta, a BCG realizou um experimento científico pioneiro, com 750 consultores da BCG usando o GPT-4 para uma série de tarefas que refletem parte do que os funcionários fazem no dia a dia. Com o apoio de estudiosos da Harvard Business School, MIT Sloan, Wharton School e University of Warwick, o experimento procurou responder a duas questões fundamentais que os líderes empresariais enfrentam ao determinar sua estratégia de IA: como a GenAI deve ser usada no trabalho de colarinho branco de alta qualificação? E como as empresas devem se organizar para extrair o máximo valor da parceria entre seres humanos e essa tecnologia?

Explorando a “fronteira de capacidade” da IA generativa

Os resultados do experimento mostraram que quando e como a GenAI deve ser usada no trabalho de colarinho branco depende em grande parte de onde uma determinada tarefa se encontra em relação à “fronteira de capacidade” da tecnologia – dentro da competência de um determinado modelo ou além dela. A fronteira de capacidade está em constante expansão, aumentando o leque de competências, mas com obstáculos ao longo do caminho onde os modelos da GenAI falham inesperadamente. Essas flutuações criam uma fronteira de capacidade “irregular” que torna complexo e confuso para os usuários de IA generativa identificar se uma determinada tarefa se enquadra ou não dentro da fronteira e tomar decisões estratégicas de acordo.

Essas mudanças rápidas na fronteira de capacidade podem ser vistas no desempenho do GPT-3.5 da OpenAI em comparação com o GPT-4. Os dois modelos foram lançados com apenas alguns meses de diferença, mas os ganhos de capacidade, em alguns casos, foram enormes. Por exemplo, em certos testes padronizados, como o Exame Uniforme de Advocacia, usado para licenciar advogados para exercer a advocacia, o desempenho saltou do percentil 10 no GPT-3.5 para quase o percentil 90 no GPT-4.

No entanto, a adoção da tecnologia é complicada pelo fato de que, paradoxalmente, a fronteira de capacidade pode, às vezes, se contrair. Por exemplo, quando o GPT-4 foi lançado em março, era muito bom em identificar números primos corretamente, fazendo isso com 98% de precisão. Mas em julho, após apenas alguns meses, esse mesmo teste teve uma taxa de precisão de apenas 2%. O que havia mudado? Nos bastidores, a OpenAI continua treinando continuamente seus modelos para serem mais seguros, corrigir problemas e serem, em geral, mais capazes ao longo do tempo. Mas, como esses modelos são tão grandes, com centenas de bilhões de parâmetros trabalhando juntos para produzir resultados, certas mudanças inadvertidamente degradam algumas habilidades, e nem sempre fica claro o porquê.

Quando o uso da IA generativa pode ser prejudicial

Projetamos dois experimentos para avaliar como os participantes usam a IA generativa em dois tipos de tarefas. A primeira tarefa – denominada inovação de produtos criativos – foi projetada para estar dentro da fronteira de capacidade do GPT-4. Ela testou a geração de ideias de produtos (“dê-me 10 ideias para um novo sapato direcionado a um mercado não atendido”), teste de produtos (“quais perguntas você faria a um grupo de foco para validar seu produto”) e, finalmente, lançamento de produtos (“elabore um comunicado de imprensa anunciando o lançamento do seu produto”). A segunda tarefa – denominada solução de problemas empresariais – foi projetada para ser complexa o suficiente para que o GPT-4 cometesse erros ao resolvê-la, de modo que ficasse claramente fora da fronteira de capacidade do GPT-4. O teste forneceu aos participantes dados financeiros e notas de entrevistas de uma empresa fictícia e perguntou como aumentar melhor as receitas e a lucratividade da empresa.

As descobertas de nosso experimento indicam que, para uma tarefa projetada para estar dentro da fronteira de capacidade do GPT-4, os participantes que usaram o GPT-4 para concluí-la superaram facilmente o grupo de controle em 40%. Esperávamos que o GPT-4 fosse bom, mas ficamos surpresos com o quão bom ele realmente era. Além disso, os resultados mostraram que, quando os participantes tentaram modificar a saída do GPT-4 ao operar dentro de sua competência, na esperança de melhorá-la, as modificações realmente degradaram sua qualidade.

Também houve desvantagens a serem consideradas. Embora o GPT-4 tenha melhorado o desempenho de quase todos na tarefa de inovação de produtos criativos, descobrimos que o grupo de participantes que o utilizava tinha significativamente menos diversidade de ideias (41% a menos) do que o grupo de controle (impulsionado pelo fato de o GPT-4 fornecer a todos uma resposta semelhante). Essa homogeneização de ideias dentro de uma organização pode ser um grande problema para as empresas, pois inibe o pensamento divergente e a inovação.

Surpreendentemente, na tarefa de solução de problemas empresariais fora da fronteira de capacidade do modelo, os participantes que usaram o GPT-4 tiveram um desempenho significativamente pior do que o grupo de controle – cerca de 23%. O fato de o GPT-4 não estar apenas ajudando os humanos nessa tarefa, mas, na verdade, prejudicando ativamente o desempenho, é uma descoberta significativa. Mas por que isso pode acontecer? A partir de entrevistas com os participantes, descobrimos que o GPT-4 pode ser muito persuasivo, a ponto de justificar quase qualquer recomendação – mesmo que esteja incorreta. Ao usar o GPT-4, os participantes tendem a depender fortemente de suas recomendações em vez de usar seu próprio raciocínio crítico quando confrontados com erros em sua lógica. Esses resultados mostram a importância de avaliar o desempenho da GenAI em relação aos parceiros humanos ao avaliar o potencial de vantagem competitiva.

O que as empresas devem fazer agora?

Os resultados do experimento mostram a importância de localizar com precisão a “fronteira irregular” para criar valor. Dentro da fronteira de capacidade, os humanos adicionam muito pouco valor ao GenAI, mas fora da fronteira de capacidade, os humanos que trabalham sem o GenAI melhoram o desempenho. Além de localizar essa fronteira, nosso experimento sugere uma reavaliação completa de como os humanos e o GenAI devem colaborar. O valor em jogo é claramente muito significativo, mas como as empresas podem navegar nesse paradigma emergente e complexo de colaboração humana e GenAI?

O primeiro passo mais urgente que os executivos devem tomar é estabelecer um “laboratório gerador de IA” onde cada função e divisão dentro de uma empresa experimenta os últimos modelos de GenAI e analisa os resultados para tipos específicos de tarefas. A saída da IA está à altura? A intervenção humana é necessária para melhorar os resultados? Esse tipo de exercício não pode ser feito uma vez e pronto, porque, à medida que novos modelos são lançados e modelos existentes são atualizados, a experimentação contínua será essencial para entender a fronteira de capacidade evoluindo e irregular do GenAI.

As empresas também precisarão pensar criticamente para determinar como construirão uma vantagem competitiva por meio do GenAI. Nesta fase, a estratégia de dados de uma empresa se torna ainda mais importante. Este experimento mostrou que o GenAI pode ser uma ferramenta poderosa, mas também é uma ferramenta amplamente disponível para todos. Para impulsionar verdadeiramente a vantagem competitiva, as empresas devem garantir que essa tecnologia gere insights específicos e diferenciados para a empresa usando seus próprios dados proprietários (ou qualquer outra fonte única de dados que possam criar ou acessar). Isso muitas vezes é mais fácil dizer do que fazer, porque as empresas geralmente não possuem a infraestrutura de dados para digitalizar, coletar, limpar e armazenar automaticamente todos os seus próprios dados – desde dados de comportamento do cliente até informações geradas internamente de P&D. Portanto, é vital para as empresas desenvolver capacidades de engenharia de dados internamente para desbloquear dados na era do GenAI.

Além de acumular seus próprios dados proprietários, as empresas também devem explorar métodos não convencionais para construir sua proteção de dados. Em monopólios, por exemplo, as empresas não dominantes raramente têm poder de mercado suficiente para gerar insights úteis a partir de seus próprios dados proprietários. Nesses casos, uma estratégia de compartilhamento de dados bem pensada, baseada em confiança compartilhada e contratos bem projetados, pode permitir que os jogadores não dominantes concorram com os maiores jogadores.

Ao articular sua estratégia de dados, as empresas também devem adaptar sua estratégia de pessoas. Especificamente, as empresas devem pensar criticamente em como realocar suas pessoas para trabalhos além da fronteira de capacidade do GenAI. Essa remodelagem da força de trabalho de uma empresa pode assumir várias formas. Por exemplo, as empresas podem requalificar cientistas de dados existentes – onde a IA está ganhando rapidamente habilidades – em engenheiros de dados, concentrando-se em tarefas que a IA não pode fazer, como configurar a infraestrutura de coleta de dados. Essa mudança atende a uma necessidade crítica das empresas em engenharia de dados, ao mesmo tempo em que garante que os humanos estejam trabalhando além das capacidades da IA, fortalecendo a posição competitiva de uma empresa.

Outra mudança para as empresas está na forma como elas organizam sua divisão de marketing – porque, como o experimento do BCG mostrou, essa é uma área em que a IA generativa já é extremamente boa. Em vez de focar na criação de conteúdo, na qual a IA pode fazer muito bem, os profissionais de marketing agora podem se concentrar na tomada de decisões estratégicas, que a IA ainda não pode fazer. O trabalho humano pode existir além das capacidades da IA e adicionar valor ao abordar questões como: “Quais produtos uma empresa deve lançar?” ou “Como a empresa deve posicionar sua marca para atingir melhor os millennials?”

As empresas também precisarão repensar sua estratégia de talentos, contratação e desenvolvimento, além de realocar a força de trabalho atual. Certos talentos individuais brutos, anteriormente procurados, podem não ser tão importantes no futuro quanto a capacidade de supervisionar sistemas de IA e discernir quando a tecnologia está em seu limite, o que será mais importante. Os processos de contratação atuais não são projetados para identificar essas habilidades. Além disso, uma questão mais ampla para os executivos abordarem é como os funcionários podem gerenciar efetivamente a tecnologia em tarefas que eles próprios ainda não dominaram, à medida que se afastam da criação de conteúdo e assumem novos papéis de supervisão.

Paralelamente, as empresas terão que redefinir os papéis e fluxos de trabalho dentro de suas organizações. A sabedoria predominante atual sugere que a melhor maneira de os humanos e a IA colaborarem é uma colaboração consistente e estreita entre os dois, cada um se alimentando do outro. Mas nosso experimento sugere, com o surgimento da IA generativa, que o oposto é verdadeiro. Em tarefas em que o GenAI é muito bom, é necessária uma intervenção humana mínima. Na verdade, melhores resultados são produzidos quando os humanos se afastam e atuam como supervisores, tratando a saída do modelo como um rascunho quase final. Os humanos, em vez disso, criam valor atuando como complementadores do GenAI, impulsionando sua fronteira de capacidade trabalhando além dela e realizando tarefas em que a IA ainda não é competente.

Esperamos que a adoção deste “modelo de complementação de colaboração humana-IA” seja um resultado positivo tanto para indivíduos como para empresas. Os indivíduos, agora liberados de uma série de tarefas diárias, podem direcionar seu tempo, energia e esforço para assumir uma missão muito mais ampla em seu trabalho e gerar impacto. Por sua vez, esses ganhos de eficiência impulsionarão os negócios, oferecendo melhores produtos e serviços aos clientes.

***

A inteligência artificial generativa apresenta uma oportunidade única – e desafiadora – para executivos de negócios. Para as empresas, o valor da GenAI está na capacidade das empresas de monitorar e compreender a fronteira em constante mudança de habilidades, de forma que possam implantar rapidamente a GenAI onde a tecnologia está avançada e utilizar outros meios onde não está. As empresas que conseguirem encontrar esse equilíbrio de maneira eficaz, adaptando suas experimentações, fluxos de trabalho, pessoas e capacidades de dados, criarão valor, maximizarão sua vantagem competitiva e serão as mais bem-sucedidas.

Leia outros artigos da ANBLE, por François Candelon. François Candelon é diretor executivo e sócio sênior do escritório de Paris do Boston Consulting Group e diretor global do BCG Henderson Institute (BHI). Lisa Krayer é líder de projeto no escritório de Washington, D.C. da BCG e embaixadora do BHI. Saravanan Rajendran é líder de projeto no escritório de San Francisco da BCG e embaixador do BHI. David Zuluaga Martinez é sócio do escritório de Brooklyn da BCG e embaixador do BHI.