Desempenho abaixo do esperado
A promessa feita há quase dois anos por Satya Nadella sobre a inteligência artificial assumir o trabalho intelectual ainda não se concretizou. Uma análise recente conduzida pela empresa Mercor mostra que a tecnologia enfrenta dificuldades sérias quando exposta a situações reais do mercado de trabalho.
O novo método de avaliação chamado APEX Agents utilizou demandas verdadeiras de banqueiros, consultores e advogados para testar os sistemas. Diferente dos testes comuns que pedem apenas redações ou cálculos isolados, o desafio exigiu o cumprimento de tarefas com várias etapas e fontes diferentes.
Resultados dos testes
Os modelos mais modernos disponíveis hoje apresentaram taxas de sucesso baixas no experimento. O Gemini 3 Flash ficou em primeiro lugar com apenas 24% de acerto, seguido de perto pelo ChatGPT 5.2 que alcançou a marca de 23%. A maior parte das outras ferramentas testadas ficou próxima dos 10%, o que inviabiliza a substituição de profissionais qualificados neste momento.
O problema principal identificado não é a falta de capacidade de cálculo, mas a dificuldade em lidar com o contexto das informações dispersas. No dia a dia, um profissional precisa cruzar dados de mensagens de WhatsApp, documentos em PDF e planilhas de Excel para formular uma resposta correta.
Evolução da tecnologia
A mudança constante de contexto confunde os sistemas, que acabam fornecendo respostas erradas ou falhando na execução da tarefa. A comparação feita pelo estudo aponta que a IA atual funciona como um estagiário que não passa muita confiança e acerta apenas um quarto das tentativas.
Os dados mostram um crescimento rápido, pois há um ano a taxa de sucesso desses modelos variava entre 5% e 10%. O salto para os atuais 25% representa um avanço, mas ainda é insuficiente para garantir autonomia em ambientes profissionais exigentes.

