
A inteligência artificial está prestes a roubar nossos empregos? Algumas empresas não hesitam em apostar nisso, enquanto outras não querem saber de nada, por considerá-lo incapaz. Mas o que é isso realmente? Em um artigo de pré-publicação em Arxivpesquisadores da Universidade Carnegie Mellon simularam um negócio e contrataram agentes de inteligência artificial para administrá-lo. E o resultado esteve longe de ser positivo.
Os funcionários virtuais eram agentes baseados em Claude da Anthropic, GPT-4o da OpenAI, Google Gêmeos, Amazônia NovaMeta Llama e Qwen do Alibaba. Eles foram designados para cargos diferentes, como analista financeirogerente de projeto ou até mesmo engenheiro de software. Ao mesmo tempo, os investigadores utilizaram outra plataforma para simular colegas que tinham de contactar para determinadas tarefas, como um departamento de relações humanas.
Os agentes falharam em mais de três quartos das tarefas
Os agentes receberam diversas tarefas, como navegar por diversos arquivos para analisar uma base de dados ou realizar diversos tours virtuais para escolher novas instalações. Claude 3.5 Sonnet terminou bem à frente, mas este agente só conseguiu completar 24% das tarefas. Mesmo considerando tarefas parcialmente concluídas, sua pontuação chega a apenas 34,4%. Gêmeos 2.0 Clarão está em segundo lugar, mas só conseguiu completar 11,4% das tarefas. Nenhum outro agente ultrapassou 10%. No entanto, em matéria do custo operacional, o Claude 3.5 Sonnet custou US$ 6,34, em comparação com apenas US$ 0,79 do Gemini 2.0 Flash.
Os pesquisadores indicaram que muitas vezes os agentes não conseguem entender a parte implícita das instruções, como quando têm que escrever o resultado em um arquivo com extensão “.docx”, não deduzem que se trata de um formato Microsoft Palavra. Eles falham em certas tarefas devido à falta de habilidades sociais. Mas um dos maiores problemas era quando eles precisavam navegar na web, principalmente conseguir navegar em pop-ups. E às vezes, quando estão perdidos, tomam atalhos para pular a parte difícil da tarefa e acham que conseguiram. Estes resultados mostram que mesmo que as IA possam dar excelentes resultados em determinadas tarefas muito específicas, ainda estão longe de serem capazes de operar de forma autónoma.