Facebook Viva Youtube Viva Instagram Viva Linkedin Viva

IA acerta 95% na teoria mas erra com pacientes reais, mostra estudo

Adobe Stock

Quando pessoas de verdade sentaram para conversar com as IAs para tentar desvendar o problema, o índice de acerto despencou para menos de 35% - Adobe Stock
Quando pessoas de verdade sentaram para conversar com as IAs para tentar desvendar o problema, o índice de acerto despencou para menos de 35%
Por Emanuele Almeida

23/02/2026 | 10h55

São Paulo, 23/02/2026 - Um estudo publicado recentemente na revista Nature Medicine, investigou a ideia de usar os grandes modelos de linguagem, como o GPT-4o da OpenAI, o Llama 3 da Meta e o Command R+, como uma "nova porta de entrada" para os sistemas de saúde, visando ampliar o acesso à informação médica e desafogar os hospitais. Contudo, apesar de terem ótimos desempenhos na teoria, na prática, as IAs até pioraram a identificação de condições médicas. 

Leia também: Diagnóstico por algoritmo: o SUS está pronto para a IA?

Para testar como isso funcionaria, pesquisadores recrutaram 1.298 pessoas no Reino Unido. Elas foram divididas em grupos e receberam o desafio de agir como pacientes em 10 cenários médicos fictícios do dia a dia, como ter uma dor de cabeça súbita e intensa. 

O objetivo principal era que cada pessoa avaliasse qual poderia ser a condição médica e qual atitude tomar, como ficar em casa, agendar uma consulta ou chamar uma ambulância. Parte dos participantes teve acesso a um chat de IA para pedir ajuda, enquanto o grupo de controle usou métodos tradicionais, como o Google.

Teoria e a prática

Os resultados mostraram um grande contraste. Quando as IAs foram testadas sozinhas, recebendo a descrição completa do cenário diretamente dos pesquisadores, elas foram excelentes: acertaram as doenças relevantes em quase 95% dos casos.

Porém, quando pessoas de verdade sentaram para conversar com as IAs para tentar desvendar o problema, o índice de acerto despencou para menos de 35%. Os participantes que usaram a inteligência artificial não se saíram melhor do que aqueles que apenas fizeram buscas na internet por conta própria; inclusive, os participantes sem IA tiveram 1,76 vezes mais chances de identificar a condição médica correta em comparação com a média daqueles que usaram IA.

Leia também: Pessoas 60+ não confiam em IA na saúde e sim em médicos, diz pesquisa

Por que a conversa não funcionou?

Os pesquisadores analisaram os históricos das conversas e descobriram que a culpa dessa queda de desempenho está na dinâmica entre o paciente e a máquina. Entre as principais falhas de interação, destacam-se:

  • Informações incompletas: muitas vezes, os usuários não forneciam à IA todos os detalhes cruciais sobre o que estavam sentindo logo de cara. Na vida real, o médico faz perguntas investigativas para extrair essas informações, pois o paciente geralmente não sabe o que é importante relatar;
  • Boas respostas ignoradas: durante as conversas, as IAs chegaram a sugerir a doença correta para o usuário. Contudo, em meio a várias opções dadas pela máquina, os participantes não conseguiam identificar qual era a mais plausível e acabavam não a incluindo em sua decisão final;
  • Respostas inconsistentes da IA: a ferramenta se mostrou sensível a pequenas mudanças nas palavras dos usuários. Em um caso extremo relatado no estudo, dois "pacientes" descreveram sintomas quase idênticos de uma hemorragia grave; um foi aconselhado corretamente a buscar emergência, enquanto o outro recebeu a instrução de deitar em um quarto escuro.

Como se deve usar a IA na saúde?

As avaliações convencionais de IA costumam celebrar quando a máquina passa em provas para licença médica com notas quase perfeitas. Contudo, o estudo conclui que ter o conhecimento de um médico não é suficiente se a tecnologia não souber conduzir a entrevista clínica com o paciente.

Leia também: ChatGPT Health reacende debate sobre limites da IA na saúde física e mental

A recomendação dos cientistas para que a inteligência artificial seja implementada com segurança para o público em geral na área da saúde. Para isso, os desenvolvedores precisarão parar de testar as máquinas apenas em simulações teóricas e passar a observar como pessoas reais, com suas dúvidas e limitações de comunicação, interagem com elas no dia a dia.

Até lá, depender de chatbots para autodiagnóstico pode continuar não sendo mais eficaz do que uma simples pesquisa no Google.

Comentários

Política de comentários

Este espaço visa ampliar o debate sobre o assunto abordado na notícia, democrática e respeitosamente. Não são aceitos comentários anônimos nem que firam leis e princípios éticos e morais ou que promovam atividades ilícitas ou criminosas. Assim, comentários caluniosos, difamatórios, preconceituosos, ofensivos, agressivos, que usam palavras de baixo calão, incitam a violência, exprimam discurso de ódio ou contenham links são sumariamente deletados.

Gostou? Compartilhe

Últimas Notícias