IA acerta 95% na teoria mas erra com pacientes reais, mostra estudo
Adobe Stock
São Paulo, 23/02/2026 - Um estudo publicado recentemente na revista Nature Medicine, investigou a ideia de usar os grandes modelos de linguagem, como o GPT-4o da OpenAI, o Llama 3 da Meta e o Command R+, como uma "nova porta de entrada" para os sistemas de saúde, visando ampliar o acesso à informação médica e desafogar os hospitais. Contudo, apesar de terem ótimos desempenhos na teoria, na prática, as IAs até pioraram a identificação de condições médicas.
Leia também: Diagnóstico por algoritmo: o SUS está pronto para a IA?
Para testar como isso funcionaria, pesquisadores recrutaram 1.298 pessoas no Reino Unido. Elas foram divididas em grupos e receberam o desafio de agir como pacientes em 10 cenários médicos fictícios do dia a dia, como ter uma dor de cabeça súbita e intensa.
O objetivo principal era que cada pessoa avaliasse qual poderia ser a condição médica e qual atitude tomar, como ficar em casa, agendar uma consulta ou chamar uma ambulância. Parte dos participantes teve acesso a um chat de IA para pedir ajuda, enquanto o grupo de controle usou métodos tradicionais, como o Google.
Teoria e a prática
Os resultados mostraram um grande contraste. Quando as IAs foram testadas sozinhas, recebendo a descrição completa do cenário diretamente dos pesquisadores, elas foram excelentes: acertaram as doenças relevantes em quase 95% dos casos.
Porém, quando pessoas de verdade sentaram para conversar com as IAs para tentar desvendar o problema, o índice de acerto despencou para menos de 35%. Os participantes que usaram a inteligência artificial não se saíram melhor do que aqueles que apenas fizeram buscas na internet por conta própria; inclusive, os participantes sem IA tiveram 1,76 vezes mais chances de identificar a condição médica correta em comparação com a média daqueles que usaram IA.
Leia também: Pessoas 60+ não confiam em IA na saúde e sim em médicos, diz pesquisa
Por que a conversa não funcionou?
Os pesquisadores analisaram os históricos das conversas e descobriram que a culpa dessa queda de desempenho está na dinâmica entre o paciente e a máquina. Entre as principais falhas de interação, destacam-se:
- Informações incompletas: muitas vezes, os usuários não forneciam à IA todos os detalhes cruciais sobre o que estavam sentindo logo de cara. Na vida real, o médico faz perguntas investigativas para extrair essas informações, pois o paciente geralmente não sabe o que é importante relatar;
- Boas respostas ignoradas: durante as conversas, as IAs chegaram a sugerir a doença correta para o usuário. Contudo, em meio a várias opções dadas pela máquina, os participantes não conseguiam identificar qual era a mais plausível e acabavam não a incluindo em sua decisão final;
- Respostas inconsistentes da IA: a ferramenta se mostrou sensível a pequenas mudanças nas palavras dos usuários. Em um caso extremo relatado no estudo, dois "pacientes" descreveram sintomas quase idênticos de uma hemorragia grave; um foi aconselhado corretamente a buscar emergência, enquanto o outro recebeu a instrução de deitar em um quarto escuro.
Como se deve usar a IA na saúde?
As avaliações convencionais de IA costumam celebrar quando a máquina passa em provas para licença médica com notas quase perfeitas. Contudo, o estudo conclui que ter o conhecimento de um médico não é suficiente se a tecnologia não souber conduzir a entrevista clínica com o paciente.
Leia também: ChatGPT Health reacende debate sobre limites da IA na saúde física e mental
A recomendação dos cientistas para que a inteligência artificial seja implementada com segurança para o público em geral na área da saúde. Para isso, os desenvolvedores precisarão parar de testar as máquinas apenas em simulações teóricas e passar a observar como pessoas reais, com suas dúvidas e limitações de comunicação, interagem com elas no dia a dia.
Até lá, depender de chatbots para autodiagnóstico pode continuar não sendo mais eficaz do que uma simples pesquisa no Google.
Comentários
Política de comentários
Este espaço visa ampliar o debate sobre o assunto abordado na notícia, democrática e respeitosamente. Não são aceitos comentários anônimos nem que firam leis e princípios éticos e morais ou que promovam atividades ilícitas ou criminosas. Assim, comentários caluniosos, difamatórios, preconceituosos, ofensivos, agressivos, que usam palavras de baixo calão, incitam a violência, exprimam discurso de ódio ou contenham links são sumariamente deletados.
