Modelos de linguagem na medicina: como o ChatGPT está transformando a prática médica

Dr. Bernardo Zoehler

13 Nov 2025 — 9 min read

inteligencia artificial

[lwptoc colorScheme="inherit" borderColor="#f9f9f9"]

Modelos de linguagem na medicina: o novo marco da transformação tecnológica

O desenvolvimento de novas tecnologias, incluindo modelos de linguagem na medicina, é historicamente bem recebido, e traz benefícios concretos para médicos e pacientes.

Cirurgia robótica, sistemas de apoio à decisão clínica baseados em aprendizado de máquina, softwares de interpretação de imagens radiológicas e wearables capazes de monitorar parâmetros fisiológicos em tempo real são exemplos de como a tecnologia transformou a prática médica nas últimas décadas.

Cada uma dessas inovações, contudo, exigiu validação científica, treinamento adequado e integração cuidadosa à rotina clínica. Antes de sua implementação, essas tecnologias precisam ser adaptadas para o uso médico. O uso indevido de IA na medicina pode acarretar situações adversas não previstas. Assim, observa-se um novo dilema — que podemos começar pela sua contextualização.

IA na Medicina: inovação promissora ou novo dilema ético?

Na pesquisa mais recente sobre o uso de IA na medicina, a Elsevier's Clinician of the Future 2025¹, 48% dos clínicos reportaram o uso de IA no âmbito profissional – um crescimento de 26% em relação ao ano anterior da pesquisa (2024). Destes, quase a totalidade (97%) utiliza ferramentas generalistas, como o ChatGPT.

Os principais objetivos do uso do ChatGPT na medicina são a identificação de interações medicamentosas (89%), a análise de imagens (82%) e o resumo das medicações do paciente (81%).

Como mencionado, novas tecnologias precisam ser cuidadosamente adaptadas antes de sua aplicação em contextos clínicos — o que inclui treinamento e validação em dados médicos específicos, sob rigor científico. Dessa forma, não parece prudente empregar uma tecnologia originalmente concebida para análise textual genérica na formulação de diagnósticos ou planos terapêuticos.

Ainda assim, observa-se um fenômeno crescente: médicos e pacientes têm recorrido com frequência a modelos de linguagem na medicina, como o ChatGPT e seus equivalentes.

Essa tendência, embora inevitável, levanta uma questão profunda: estamos prontos para confiar decisões clínicas a sistemas que não compreendemos plenamente?

Chatbot terapêutico modelos de linguagem na medicina

LLMs: uma nova geração de inteligências artificiais

Diferentemente das IAs tradicionais, projetadas para tarefas específicas (como a análise de radiografia de tórax²), as LLMs pertencem à categoria de inteligências artificiais generativas.

Elas são capazes de compreender e produzir linguagem natural, o que permite uma interação direta com o médico e o paciente. Essa característica amplia o escopo de aplicação, mas também multiplica os riscos de interpretação incorreta, uso inadequado e falsa autoridade da máquina.

No campo das LLMs, pesquisadores têm buscado adaptar esses modelos por meio do treinamento em bases de dados médicas especializadas, do ajuste fino de instruções (instruction tuning) e do uso de técnicas de geração aumentada por recuperação (retrieval-augmented generation, RAG), com o objetivo de alinhar as respostas à prática clínica e reduzir o risco de informações imprecisas³.

Entretanto, isso ainda é observado em iniciativas específicas, como o modelo Med-PaLM, da Google^4,5. Modelos de uso geral, como o ChatGPT, não passam por esse processo — e com certa razão, pois não são desenvolvidos para uso médico.

Ainda assim, esses modelos frequentemente produzem respostas plausíveis e bem articuladas, mas que carecem de fundamento factual ou lógico. Em um contexto clínico, isso se manifesta como alucinações — textos coesos, mas sem sentido médico.

Textos coesos, mas sem sentido clínico

Quanto ao poder preditivo, as LLMs têm demonstrado desempenho notável. Em estudos comparativos, o desempenho diagnóstico de LLMs generalistas é equivalente ao de clínicos não especialistas.

Entretanto, há uma diferença consistente: especialistas superam as LLMs em mais de 15% na acurácia diagnóstica. Esse padrão se repete em diversas áreas, como medicina geral, radiologia, oftalmologia, medicina de emergência, neurologia, otorrinolaringologia e psiquiatria⁶.

Mesmo diante de modelos de acurácia quase perfeita, um novo problema emerge: a falta de interpretabilidade.

Modelos black box (“caixa-preta”) são aqueles em que o processo de tomada de decisão é opaco ou não compreensível para humanos. Embora forneçam resultados excelentes, o raciocínio ou os mecanismos subjacentes que levaram a essas conclusões não são transparentes.

Essa falta de interpretabilidade prejudica a utilidade do modelo em cenários críticos de tomada de decisão, nos quais o clínico precisa compreender as razões por trás das recomendações sugeridas⁷.

Ainda que solicitar explicações ao próprio modelo pareça uma solução simples, as respostas tendem a ser racionais pós-fato — explicações fabricadas, sem relação com o processo real de inferência.

Assim, o poder preditivo das LLMs na medicina está distante do seu poder explicativo: nem o modelo nem os pesquisadores são capazes de justificar com clareza os padrões identificados⁸.

Esse fenômeno inaugura uma nova forma de paternalismo na medicina. Em vez de médicos que omitem os pacientes da tomada de decisões, temos modelos que ocultam informações tanto de médicos quanto de pacientes — não por intenção, mas por incapacidade de transparência⁹.

inteligencia artificial modelos de linguagem na medicina

Engenharia de Prompt e IA médica: uma solução provisória

De forma simples, prompt é a instrução fornecida ao modelo de linguagem. A natureza dessa instrução influencia diretamente o resultado: comandos vagos tendem a gerar respostas genéricas, enquanto instruções claras, contextualizadas e orientadas ao propósito produzem resultados muito mais úteis.

Desde o surgimento das LLMs, pesquisadores vêm explorando formas de aperfeiçoar o texto inserido para melhorar a qualidade das respostas — prática conhecida como engenharia de prompt. Diversas estratégias foram desenvolvidas, como zero-shot, few-shot e chain of thought, cada uma com características e vantagens específicas, aplicáveis conforme o contexto.

Nesse cenário, a habilidade de construir bons prompts torna-se essencial para profissionais da saúde pública — sejam eles atuantes em políticas, vigilância, educação ou gestão de programas.

Boas práticas para interação com modelos de linguagem na medicina

Embora as recomendações da Organização Pan-Americana da Saúde (OPAS)¹⁰ sejam voltadas principalmente a esses profissionais, médicos e outros profissionais clínicos também podem se beneficiar dessas diretrizes, utilizando-as para aprimorar a interação com sistemas de IA generativa em suas rotinas assistenciais, especialmente no contexto.

Objetivo: define o que se espera da IA. Um propósito bem especificado orienta o modelo para o resultado desejado.
Público-alvo: indica para quem o conteúdo será destinado. O nível de linguagem e de detalhe deve se adequar ao público-alvo.
Formato: determina a estrutura da resposta (lista, parágrafo, resumo, manchete), evitando retrabalho posterior.
Tom ou estilo: orienta como a mensagem deve soar — neutra, empática, técnica ou motivacional — conforme o contexto de comunicação.
Contexto: fornece informações, dados ou instruções adicionais que tornam a resposta mais precisa e relevante.

A natureza experimental e em evolução da engenharia de prompt

Por fim, é importante lembrar que as LLMs continuam sendo modelos de “caixa-preta”, cujo comportamento é, em grande parte, compreendido por experimentação. A engenharia de prompt surgiu justamente desse processo empírico e, portanto, permanece em constante evolução.

Um exemplo notável é o estudo conduzido por pesquisadores das universidades Northeastern, Stanford e West Virginia¹¹, que propôs revisões substanciais aos princípios clássicos de engenharia de prompt, ilustrando o caráter dinâmico e ainda em construção dessa área.

É importante salientar também que, mesmo com um prompt cuidadosamente elaborado, o modelo ainda pode gerar respostas alucinatórias¹².

Cirurgia robótica modelos de linguagem na medicina

Potenciais benefícios e limitações práticas

Apesar dos riscos, as LLMs na medicina já mostram potencial em aplicações controladas: triagem inicial de sintomas¹³, sumarização de prontuários eletrônicos¹⁴, elaboração de relatórios médicos¹⁵ e apoio à comunicação com o paciente¹⁶.

Em ambientes supervisionados, a IA médica pode reduzir a carga cognitiva e administrativa do médico, otimizando o tempo destinado ao cuidado direto. Contudo, extrapolar essas ferramentas para a prática diagnóstica autônoma permanece problemático.

Falta validação regulatória da IA na medicina, persistem riscos de alucinação e há viés nos dados de treinamento. Esses vieses — linguísticos, culturais ou epidemiológicos — podem reproduzir desigualdades raciais, socioeconômicas e de gênero na prática clínica, levando a erros sutis, mas significativos.

Atendimento Médico por WhatsApp modelos de linguagem na medicina

Conclusão: a prudência como ferramenta essencial

Não há como fugir dessa tecnologia. No presente, ela já ocupa espaços antes restritos ao julgamento humano. “Movimento é vida”: a mudança é necessária, e a adaptação à nova era digital é inevitável.

Mas isso não significa renunciar à autoridade médica nem delegar decisões a modelos opacos. Até porque, em caso de erro, quem responde? O profissional da saúde, a empresa responsável ou os desenvolvedores do modelo de linguagem?

Talvez a melhor resposta esteja nas próprias palavras do ChatGPT: “O ChatGPT pode cometer erros. Por isso, lembre-se de conferir informações relevantes.”

Longe de uma solução definitiva via regulamentação, o bom senso clínico individual permanece a melhor salvaguarda. O uso de LLMs na medicina deve ser guiado por prudência, ceticismo e rigor científico.

Em última análise, talvez o maior desafio não seja ensinar a IA a pensar como um médico — mas ensinar o médico a pensar criticamente sobre a IA.

Referências:

1 Elsevier. (2025). Clinician of the Future 2025.

2 Anderson, P. G., Tarder-Stoll, H., Alpaslan, M., Keathley, N., Levin, D. L., Venkatesh, S., Bartel, E., Sicular, S., Howell, S., Lindsey, R. V., & Jones, R. M. (2024). Deep learning improves physician accuracy in the comprehensive detection of abnormalities on chest X-rays. Scientific Reports, 14(1), 25151. https://doi.org/10.1038/s41598-024-76608-2

3 Busch, F., Hoffmann, L., Rueger, C., Van Dijk, E. H., Kader, R., Ortiz-Prado, E., Makowski, M. R., Saba, L., Hadamitzky, M., Kather, J. N., Truhn, D., Cuocolo, R., Adams, L. C., & Bressem, K. K. (2025). Current applications and challenges in large language models for patient care: a systematic review. Communications Medicine, 5(1), 26. https://doi.org/10.1038/s43856-024-00717-2

4 Singhal, K., Tu, T., Gottweis, J., Sayres, R., Wulczyn, E., Amin, M., Hou, L., Clark, K., Pfohl, S. R., Cole-Lewis, H., Neal, D., Rashid, Q. M., Schaekermann, M., Wang, A., Dash, D., Chen, J. H., Shah, N. H., Lachgar, S., Mansfield, P. A., . . . Natarajan, V. (2025). Toward expert-level medical question answering with large language models. Nature Medicine, 31(3), 943–950. https://doi.org/10.1038/s41591-024-03423-7

5 Singhal, K., Azizi, S., Tu, T., Mahdavi, S. S., Wei, J., Chung, H. W., Scales, N., Tanwani, A., Cole-Lewis, H., Pfohl, S., Payne, P., Seneviratne, M., Gamble, P., Kelly, C., Babiker, A., Schärli, N., Chowdhery, A., Mansfield, P., Demner-Fushman, D., . . . Natarajan, V. (2023). Large language models encode clinical knowledge. Nature, 620(7972), 172–180. https://doi.org/10.1038/s41586-023-06291-2

6 Takita, H., Kabata, D., Walston, S. L., Tatekawa, H., Saito, K., Tsujimoto, Y., Miki, Y., & Ueda, D. (2025). A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physicians. Npj Digital Medicine, 8(1), 175. https://doi.org/10.1038/s41746-025-01543-z

7 Ullah, E., Parwani, A., Baig, M. M., & Singh, R. (2024). Challenges and barriers of using large language models (LLM) such as ChatGPT for diagnostic medicine with a focus on digital pathology – a recent scoping review. Diagnostic Pathology, 19(1), 43. https://doi.org/10.1186/s13000-024-01464-7

8 Griot, M., Hemptinne, C., Vanderdonckt, J., & Yuksel, D. (2025). Large Language Models lack essential metacognition for reliable medical reasoning. Nature Communications, 16(1), 642. https://doi.org/10.1038/s41467-024-55628-6

9 Xu, H., & Shuttleworth, K. M. J. (2023). Medical artificial intelligence and the black box problem: a view based on the ethical principle of “do no harm.” Intelligent Medicine, 4(1), 52–57. https://doi.org/10.1016/j.imed.2023.08.001

10 Pan American Health Organization (2025). AI prompt design for public health: Using generative AI responsibly.

11 Zhang, J., Yu, S., Chong, D., Sicilia, A., Tomz, M. R., Manning, C. D., & Shi, W. (2025). Verbalized Sampling: How to mitigate mode collapse and unlock LLM diversity. arXiv (Cornell University). https://doi.org/10.48550/arxiv.2510.01171

12 Anh-Hoang, D., Tran, V., & Nguyen, L. (2025). Survey and analysis of hallucinations in large language models: attribution to prompting strategies or model behavior. Frontiers in Artificial Intelligence, 8, 1622292. https://doi.org/10.3389/frai.2025.1622292

13 Masanneck, L., Schmidt, L., Seifert, A., Kölsche, T., Huntemann, N., Jansen, R., Mehsin, M., Bernhard, M., Meuth, S. G., Böhm, L., & Pawlitzki, M. (2024). Triage performance across large language models, ChatGPT, and Untrained Doctors in Emergency Medicine: Comparative study. Journal of Medical Internet Research, 26, e53297. https://doi.org/10.2196/53297

14 Verma, R., Alsentzer, E., Strasser, Z., Chang, L., Roman, K., Gershanik, E., Hernandez, C., Linares, M., Rodriguez, J., Thakral, D., Unlu, O., You, J., Zhou, L., & Bates, D. (2025). Verifiable summarization of electronic health records using large language models to support chart review. bioRxiv (Cold Spring Harbor Laboratory). https://doi.org/10.1101/2025.06.02.25328807

15 Williams, C. Y. K., Subramanian, C. R., Ali, S. S., Apolinario, M., Askin, E., Barish, P., Cheng, M., Deardorff, W. J., Donthi, N., Ganeshan, S., Huang, O., Kantor, M. A., Lai, A. R., Manchanda, A., Moore, K. A., Muniyappa, A. N., Nair, G., Patel, P. P., Santhosh, L., . . . Rosner, B. I. (2025). Physician- and Large Language Model–Generated Hospital Discharge summaries. JAMA Internal Medicine, 185(7), 818. https://doi.org/10.1001/jamainternmed.2025.0821

16 Yang, X., Xiao, Y., Liu, D., Zhang, Y., Deng, H., Huang, J., Shi, H., Liu, D., Liang, M., Jin, X., Sun, Y., Yao, J., Zhou, X., Guo, W., He, Y., Tang, W., & Xu, C. (2025). Enhancing doctor-patient communication using large language models for pathology report interpretation. BMC Medical Informatics and Decision Making, 25(1), 36. https://doi.org/10.1186/s12911-024-02838-z