大规模语言模型在医疗领域的应用概述

来源：

访问：

2023-12-12 16:39

概述

○ 该研究论文综述了在医疗领域中大型语言模型（LLMs）的最新应用，并强调了它们在提升医疗质量方面的转变性作用。

○ LLMs能够处理来自不同医学领域的大量数据，对医生、医疗提供者和患者提供有力支持。

○ 论文探讨了LLMs在癌症诊断、牙科学、肾病学、皮肤科学等各个医学专业的应用，并介绍了LLMs在医学专业中的方法学、不同数据类型的处理方式以及在医疗领域的实际应用案例。

○ 该综述强调了LLMs在改善患者护理、简化医疗流程和促进医学知识进步方面的潜力，探讨了它们在患者教育、诊断支持、行政任务和医疗研究等方面的创新解决方案。

重要问题探讨

1. 在癌症（肿瘤学）领域中，LLM模型如何被应用？结果表明它们的表现如何？对于癌症检测，一个研究使用LLM模型来识别常见的四种癌症类型：肺癌、乳腺癌、前列腺癌和结直肠癌。结果显示，使用XGBoost模型并结合SBERT和SimCSE提取特征，肺癌的准确度为73%，乳腺癌为75%，与SimCSE的句子嵌入模型结合只有微小的改进。（研究：Mokatle等人，2022年）

另一项研究评估了大型语言模型在从影像报告中准确推断癌症疾病反应方面的有效性。他们收集了10602份癌症患者的计算机断层扫描报告，并将其归类为不同的疾病反应类别。结果显示，GatorTron transformer模型在测试集上的准确度为0.8916，在RECIST验证集上为0.8919。（研究：Tan等人，2023年）

在骨骼显像中，LLM模型在骨转移的检测方面表现如何？结果显示，深度学习模型与ChatGPT-3.5和Python的结合在所有图像上的10倍数据增强表现出了88.7%的准确性（特异性）和56.0%的敏感性（研究：Son 等人，2023年）。

2. 在皮肤学领域，LLM模型在诊断皮肤疾病方面有何应用？这些模型的表现如何？一个研究引入了SkinGPT-4模型，该模型经过训练使用了52,929组公开可访问的数据、医生的综合性记录和重要的临床概念。通过对150个真实案例进行测试，这个研究展示了SkinGPT-4在诊断皮肤疾病方面的能力。在这150个案例中，73.13%的诊断被证实是准确的，另外5.63%的诊断是同意的。此外，医生发现该模型对疾病病因和可能的治疗方法的见解令人启发（研究：Zhou等人，2023年）。ChatCAD等其他LLM模型也在皮肤科领域的复杂文档分析上发挥了重要作用，如MRI、X光和CT扫描数据（研究：未提及，可以推测为ChatCAD研究，适用于复杂文档分析）。

3. LLM模型如何应用于痴呆症的治疗？它们在痴呆症诊断中的表现如何？一个研究使用GPT-3模型进行痴呆症筛查，将237个语音录音进行了训练和测试。结果表明，GPT-3模型在痴呆症预测方面表现出色，在10 CV交叉验证中的准确率为79.7%，在独立测试中的准确率为80.3%（研究：Agbavor和Liang等人，2022年）。

4. LLM模型在肾病学领域的应用如何？它们如何辅助肾脏疾病的诊断和治疗？ LLM模型在肾病学中被应用于肾病的诊断、治疗指导和肾功能监测。在研究中，使用多个LLM模型，如Orca Mini 13B、Stable Vicuna 13B、Falcon 7B、Koala 7B、Claude 2和GPT-4，回答与肾病学有关的多项选择题，其中GPT-4表现出较好的性能。GPT-4在评估肾病学多项选择题的准确率（回答正确的比例）方面得分为73.3%，而Claude 2得分为54.4%。在评估各个肾病学主题时，GPT-4始终优于其他模型（研究：Wu等人，2023年）。

5. LLM模型在神经病理学中有何应用和表现？研究显示，LLM模型如Google Bard和ChatGPT在预测与神经病理学相关的诊断方面表现出效果。在评估25例与神经退行性疾病相关的诊断时，ChatGPT-3.5与专业医生的诊断吻合率为32%，Google Bard为40%，而ChatGPT-4则为52%。在诊断准确性评估方面，ChatGPT-3.5和Google Bard的准确率均为76%，而ChatGPT-4则达到了84%的准确率（研究：Koga等人，2023年）。

6. LLM模型在过敏与免疫学领域有何应用？这些应用如何提高过敏和免疫学诊断的准确性？ LLM模型如GPT-4和Google Med-PaLM2在过敏与免疫学诊断过程中显示出巨大潜力。通过集成这些先进模型，可以提高诊断的准确性，并根据个体患者的需求量身定制治疗方案。此外，LLM模型可以帮助提供更准确和个性化的医疗护理，并促进患者参与和了解其健康状况（研究：Goktas等人，2023年）。

7. LLM模型如何在牙科领域发挥作用？它们如何改善牙科诊断和治疗过程？ LLM模型在牙科领域的应用包括跨模态牙科诊断和自动化牙科诊断。这些模型可以处理关键词提示、患者叙述和牙科影像等不同类型的输入，从而提高牙科诊断的准确性和效率。通过将关键信息进行编码和解析，LLM模型可以生成关于牙科问题的摘要或描述，并帮助医生做出决策（研究：Huang等人，2023年）。

8. LLM模型在胃肠病学中的应用如何？它们提供的答案或建议的准确性如何？ LLM模型如ChatGPT在回答胃肠健康方面的问题中具有潜力。一个研究使用110个真实世界的问题，将ChatGPT的答案与经验丰富的胃肠病学家的专业建议相比较。结果显示，ChatGPT在清晰度、准确性和有效性方面得分分别为3.7、3.4和3.2。这些结果揭示了ChatGPT在胃肠专业中提供有价值见解的潜力（研究：Lahat等人，2023年）。

9. LLM模型在乳腺肿瘤领域的应用如何？它们在乳腺疼痛和癌症筛查方面的准确性如何？ LLM模型如ChatGPT在乳腺疼痛和癌症筛查方面具有潜力。使用ChatGPT模型，对与乳腺疾病相关的问题进行评估，结果显示，它在乳腺癌筛查方面的准确率为88.9%，在乳腺疼痛方面的准确率为58.3%（研究：Rao等人，2023年）。另一个研究评估了ChatGPT在决策乳腺肿瘤方面的表现，发现该模型推荐的结果与专家肿瘤委员会决策一致的概率为70%（研究：Sorin等人，2023年）。

10. LLM模型在精神病学方面的应用如何？它们如何进行精神疾病的评估？ LLM模型如Med-PALM 2在精神病学中具有潜力。通过医学知识的细致评估，模型能够对不同精神疾病进行评估，并根据临床评估的结果生成文字转录。研究发现，Med-PALM 2在预测精神风险时的准确率达到了80%至84%（研究：Galatzer-Levy等人，2023年）。

论文链接：https://arxiv.org/abs/2311.12882.pdf

首页

大规模语言模型在医疗领域的应用概述

概述

重要问题探讨