正文:
【新华社讯】近日,上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队,在 arXiv 预印平台发布了一篇题为《Towards Evaluating and Building Versatile Large Language Models for Medicine》的研究文章。该研究从数据、测评、模型等多个角度全面分析了临床医学大语言模型的应用,并发布了大规模指令微调数据、开源模型与全面基准测试。
研究指出,尽管近年来大型语言模型(LLM)在医疗领域取得了一定的成果,但在实际临床场景中的应用仍面临诸多挑战。主要问题集中在模型在处理基本医学知识方面的不足,如解读 ICD 编码、预测临床程序以及解析电子健康记录(EHR)数据时的误差。
为了解决这一问题,研究团队提出了一个新的评估基准 MedS-Bench,该基准不仅包括多项选择题,还涵盖了临床报告摘要、治疗建议、诊断和命名实体识别等 11 项高级临床任务。通过这一基准,研究团队对多个主流医疗模型进行了评估,发现即便是使用了 few-shot prompting 的先进模型,如 GPT-4 和 Claude 等,在处理这些复杂的临床任务时也面临困难。
为了提高医学大语言模型在实际临床场景中的能力,研究团队构建了首个全面的医学指令微调数据集 MedS-Ins。该数据集整合了来自考试、临床文本、学术论文、医学知识库及日常对话的 58 个生物医学文本数据集,包含超过 1350 万个样本,涵盖了 122 个临床任务。
基于 MedS-Ins 数据集,研究团队对开源医学语言模型进行了指令调整,并开发了医学大语言模型 MMedIns-Llama 3。该模型在多种临床任务中的表现超过了现有的领先闭源模型,如 GPT-4 和 Claude-3.5。
这一研究成果标志着我国在医疗大模型领域的重要进展,有助于推动医学语言模型在实际临床场景中的应用,为未来临床实践中的人工智能应用提供了新的可能性。
所有数据和代码、模型均已开源,可通过以下链接访问:
– GitHub: https://github.com/MAGIC-AI4Med/MedS-Ins
– 论文链接: https://arxiv.org/abs/2408.12547
– 排行榜: https://henrychur.github.io/MedS-Bench/
【编辑/ScienceAI】
Views: 0