Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

正文:

【新华社讯】近日,上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队,在 arXiv 预印平台发布了一篇题为《Towards Evaluating and Building Versatile Large Language Models for Medicine》的研究文章。该研究从数据、测评、模型等多个角度全面分析了临床医学大语言模型的应用,并发布了大规模指令微调数据、开源模型与全面基准测试。

研究指出,尽管近年来大型语言模型(LLM)在医疗领域取得了一定的成果,但在实际临床场景中的应用仍面临诸多挑战。主要问题集中在模型在处理基本医学知识方面的不足,如解读 ICD 编码、预测临床程序以及解析电子健康记录(EHR)数据时的误差。

为了解决这一问题,研究团队提出了一个新的评估基准 MedS-Bench,该基准不仅包括多项选择题,还涵盖了临床报告摘要、治疗建议、诊断和命名实体识别等 11 项高级临床任务。通过这一基准,研究团队对多个主流医疗模型进行了评估,发现即便是使用了 few-shot prompting 的先进模型,如 GPT-4 和 Claude 等,在处理这些复杂的临床任务时也面临困难。

为了提高医学大语言模型在实际临床场景中的能力,研究团队构建了首个全面的医学指令微调数据集 MedS-Ins。该数据集整合了来自考试、临床文本、学术论文、医学知识库及日常对话的 58 个生物医学文本数据集,包含超过 1350 万个样本,涵盖了 122 个临床任务。

基于 MedS-Ins 数据集,研究团队对开源医学语言模型进行了指令调整,并开发了医学大语言模型 MMedIns-Llama 3。该模型在多种临床任务中的表现超过了现有的领先闭源模型,如 GPT-4 和 Claude-3.5。

这一研究成果标志着我国在医疗大模型领域的重要进展,有助于推动医学语言模型在实际临床场景中的应用,为未来临床实践中的人工智能应用提供了新的可能性。

所有数据和代码、模型均已开源,可通过以下链接访问:
– GitHub: https://github.com/MAGIC-AI4Med/MedS-Ins
– 论文链接: https://arxiv.org/abs/2408.12547
– 排行榜: https://henrychur.github.io/MedS-Bench/

【编辑/ScienceAI】


read more

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注