AI与药学 | Med-Pal：轻量级大型语言模型在药物咨询领域的应用

标签：Med AI 药学模型 LLM Pal 轻量级

随着新冠疫情的催化，数字医疗正以前所未有的速度发展，传统的面对面医疗服务模式逐渐向线上转移。数字健康工具的普及提升了患者的健康素养，也为医护人员带来了更沉重的文书工作和认知负担。大型语言模型 (LLMs) 的出现，为解决这一矛盾提供了新的可能。LLMs 在经过优化后，有望成为总结临床文件、回答患者咨询的得力助手，从而促进以患者为中心的护理模式，提高医疗效率。（关注公众号“赛文AI药学”，获取更多AI与药学的内容）

然而，将通用型 LLM 直接应用于临床实践还面临诸多挑战，例如：回复缺乏一致性、存在偏见、事实准确性欠佳等问题。为了提升 LLM 在医疗领域的应用价值，研究人员开发了多种方法，包括使用生物医学领域知识或电子健康记录预训练 LLM (例如 Med-Palm-2、GatorTron)，使用精选数据集对 LLM 进行微调，或使用检索增强生成 (RAG) 技术为 LLM 提供医学领域知识。

尽管如此，在实际部署基于 LLM 的医疗聊天机器人时，还需要考虑长期可扩展性、健康公平性、数据安全、成本效益、计算效率、推理速度以及跨平台访问等问题。特别是对于网络连接受限的地区，能够在设备本地运行的轻量级 LLM 更具优势，有助于减轻与数字连接相关的健康差距，并降低数据隐私风险。

Med-Pal：专为药物咨询而生的轻量级 LLM 聊天机器人

本文介绍了一款名为 Med-Pal 的轻量级、特定领域的 LLM 聊天机器人，它专注于药物咨询领域，旨在为患者提供安全、可靠、易于理解的药物信息。该研究详细阐述了 Med-Pal 的全面开发、临床评估和对抗性提示框架，并将其性能与最先进的预训练轻量级生物医学 LLM (Biomistral) 和微调医疗 LLM (Meerkat) 进行了基准测试。

Med-Pal 的构建：精益求精，打造专业可靠的 AI 药剂师

Med-Pal 的开发团队深知医疗领域应用的特殊性和重要性，因此采用了严谨的三阶段开发流程，确保模型的专业性和安全性：

第一阶段：数据为王，精选模型

专家构建，精细数据集： 团队精心构建了一个包含 1100 个问答对的细粒度训练数据集。该数据集涵盖了新加坡健康服务系统内住院和门诊亚专科诊所最常用的 110 种药物，覆盖了 14 种不同的解剖治疗分类 (ATC) 和 12 个广泛的药物咨询领域，例如药物管理、不良反应、禁忌症、剂量方案、药物相互作用等。每个问答对均由拥有超过 10 年经验的注册临床药剂师创建，确保了数据的专业性和权威性。
多模型微调，择优选取： 研究团队选择了五个开源 LLM (Llama-7b、Falcon-7b、Mistral-7b、Danube-1.8b 和 TinyLlama-1.1b) 进行微调，并采用了一致的超参数配置，以确保公平比较。通过在验证集上的表现评估，Mistral-7b 以其最高的总分和在安全性和准确性方面的优异表现脱颖而出，被选为 Med-Pal 的基础模型。

第二阶段：严格测试，验证性能

多学科评估，客观公正： 团队邀请了一个由注册医师、药剂师和护士组成的 8 人多学科团队，对 Med-Pal (微调后的 Mistral-7b) 与 BioMistral 和 Meerkat 进行比较评估。评估采用 SCORE 标准，从安全性、临床准确性、客观性、可重复性和易于理解五个方面衡量聊天机器人的性能。
性能卓越，媲美先进模型： 测试结果表明，Med-Pal 的性能与 BioMistral 和 Meerkat 相当，在中位数总分上三组之间存在显著差异。Med-Pal 和 Meerkat 的总体性能均优于 BioMistral，而 Med-Pal 和 Meerkat 的总体性能在统计上没有差异。这证明了针对特定任务微调通用 LLM 的有效性。

第三阶段：多重防护，安全保障

对抗性提示，攻防演练： 为了确保 Med-Pal 的安全性，团队设计了各种对抗性提示，例如提示注入、越狱、提示泄漏等，并对 Med-Pal 进行了测试。测试结果表明，Med-Pal 能够对这些恶意提示做出适当的回应，有效避免了信息泄露和误导性信息的产生。
层层把关，安全至上： 研究团队还利用 "llm-guard" 库实施了复杂的防护栏机制，包括先发制人的内容准则和双层扫描方法，对不当或有害的医疗建议进行过滤。这种有条不紊的方法不仅可以保护用户免受不准确或危险的建议的侵害，还可以强调在医疗健康领域应用 AI 的道德标准。

Med-Pal 的优势：轻量化、专业化、安全化

轻量级部署，普惠医疗： Med-Pal 基于 70 亿参数的轻量级模型，对计算资源的需求较低，可以部署在智能手机等边缘设备上。这使得 Med-Pal 可以在互联网连接受限的地区 (例如低收入和中等收入国家/地区) 正常工作，有助于弥合数字鸿沟，促进健康公平性。
专业知识，精准解答： 通过专家构建的药物咨询数据集的微调，Med-Pal 掌握了丰富的药物知识，能够针对各种药物相关问题提供专业的解答。
严格评估，安全可靠： 经过多学科临床专家团队的评估和对抗性提示测试，Med-Pal 的安全性、临床准确性和客观性得到了充分验证。
用户友好，易于理解： Med-Pal 的回复简洁明了，避免使用复杂的医学术语，并根据用户的理解水平进行调整，确保信息的可理解性。

Med-Pal 的意义：推动数字医疗的创新与发展

Med-Pal 的开发是轻量级 LLM 在医疗领域应用的重要里程碑。它不仅为患者提供了一个便捷、可靠的药物信息获取途径，也为医疗专业人员减轻了工作负担。更重要的是，Med-Pal 的轻量级特性使其能够在资源受限地区发挥重要作用，推动数字医疗的普及，让更多人享受到 AI 技术带来的便利。

未来展望：持续改进，精益求精

尽管 Med-Pal 已经展现出强大的潜力，但仍需进一步的严格评估和改进。未来的工作将包括：

扩展数据集： 不断扩充和更新训练数据集，涵盖更广泛的药物和问题类型。
增强可重复性： 改进模型架构和训练方法，提高模型回复的可重复性。
引入伦理评估： 采用特定于伦理的评估清单，确保模型输出的公平性和一致性。
持续质量改进： 建立持续的质量改进和模型管理机制，解决模型偏差和模型漂移等问题。
用户反馈机制： 引入用户反馈机制，收集用户对聊天机器人回复的意见和建议，进一步提升 Med-Pal 的可用性。

Med-Pal 作为一款专为药物咨询而生的轻量级 LLM 聊天机器人，展现了 AI 技术在医疗领域的巨大潜力。它以其轻量化、专业化、安全化的特点，为构建更加智能、便捷、公平的医疗健康体系贡献了重要力量。相信在不久的将来，像 Med-Pal 这样的 AI 助手将成为我们日常生活中不可或缺的一部分，为我们的健康保驾护航。

关键词: 大型语言模型 (LLM)，轻量级模型，药物咨询，数字医疗，人工智能，医疗聊天机器人，微调，检索增强生成 (RAG)，临床应用，数据安全，健康公平性

往期内容荐读：

数智药学的崛起：人工智能赋能药学新未来

数智药师：AI时代药学服务的引领者

智能决策助力药物安全：大模型在临床处方审核中的突破

数字人技术在药学服务中的应用

药师必备：掌握AI，引领药学服务新时代

LEADER - 大模型蒸馏的药物推荐模型

李新刚：《医院药学的创新引擎：ChatGPT的应用与思考》

ChatGPT 在临床药学中的有效性以及人工智能在药物治疗管理中的作用

评估大语言模型在药物基因组学问答任务中的表现：PGxQA

DDI-GPT：使用知识图谱增强的大模型对药物相互作用进行可解释的预测