AI与药学：用药咨询场景的检索增强AI大模型

标签：检索 AI 药学模型 RagPULSE LLM

今天我们一起来解读下文献《Tool Calling: Enhancing Medication Consultation via Retrieval-Augmented Large Language Models》（欢迎关注公众号“赛文AI药学”获取更多药学与AI的内容）

核心思想： 这篇论文针对大语言模型（LLMs）在医疗领域，特别是用药咨询场景中，由于缺乏领域知识和难以处理复杂对话历史而导致的信息检索不足问题，提出了一个名为 RagPULSE 的新型检索增强框架。该框架的核心创新在于采用了“工具调用”（Tool Calling）机制，将传统的“检索-阅读”（Retrieve-then-Read）模式改进为“提炼-检索-阅读”（Distill-Retrieve-Read）模式。通过引入新的用药咨询基准数据集 MedicineQA，并结合实验证明，RagPULSE 能够显著提升用药咨询场景下的信息检索准确性和最终回复质量。

主要贡献：

提出了新的用药咨询基准数据集 MedicineQA： 该数据集模拟了真实的用药咨询场景，包含了多轮对话，并要求模型从药物数据库中检索证据进行回答。MedicineQA 的构建基于真实医疗咨询网站的数据，并由专业医生进行筛选和 GPT-4 辅助生成多轮对话，保证了其与现实场景的贴合度和难度。该数据集的发布填补了现有医学领域 LLM 评估基准在知识密集型任务上的空白。
提出了基于“工具调用”的 Distill-Retrieve-Read 框架 RagPULSE： 该框架的核心创新在于利用 LLM 的工具调用能力，将复杂的对话历史提炼成简洁有效的搜索查询，模拟搜索引擎的关键词检索方式。这与传统的直接使用原始查询或黑盒重写查询的方式不同，能够更精准地从外部知识库中检索相关信息。
实验证明 RagPULSE 在用药咨询任务上优于现有模型： 通过在 MedicineQA 数据集上进行实验，RagPULSE 在证据检索的准确率（包括粗粒度的文档级别和细粒度的属性级别）上都显著优于其他开源 LLM 和部分商业产品。同时，利用 Elo 评分系统对生成回复的质量进行评估，RagPULSE 也表现出更强的竞争力，甚至超越了参数规模更大的模型。

方法详解：

MedicineQA 数据集构建：
- 从医疗咨询网站爬取大量对话记录。
- 选取最常被提及的 200 种药物作为关注范围。
- 邀请 5 位认证医生筛选并总结对话，形成关于特定药物的问题。
- 使用 GPT-4 将问题扩展为多轮对话，并由医生人工修订以保证逻辑性和连贯性。
- 构建包含 42764 种药物的实体型药物数据库，每种药物包含品牌名、通用名和详细属性信息。
- 对每个问题标注粗粒度的文档级别检索真值和细粒度的属性级别检索真值。
RagPULSE 框架：
- 工具调用 (Tool Calling)： 指导 LLM 调用搜索引擎工具，生成用于检索的关键词。
- 提炼 (Distill)： LLM 利用工具调用能力，根据对话历史和当前问题，提炼出用于搜索的关键词。为了增强 LLM 的提炼能力，作者构建了一个合成数据集进行微调。
- 检索 (Retrieve)： 使用提炼出的关键词，在药物数据库中进行检索，获取相关证据。数据库采用分层结构存储药物信息，方便检索。
- 阅读 (Read)： 将检索到的证据提供给 LLM，LLM 结合上下文生成最终的回复。

实验结果分析：

指令跟随率： 经过合成数据集微调后，RagPULSE 在理解和执行工具调用指令方面表现出色。
检索准确率： RagPULSE 在粗粒度和细粒度检索上均取得了显著提升，尤其是在参数量较小的模型中，提升幅度更加明显。这表明 Distill-Retrieve-Read 框架能够更有效地从复杂对话历史中提取关键信息进行检索。
回复质量： 通过 Elo 评分系统评估，RagPULSE 的回复质量也优于其他开源模型，甚至在某些情况下与商业产品相媲美。
消融实验： 对比使用完整对话历史、仅使用最后问题以及不使用工具调用的情况，进一步验证了 Distill-Retrieve-Read 框架中提炼环节的重要性。

赛文AI药学对该文献评论如下：

这篇论文的研究具有重要的学术价值和应用潜力。作者敏锐地捕捉到当前 LLM 在医疗领域知识密集型任务中的局限性，并针对用药咨询这一具体场景提出了创新的解决方案。

优点：

问题定义明确且具有现实意义： 用药咨询是医疗领域一个重要的知识密集型任务，解决该场景下的 LLM 应用问题具有实际意义。
提出的 RagPULSE 框架具有创新性： 将“工具调用”机制引入 RAG 框架，并提出 Distill-Retrieve-Read 模式，有效地解决了传统 RAG 在处理复杂对话历史时的信息检索难题。
MedicineQA 数据集的贡献突出： 该数据集的构建过程严谨，贴合实际应用场景，为评估和改进医疗领域 LLM 提供了宝贵资源。
实验设计充分且结果具有说服力： 对比多种基线模型和消融实验，有效地验证了 RagPULSE 框架的有效性。
关注实际应用： 论文将研究目标聚焦于解决实际问题，并取得了令人鼓舞的成果，为 LLM 在医疗领域的落地应用提供了新的思路。

潜在的改进方向和思考：

MedicineQA 数据集的扩展： 虽然 MedicineQA 具有较高的质量，但目前的数据量相对有限，可以进一步扩大数据集的规模和覆盖范围，例如涵盖更多种类的药物和更复杂的咨询场景。
工具调用机制的进一步优化： 目前工具调用的实现方式相对简单，可以探索更智能的工具调用策略，例如根据不同的咨询阶段和问题类型选择不同的检索工具或知识源。
LLM 的选择和微调： 论文选择了 PULSE 模型进行实验，可以尝试将 RagPULSE 框架应用于其他 LLM，并探索更有效的微调策略，以进一步提升性能。
考虑用户交互和信任问题： 未来的研究可以关注如何将 RagPULSE 集成到实际的用药咨询系统中，并考虑用户交互、模型解释性和用户信任等问题。
伦理考量： 在医疗领域应用 LLM 需要高度关注伦理问题，例如数据隐私、模型偏见和医疗建议的准确性等，未来的研究需要更加重视这些方面的考量。

总而言之，这篇论文通过提出 RagPULSE 框架和 MedicineQA 数据集，为利用 LLM 增强用药咨询服务做出了重要贡献。Distill-Retrieve-Read 模式和“工具调用”机制的引入为解决 LLM 在知识密集型任务中的信息检索问题提供了新的视角。尽管仍有改进空间，但这项研究无疑是推动 LLM 在医疗领域应用的重要一步，并为未来的研究方向提供了有益的启示。

往期内容荐读：

数智药学的崛起：人工智能赋能药学新未来

数智药师：AI时代药学服务的引领者

智能决策助力药物安全：大模型在临床处方审核中的突破

数字人技术在药学服务中的应用

药师必备：掌握AI，引领药学服务新时代

LEADER - 大模型蒸馏的药物推荐模型

李新刚：《医院药学的创新引擎：ChatGPT的应用与思考》

ChatGPT 在临床药学中的有效性以及人工智能在药物治疗管理中的作用

评估大语言模型在药物基因组学问答任务中的表现：PGxQA

DDI-GPT：使用知识图谱增强的大模型对药物相互作用进行可解释的预测

生成式AI：药学科普的新引擎