首页 > 其他分享 >LLM | 面向对话式医疗健康场景的医疗大模型

LLM | 面向对话式医疗健康场景的医疗大模型

时间:2024-08-21 11:27:14浏览次数:18  
标签:场景 医疗 AI 模型 学习 DISC 对话 LLM MedLLM

近日,复旦大学数据智能与社会计算实验室 (Fudan-DISC) 开发并开源了一个专门针对医疗健康对话式场景而设计的医疗领域大模型:DISC-MedLLM。

图片

DISC-MedLLM

DISC-MedLLM 是一个专为医疗健康对话场景而打造的领域大模型,它可以满足您的各种医疗保健需求,包括疾病问诊和治疗方案咨询等,为您提供高质量的健康支持服务。

DISC-MedLLM 有效地对齐了医疗场景下的人类偏好,弥合了通用语言模型输出与真实世界医疗对话之间的差距,这一点在实验结果中有所体现。

图片

得益于以目标为导向的策略,以及基于真实医患对话数据和知识图谱,引入LLM in the loop 和 Human in the loop的多元数据构造机制,DISC-MedLLM 有以下几个特点:

  • • 可靠丰富的专业知识。以医学知识图谱作为信息源,通过采样三元组,并使用通用大模型的语言能力进行对话样本的构造。
  • • 多轮对话的问询能力。以真实咨询对话纪录作为信息源,使用大模型进行对话重建,构建过程中要求模型完全对齐对话中的医学信息。
  • • 对齐人类偏好的回复。病人希望在咨询的过程中获得更丰富的支撑信息和背景知识,但人类医生的回答往往简练;通过人工筛选,构建符合人类偏好的高质量的小规模行为微调样本,对齐病人的需求。

模型效果演示

疾病问诊

图片

治疗方案咨询

图片

数据集

为了训练 DISC-MedLLM ,我们构建了一个高质量的数据集,命名为 DISC-Med-SFT,其中包含了超过47万个衍生于现有的医疗数据集重新构建得到的样本。我们采用了目标导向的策略,通过对于精心选择的几个数据源进行重构来得到SFT数据集。这些数据的作用在于帮助模型学习医疗领域知识,将行为模式与人类偏好对齐,并对齐真实世界在线医疗对话的分布情况。

图片

模型部署

首先,您需要安装项目的依赖环境

pip install -r requirements.txt

利用Hugging Face的transformers模块来进行推理

    >>> import torch
>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> from transformers.generation.utils import GenerationConfig
>>> tokenizer = AutoTokenizer.from_pretrained("Flmc/DISC-MedLLM", use_fast=False, trust_remote_code=True)
>>> model = AutoModelForCausalLM.from_pretrained("Flmc/DISC-MedLLM", device_map="auto", torch_dtype=torch.float16, trust_remote_code=True)
>>> model.generation_config = GenerationConfig.from_pretrained("Flmc/DISC-MedLLM")
>>> messages = []
>>> messages.append({"role": "user", "content": "我感觉自己颈椎非常不舒服,每天睡醒都会头痛"})
>>> response = model.chat(tokenizer, messages)
>>> print(response)

运行命令行Demo

python cli_demo.py

运行网页版Demo

streamlit run web_demo.py --server.port 8888

模型微调

可以使用与模型数据集结构相同的数据对模型进行微调。这里只提供全参数微调的代码:

deepspeed --num_gpus={num_gpus} ./train/train.py --train_args_file ./train/train_args/sft.json

模型评测

包括在单轮QA问题中提供准确答案的能力以及在多轮对话中完成系统性问诊、解决咨询需求的能力。

单轮QA评测

在单轮对话评测中,构建了一个基准测试数据集,其中包含从两个公开医疗数据集中收集的多项选择题,并评估模型回答的准确性。

图片

多轮对话能力评测

对于多轮对话评测,首先构建了一些高质量的诊疗对话案例,然后让 GPT-3.5 扮演这些案例中的患者角色,并与扮演医生角色的模型进行对话。利用 GPT-4 来评估整段每段对话的主动性、准确性, 帮助性和语言质量。

评测基于三个不同的数据集:Chinese Medical Benchmark (CMB-Clin)、Chinese Medical Dialogue Dataset (CMD) 和 Chinese Medical Intent Dataset (CMID),其中 CMB-Clin 模拟了现实世界的问诊过程,而 CMD 和 CMID 则分别着重从科室专业性和用户意图的角度进行评估。

CMB-Clin数据集评测结果:

图片

CMD数据集评测结果:

图片

CMID数据集评测结果:

图片

参考资料

原文信息

DISC-MedLLM: Bridging General Large Language Models and Real-World Medical Consultation

DOI

10.48550/arXiv.2308.14346

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

标签:场景,医疗,AI,模型,学习,DISC,对话,LLM,MedLLM
From: https://blog.csdn.net/python12222_/article/details/141388942

相关文章

  • 大型语言模型(LLMs)的技术革新:问答对生成与优化实践
    1.引言在人工智能领域,大型语言模型(LLMs)正以其强大的自然语言处理能力,为各行各业带来革命性的变化。这些模型,如GPT-3、GPT-4以及Llama2,不仅在文本生成、翻译、摘要等领域展现出卓越的性能,还在问答系统中扮演着至关重要的角色。问答对(Question-Answerpairs,Q&A)的生成是LL......
  • SearXNG与LLM强强联合:打造用户隐私保护的智能搜索解答流程,隐私无忧,搜索无忧
    SearXNG与LLM强强联合:打造用户隐私保护的智能搜索解答流程,隐私无忧,搜索无忧SearXNG是一个免费的互联网元搜索引擎,整合了各种搜索服务的结果。用户不会被跟踪,也不会被分析。github地址:https://github.com/searxng/searxng项目地址:https://docs.searxng.org/公共实例:......
  • 大型语言模型基准测试(LLM Benchmarks):理解语言模型性能
    我们今天来看一下大模型的基准测试,现在很多主流大模型,比如GPT-4、Claude3和GeminiUltra等,对于大模型的测试,因其多功能性和非确定性特性,使得评估它们的性能成为一个挑战。LLM的基准测试提供了一种标准化和严谨的框架,用于衡量这些模型在核心语言处理任务上的表现。理解这些基准......
  • LLM大模型测试策略与方法
    DeepEval是一个用于对语言模型(LLM)应用进行评估和单元测试的框架。它提供了各种指标,可以测试语言模型应用生成的回复在相关性、一致性、无偏见性和无毒性等方面的表现。DeepEval使得机器学习工程师可以通过持续集成/持续交付(CI/CD)流程快速评估语言模型应用的性能。此前分享过一......
  • 几个场景下用flink如何解决的思考
    车辆GPS流和车辆过地磅重量流union,地磅数据最多晚到5天使用allowedLateness(5d)可以让窗户等待5天再关闭。1、第二天flink任务重启了,迟到数据还能处理吗?2、大部分车辆都没有称重数据,如何提前关闭这些窗口,避免过多浪费内存设置allowedLateness(5d)对于没有称重数据的车辆,当......
  • 计算机毕业设计-基于Python+Django的基于知识图谱的医疗问答系统项目开发实战(附源码+
    大家好!我是程序员一帆,感谢您阅读本文,欢迎一键三连哦。......
  • 2024!深入了解 大语言模型(LLM)微调方法
    引言众所周知,大语言模型(LLM)正在飞速发展,各行业都有了自己的大模型。其中,大模型微调技术在此过程中起到了非常关键的作用,它提升了模型的生成效率和适应性,使其能够在多样化的应用场景中发挥更大的价值。那么,今天这篇文章就带大家深入了解大模型微调。其中主要包括什么是大......
  • 多模态大型语言模型(MLLM)综述(非常详细)零基础入门到精通, 收藏这一篇就够了
    ASurveyonMultimodalLargeLanguageModels多模态大型语言模型(MLLM)综述摘要—最近,以GPT-4V为代表的多模态大型语言模型(MLLM)已成为新兴的研究热点,它使用强大的大型语言模型(LLMs)作为“大脑”来执行多模态任务。MLLM出人意料的涌现能力,如基于图像编写故事和无需OCR的数学......
  • 使用对比!SLS 数据加工 SPL 与旧版 DSL 场景对照
    作者:灵圣概述如前一篇《SLS数据加工全面升级,集成SPL语法》所述,SLS数据加工集成了SLS数据处理语法SPL。与旧版本数据加工DSL相比,SPL在处理非结构化数据的场景中,其语法简洁度上有很多提升,比如中间类型保持、字段引用、无缝兼容SQL函数等。这里我们继续讨论在不同的数......