最近在LLM领域大放异彩的强化学习，给医学图像处理带来的启发｜个人观点·25-01-08

小罗碎碎念

应用于医学图像的模型，往往会落后于纯计算机视觉领域的模型，但是现在这个差距正在急剧缩小。

昨晚睡觉前刷到了这么一篇推送，介绍了目前最新的一个国产AI开源项目——用更少的钱和资源办成了更大的事，大致看了一下，这个模型使用的方法是强化学习，而不是传统的知识蒸馏以及模仿学习。

摘自：https://mp.weixin.qq.com/s/6xGd7dBUg-BCzkTyMkAXFg

这篇推送让我产生了两个疑问——强化学习在医学AI领域的应用情况如何？强化学习与其他方法的竞争力如何？通过粗糙的一个文献检索，可以大致回答上面的两个问题，我们会发现Transformer的热度正在翻倍增长，看目前的趋势还有一波涨幅，但是这一领域已经很难再出现大的创新点，于是大家开始把目光转向其他的模型——例如强化学习和图神经网络。

如需获取详细的表格，请前往知识星球

图神经网络之前已经有推送分析过，这里不再介绍，这期推送的主角是强化学习，所以下面我们单独看看强化学习的发文趋势。

如需获取详细的表格，请前往知识星球

方向已经和大家指明了，这时候又会有新的疑问了——我没有强化学习的基础，不会搭建模型怎么办？有没有入门的资料？

为了解决上面的这两个问题，我特意去找了近几年发表的强化学习相关的书籍，既有理论介绍，也有代码梳理，感兴趣的自取！

如需获取书籍pdf版本，请前往知识星球【入门书籍】专栏

除此以外，我还挑选了三篇经典的文献和大家分享，方便大家快速了解强化学习的具体应用场景。

文献速览

第一篇文章提出了一种基于强化学习的 KE - BUV 框架，用于从乳腺超声视频中自动提取关键帧，该框架包含检测 - 结节过滤模块和新颖奖励机制，并设计了组感知焦点损失来处理类别不平衡问题，实验结果表明其在多种指标上优于现有方法，且生成的关键帧集有助于医生诊断。

第二篇文章提出基于强化学习的 Tempo 框架用于个性化乳腺癌筛查，经实验验证，其结合 Mirai 风险模型的策略在多数据集表现优异，可优化筛查政策，但也存在一定局限性，未来研究有多个改进方向。

第三篇文章提出一种基于强化学习的皮肤癌诊断 AI 决策支持模型，通过专家奖励表融入人类偏好，提升了模型诊断敏感性、减少 AI 过自信、优化医生决策，在不同场景下表现出优势，为临床决策优化提供可能。

知识星球

如需获取推文中提及的各种资料，欢迎加入我的知识星球！

一、深度强化学习在乳腺超声视频关键帧提取中的应用

一作&通讯

作者类型	姓名	单位
第一作者	Ruobing Huang	深圳大学健康科学中心生物医学工程学院医学超声图像计算实验室
通讯作者	Jiayi Wu	中山大学孙逸仙纪念医院超声科
通讯作者	Baoming Luo	中山大学孙逸仙纪念医院超声科
通讯作者	Dong Ni	深圳大学健康科学中心生物医学工程学院医学超声图像计算实验室

文献概述

文章提出了一种基于强化学习的框架，用于从乳房超声视频中自动提取关键帧，以辅助医生进行诊断。该框架通过结合检测模块和奖励机制，能够有效筛选关键帧，提高诊断准确性。

研究背景

乳腺癌筛查的重要性：乳腺癌是全球常见癌症，早期诊断对治疗和生存率至关重要，超声在乳腺癌诊断中具有重要作用，尤其是对致密型乳腺。
关键帧提取的必要性：超声检查中准确识别和诊断病变需要专业知识，现有计算机辅助诊断工具常忽视关键帧选择，且病变在扫描中形状、大小和位置多变，其诊断特征识别具有挑战性且面临类别不平衡问题。

研究方法

总体框架（KE - BUV）：模拟超声医生检查行为，将检测、分类和帧提取任务整合于RL模型。原始视频经检测 - 结节过滤（DNF）模块去除无关内容，生成过滤后视频。框架将帧提取视为顺序决策过程，通过代理、动作、状态和奖励等元素实现，代理根据奖励信号学习最优策略，奖励机制综合考虑专家注释、结节存在和恶性指标等因素。
检测 - 结节过滤模块（DNF）：针对乳腺超声视频信息量大、冗余多、长度不一等问题，采用基于检测的结节过滤模块。该模块利用预训练Yolo模型检测二维帧中的病变，通过双级滤波（窗口级和视频级）处理不稳定预测，去除无关信息，生成固定长度的过滤后视频，为后续关键帧提取聚焦相关区域。
属性分类网络（ACN）与组感知焦点损失（GAFL）：为考虑关键帧中恶性指标的可视化，训练ACN识别8种与恶性相关的超声属性。针对多标签分类中的类别不平衡问题，提出GAFL损失，通过解耦多数类和少数类的优化，调整正负样本权重，减少简单样本影响，提升网络对不平衡数据的处理能力。

数据集

视频数据集来自多所医院的653名患者，包含2606个乳腺病变视频，由经验丰富的超声医生标注关键帧、病变边界框及临床属性，活检结果作为病变恶性的真实标签，数据集按患者水平划分为训练、验证和测试集。

研究结论

提出的关键帧提取框架适用于乳腺病变超声视频，利用强化学习协调多任务学习，通过双级滤波和组感知焦点损失提升性能，实验证明其优于现有算法，自动生成的关键帧集对医生诊断有帮助，未来可应用于其他器官超声视频分析或自动全乳腺超声检查（需适配3D图像处理）。

KE - BUV框架示意图

这张图展示了所提出的KE - BUV框架的示意图。

整体流程

原始视频 V o V^o Vo首先由DNF（Detection - based Nodule Filtering，基于检测的结节过滤）模块处理，过滤掉不相关的内容，得到 V f V^f Vf并提供 R d e t R_{det} Rdet奖励。
然后 V f V^f Vf被传递给代理（Agent），代理为每一帧做出合适的动作 A = { a i ∣ a i ∈ { 0 , 1 } } 1 N f A = \{a_i | a_i \in \{0,1\}\}_{1}^{N^f} A={ai∣ai∈{0,1}}1Nf。
被选中的帧构成最终的关键帧集合 { v k e y } \{v_{key}\} {vkey}。代理通过联合考虑专家注释 R a n n o R_{anno} Ranno、结节存在 R d e t R_{det} Rdet和恶性指标 R a t t r R_{attr} Rattr的奖励信号进行训练。

各模块详细信息

Detection - based Nodule Filtering（基于检测的结节过滤）：
- 原始视频 V o V^o Vo经过双级过滤（Dual - level Filtering），得到过滤后的检测结果 V f V^f Vf，其中包含结节的边界框（bbox1、bbox2、bbox3等）和相关信息（c1、c2、c3等）。
Attributes Classification Network（属性分类网络）：
- 对过滤后的视频 V f V^f Vf进行特征提取（Feature Extraction），然后用于分类网络，识别多种与乳腺病变相关的属性，如恶性（Malignant）、不规则（Irregular）、非平行（Non - parallel）、无限制（Non - restricted）、模糊（Indistinct）、有角度（Angular）、微叶状（Microlobulated）、毛刺状（Spiculated）、钙化（Calcification）等。
Keyframe Extraction（关键帧提取）：
- 使用C3D模型对视频进行处理，得到特征 F f F^f Ff。
- 这些特征通过LSTM（长短期记忆网络）进行处理，生成一系列概率值 p 1 p_1 p1、 p 2 p_2 p2、…、 p N f p_{N^f} pNf。
- 根据这些概率值确定动作 A A A，从而从视频 V f V^f Vf中提取出关键帧集合 { v k e y } \{v_{key}\} {vkey}，关键帧用红色突出显示。
Rewards（奖励机制）：
- 奖励机制由三个部分组成： R d e t R_{det} Rdet（检测奖励）、 R a t t r R_{attr} Rattr（属性奖励）和 R a n n o R_{anno} Ranno（注释奖励），它们共同构成总奖励 R t o t a l R_{total} Rtotal，用于指导关键帧提取过程。

该框架旨在通过结合检测、分类和强化学习等技术，自动从乳腺超声视频中提取关键帧，辅助医生进行更高效、准确的诊断。

二、乳腺癌筛查：强化学习助力提升效率与精准度

一作&通讯

作者类型	姓名	单位
第一作者	Adam Yala	美国麻省理工学院电气工程与计算机科学系、麻省理工学院贾米尔诊所
通讯作者	Adam Yala	美国麻省理工学院电气工程与计算机科学系、麻省理工学院贾米尔诊所

文献概述

该文章提出了一种基于强化学习的个性化乳腺癌筛查框架Tempo，结合基于图像的人工智能风险模型Mirai，能有效提高筛查效率，实现早期检测与过度筛查间的更好平衡，有望优化筛查方案，为乳腺癌筛查提供新策略。

研究背景

筛查现状与问题：早期检测对多种疾病（如乳腺癌）的治疗至关重要，推动了大规模筛查项目开展，但筛查需平衡早期检测效益与过度筛查成本，当前风险评估模型和筛查方案个性化程度有限，制约了筛查效果。
AI风险模型的潜力：AI驱动的风险模型可处理原始患者数据（如影像），检测复杂依赖关系，预测能力更强且随患者数据变化，但筛查方案需灵活调整以适应风险变化。

研究方法

算法概述

问题转化与算法应用：将乳腺癌筛查视为序贯决策任务，用马尔可夫决策过程建模，通过强化学习（RL）算法制定筛查策略，以最大化早期检测效益并最小化筛查成本。
Tempo框架：包含风险进展神经网络（预测未来风险）和筛查策略网络（根据风险评估和筛查偏好输出随访建议），奖励函数平衡成像成本和早期检测效益，通过回顾性患者轨迹训练筛查策略。

实验设置

数据集：使用麻省总医院（MGH）数据集训练Tempo，含多例患者的检查数据及Mirai和TCv8风险评估；在埃默里大学、卡罗林斯卡学院和长庚纪念医院数据集上验证，仅用后三者数据集进行留出测试，各数据集患者特征不同。
对比策略：比较Tempo - Mirai与现有筛查指南（年度、 biennial、USPSTF）及基于不同风险模型和学习方法的策略（Tempo - TCv8、Supervised - Mirai、Supervised - TCv8），评估指标包括筛查成本（平均每年推荐的乳腺X线摄影数量）、早期检测效益（相对于历史筛查的月数）和效率（早期检测效益与筛查成本之比）。

研究结果

评估个性化筛查策略

总体性能：在MGH测试集上，Tempo - Mirai效率显著高于其他策略，早期检测效益更高且筛查次数合理；在其他测试集上也表现优异，能适应不同筛查偏好，推荐频率更个性化。
跨数据集比较：不同数据集上早期检测效益和推荐筛查量有差异，与筛查率和癌症发病率有关，Tempo - Mirai在各数据集上表现稳健，不同医院可通过调整操作点实现相同平均筛查量。

亚组分析：在埃默里测试集按种族、MGH测试集按年龄和乳腺密度分组分析，Tempo - Mirai在各亚组中均表现出较高效率。

稳健性分析：改变早期检测效益假设（6 - 24个月），Tempo - Mirai在各数据集和假设下均比年度筛查更有效，结果稳健。

研究结论

成果总结：Tempo框架基于强化学习，能根据患者风险评估制定个性化筛查策略，结合Mirai风险模型的Tempo - Mirai策略高效，可适应不同筛查偏好，基于更准确风险模型的策略表现更好，且在不同数据集上具有泛化能力，结果对早期检测效益假设稳健。
临床应用前景：筛查策略可在收集Mirai风险评估的诊所实施，帮助临床医生根据需求调整筛查策略，减少筛查量或提高早期检测率，改善乳腺癌筛查效果。
研究局限性：早期检测指标假设和筛查成本指标不够完善，模拟未考虑筛查敏感性和患者延迟诊断风险，Tempo - Mirai受Mirai模型局限，且需前瞻性试验评估临床效果。

未来研究方向

改进筛查算法：直接输入患者丰富信息进行端到端学习，扩展动作空间纳入不同筛查方式，根据改进的筛查策略重新计算最佳筛查年龄范围。
优化框架应用：Tempo框架可应用于其他疾病和风险模型，考虑癌症结局差异、早期检测效益定义和筛查成本因素，提高框架实用性。

关于“Tempo”的概述

图中展示了一个流程：

首先，在时间点(t = 0)进行“风险评估（Risk assessment）”，这是Tempo策略的输入，例如来自Mirai的风险评估。
然后，Tempo策略根据风险评估输出一个推荐的随访时间，如未来(k)年（Follow-up time = k）。
如果在时间步(k)没有可用的风险评估，就使用“风险进展网络（Risk progression network）”来估计缺失的风险评估。
到了时间点(t = k)，再次进行风险评估，然后重复上述过程。

整体来说，该图展示了Tempo策略如何基于风险评估来确定随访时间，并在必要时通过风险进展网络估计缺失的风险评估，以实现一个循环的流程，用于优化相关的决策或管理过程。

三、基于强化学习的皮肤癌诊断决策支持模型研究

一作&通讯

角色	姓名	单位
第一作者（共同第一作者）	Catarina Barata	葡萄牙里斯本高等理工学院系统与机器人研究所（Institute for Systems and Robotics, LARSyS, Instituto Superior Técnico, Lisbon, Portugal）
第一作者（共同第一作者）	Veronica Rotemberg	美国纽约纪念斯隆凯特琳癌症中心皮肤科（Dermatology Service, Memorial Sloan Kettering Cancer Center, New York, NY, USA）
通讯作者	Harald Kittler	奥地利维也纳医科大学皮肤科（Department of Dermatology, Medical University of Vienna, Vienna, Austria）

文献概述

这篇文章提出一种基于强化学习的模型，用于改进皮肤癌诊断中人工智能决策支持系统，通过融入专家制定的奖励表来体现人类偏好，提高了模型对黑色素瘤和基底细胞癌的诊断敏感性，减少了人工智能的过度自信，提升了皮肤科医生的诊断准确率和管理决策的优化率。

研究背景

AI诊断现状：基于人工智能的诊断方法在诊断成像领域准确性高，但评估仅基于敏感性不够，需考虑特异性及人类偏好（医生和患者对临床结果相对价值的判断），目前AI训练常忽略人类偏好。
强化学习应用潜力：诊断程序可视为顺序决策任务，强化学习可在考虑临床医生和患者偏好的同时最大化累积奖励，本研究以皮肤癌诊断为例测试其效用。

研究方法

数据与模型

使用公开的包含多种皮肤病变图像的HAM10000数据集训练监督学习（SL）模型，以最小化类频率加权交叉熵损失为目标，输出多类诊断概率，其外部有效性在独立测试集上验证。
强化学习（RL）模型采用深度Q学习，以SL模型的多类概率和特征向量组合为初始状态，使用皮肤科医生生成的奖励表，根据诊断正确性给予不同奖励和惩罚。

实验设置

RL模型预测每个可能行动的Q值，行动空间根据场景不同包括选择诊断或管理选项，采用探索 - 利用策略、回放缓冲区和目标Q网络训练，使用Huber损失函数和Adam优化器更新权重，添加随机失活层，调整超参数以优化模型，在不同场景下设置不同的更新率和探索率，患者为中心的模型根据患者病变情况调整。
使用ISIC 2018挑战测试集进行读者研究和模型外部验证，确保皮肤类型多样性，患者中心场景使用特定患者的皮肤镜图像数据集。
招募皮肤科医生通过网络平台DermaChallenge参与读者研究，要求注册并提供基本信息，任务是在有无AI决策支持下诊断测试图像并确定管理策略，图像随机分组呈现，可重复测试，研究持续时间为2022年11月17日至2023年2月2日。

研究结果

模型性能对比

RL模型在保持高平均准确率（79.2%）的同时，显著提高了黑色素瘤（从61.4%提高到79.5%）和基底细胞 carcinoma（从79.4%提高到87.1%）的敏感性，增加了诊断正确的比例，提升了管理决策的优化率（从57.4%提高到65.3%）。
RL模型增加了预测的熵（不确定性），降低了AI预测的过度自信，对黑色素瘤正确预测时不确定性降低。

不同场景下模型比较

二元场景：将数据分为恶性和良性两类，考虑“切除”或“不处理”两种治疗选项，阈值调整的SL模型和基于奖励的RL模型使操作点更接近真阳性率（TPR）增加的区域，RL模型的TPR为88.0%，阈值调整的SL模型为88.9%，朴素方法为78.2%，两者差异不显著（P = 0.11）。
多类场景：考虑所有七种诊断并添加“局部治疗”选项，阈值和奖励基于模型在增加最优管理决策频率和防止恶性病变管理不善方面优于朴素模型，在307个需要治疗的恶性病例中，朴素方法管理不善率为21.8%，RL模型为13.4%，阈值调整的SL模型为5.2%（P < 0.0001）。
患者为中心场景：针对高危个体多痣监测情况，RL模型在去除和监测黑色素瘤方面表现优于其他模型，去除61.8%的黑色素瘤并监测20%，同时4.4%的患者有超过3个良性病变被切除，大量良性病变（41.6%）被监测，符合专家临床实践策略。

研究结论

整合人类偏好（以专家奖励表形式）可提升AI决策支持系统性能，体现在系统独立性能和与皮肤科医生协作能力上，有助于优化复杂临床场景中的管理决策。
RL模型可作为阈值方法的替代，在复杂临床场景中创建定制方法，但需更多研究评估患者和提供者满意度，以充分挖掘其潜力，未来可由医生和患者共同制定奖励表，提高AI决策支持工具的接受度。

模型与读者研究结果对比

图a

用于训练强化学习（RL）模型的专家生成奖励表，行表示真实情况，列表示预测结果。

例如，当真实情况为黑色素瘤（MEL）且预测也为黑色素瘤时，奖励为5；当真实情况为黑色素瘤但预测为基底细胞癌（BCC）时，奖励为-3，以此类推。

不同颜色代表不同类别，红色表示恶性（Malignant），黄色表示癌前病变（Precancerous），绿色表示良性（Benign）。

图b和图c

使用相同测试集（n = 1511）的监督学习（SL）模型（图b）和RL模型（图c）的混淆矩阵，行表示真实情况，列表示预测结果，比例通过行总和进行归一化（其中黑色素瘤MEL：n = 171；基底细胞癌BCC：n = 93；非典型角质形成细胞增生AKIEC：n = 43；良性角化病BKL：n = 217；痣NV：n = 908；皮肤纤维瘤DF：n = 44；血管病变VASC：n = 35）。

在图b中，例如真实情况为黑色素瘤时，被预测为黑色素瘤的比例为0.61，被预测为基底细胞癌的比例为0.02等。

在图c中，同样以黑色素瘤为例，被预测为黑色素瘤的比例为0.80，被预测为基底细胞癌的比例为0.03等。通过对比这两个混淆矩阵，可以看出RL模型在某些类别上的预测准确性相较于SL模型有所提高，例如黑色素瘤和基底细胞癌等。

标签：25,01,关键帧,08,Tempo,学习,奖励,筛查,模型
From： https://blog.csdn.net/qq_45404805/article/details/144999324

最近在LLM领域大放异彩的强化学习，给医学图像处理带来的启发｜个人观点·25-01-08

小罗碎碎念

一、深度强化学习在乳腺超声视频关键帧提取中的应用

文献概述

KE - BUV框架示意图

二、乳腺癌筛查：强化学习助力提升效率与精准度

文献概述

关于“Tempo”的概述

三、基于强化学习的皮肤癌诊断决策支持模型研究

文献概述

模型与读者研究结果对比

相关文章

赞助商

阅读排行