文献阅读笔记|合成医学图像数据综述|Generating Synthetic Data for Medical Imaging

标签：Synthetic 模态 Generating Data 合成生成图像数据模型

论文链接：https://doi.org/10.1148/radiol.232471
论文信息：Generating Synthetic Data for Medical Imaging，综述，2023年9月14日投稿，2024年3月1日接收，2024年9月10日发表于Radiology
蓝色字体标注对我而言的新知识

绪论
- 需求决定合成数据的应用
- 合成数据应具备的特点
合成图像的应用
关于合成医学的limitations&concerns
合成图像的技术

绪论

需求决定合成数据的应用

1、扩充AI模型的训练数据集，解决数据量小以及分布不平衡的问题
2、在保护隐私的同时实现数据共享
3、更多拓展的应用：模态内/跨模态合成、造影增强图像合成、AI可解释性、合成图像用于医生培训

合成数据应具备的特点

1、真实，与源数据集相似
2、多样，防止Mode collapse
2、安全，不泄露个人隐私
3、有用，能在下游应用中有效（部分）替代真实数据

合成图像的应用

1、扩充数据集

介绍了已有研究

下游任务以两大类为主：分类、分割

介绍了合成图像的评估方法

（1）读者试验
（2）经典量化指标IS、FID：缺点在于1-不能分辨和量化图像生成的各种失败；2-只能在一组图像上计算，限制了对单个图像的评估；3-基于Inception V3，这是在ImageNet上预训练的，是否适用于医学图像是待评估的；4-这两个指标本身在自然图像上就有一堆问题，特别是IS（第3-4点论文里没讲，但我觉得很重要）
（3）新指标：α精度、β召回率、真实性——见原论文中参考文献26——可检测和定量图像合成的不同失败模式，可评估单个图像上。但缺乏针对医学图像的探索
（4）应用于下游任务的表现
——————以下是设想——————
（5）构建domain-specific bench mark datasets：便于有效比较各种生成模型的表现
（6）human-in-the-loop：让医生介入图像的合成，使得AI模型能够从医生那里学习到domain knowledge以提升模型表现（有点类似于强化学习的思路？）

2、数据共享和去识别化

合成数据的在此应用的意义

合成数据比真实数据更易于分享，但是生成模型并不能保证完全的隐私保护，需要开发方法去最小化隐私泄露的风险

合成数据使用的保障措施

为确保合成数据使用的透明化、可追溯性和问责制，需为合成数据建立强大的数字监管链，涵盖其生成、共享、存储和处置，每个阶段均应保留详细的文档，概述所使用的方法、采取的隐私措施和安全协议。该系统的基本组成部分包括加密、身份验证程序、严格的访问控制、定期审计和可靠的数据销毁方法。这些措施对于维护数据完整性、安全性和隐私至关重要——论文的参考文献38

其他促进数据共享的技术

（1）联邦学习：可以跨多个数据中心训练模型，同时保持数据本地化。但是，其漏洞在于，通过故意invert训练过程，可以推断其他中心的私人数据集信息
（2）去标识化：比如可以使用自动编码器，但对此的研究甚少

3、AI可解释性

可以使用生成模型去可视化检测AI模型是否使用不正确的相关性来预测结果。比如参考文献42中，使用Autoencoder对胸片预测归因

4、专业培训

为各种疾病案例生成真实、多样的图像

5、简化临床工作流程：模态内/跨模态合成、造影增强图像合成

*除了简化工作流程，还可以为模型训练补齐缺失模态

模态内合成

参考文献44中，由低剂量PET&增强MRI合成标准剂量PET图像

跨模态合成

比如MRI、CT、PET之间
在上述合成中，去确认合成图像中是否出现幻觉很重要，比如错误学习了源图像的噪声，在新图像中生成对应的伪像，或者不正确地去除了重要内容

造影增强图像合成

非造影图像或者低剂量图像生成标准剂量图像
问题在于，源图像比如非造影图像到底是否包含能够区分非增强区、低增强区和高增强区的信息，仍待研究

关于合成医学的limitations&concerns

1、Reliability决定是否能被应用

（1）合成图像需要能捕捉真实特征，以至于医生无法区分真假图像。合成图像上的任何不真实特征都会阻碍其应用
（2）病理特征及其相互依赖性、病理特征的局部和全局表现，都应能在合成图像上被捕捉。关于这一部分研究较少（参考文献63）

2、小心合成图像被恶意使用

伪造患有疾病或健康的假证据，用于1-机构逃避责任；2-病人骗取保单等

3、合成图像可能会生成Biased data

合成数据可能引入或扩大bias，如地域、性别等的bias
因此，应谨慎使用，且合成数据只能和真实数据结合使用（防止肆意妄为）

4、对于监管和未来研究的建议

在目前HIPPA和GDPR的框架下，难以做到真正的去识别化
监管：（1）修订现有数据保护法，对合成数据进行精确定义和更严格的控制；（2）建立集中监管机构进行监督；（3）倡导透明度并确保合成数据开发和应用的问责制
未来研究：（1）研究与合成数据相关的潜在隐私问题和脆弱性；（2）全面探讨医疗保健中合成数据使用的技术、社会和伦理影响

合成图像的技术

1、VAE

2、GAN

3、Diffusion Models

4、Foundation Models

利用基础模型中医学图像相关信息，作为新的生成模型的基础（迁移学习）

计算量的问题

特别是3D合成

标签：Synthetic,模态,Generating,Data,合成,生成,图像,数据,模型
From： https://www.cnblogs.com/xjl-ultrasound/p/18431767