论文链接:https://doi.org/10.1148/radiol.232471
论文信息:Generating Synthetic Data for Medical Imaging,综述,2023年9月14日投稿,2024年3月1日接收,2024年9月10日发表于Radiology
蓝色字体标注对我而言的新知识
绪论
需求决定合成数据的应用
1、扩充AI模型的训练数据集,解决数据量小以及分布不平衡的问题
2、在保护隐私的同时实现数据共享
3、更多拓展的应用:模态内/跨模态合成、造影增强图像合成、AI可解释性、合成图像用于医生培训
合成数据应具备的特点
1、真实,与源数据集相似
2、多样,防止Mode collapse
2、安全,不泄露个人隐私
3、有用,能在下游应用中有效(部分)替代真实数据
合成图像的应用
1、扩充数据集
介绍了已有研究
下游任务以两大类为主:分类、分割
介绍了合成图像的评估方法
(1)读者试验
(2)经典量化指标IS、FID:缺点在于1-不能分辨和量化图像生成的各种失败;2-只能在一组图像上计算,限制了对单个图像的评估;3-基于Inception V3,这是在ImageNet上预训练的,是否适用于医学图像是待评估的;4-这两个指标本身在自然图像上就有一堆问题,特别是IS(第3-4点论文里没讲,但我觉得很重要)
(3)新指标:α精度、β召回率、真实性——见原论文中参考文献26——可检测和定量图像合成的不同失败模式,可评估单个图像上。但缺乏针对医学图像的探索
(4)应用于下游任务的表现
——————以下是设想——————
(5)构建domain-specific bench mark datasets:便于有效比较各种生成模型的表现
(6)human-in-the-loop:让医生介入图像的合成,使得AI模型能够从医生那里学习到domain knowledge以提升模型表现(有点类似于强化学习的思路?)
2、数据共享和去识别化
合成数据的在此应用的意义
合成数据比真实数据更易于分享,但是生成模型并不能保证完全的隐私保护,需要开发方法去最小化隐私泄露的风险
合成数据使用的保障措施
为确保合成数据使用的透明化、可追溯性和问责制,需为合成数据建立强大的数字监管链,涵盖其生成、共享、存储和处置,每个阶段均应保留详细的文档,概述所使用的方法、采取的隐私措施和安全协议。该系统的基本组成部分包括加密、身份验证程序、严格的访问控制、定期审计和可靠的数据销毁方法。这些措施对于维护数据完整性、安全性和隐私至关重要——论文的参考文献38
其他促进数据共享的技术
(1)联邦学习:可以跨多个数据中心训练模型,同时保持数据本地化。但是,其漏洞在于,通过故意invert训练过程,可以推断其他中心的私人数据集信息
(2)去标识化:比如可以使用自动编码器,但对此的研究甚少
3、AI可解释性
可以使用生成模型去可视化检测AI模型是否使用不正确的相关性来预测结果。比如参考文献42中,使用Autoencoder对胸片预测归因
4、专业培训
为各种疾病案例生成真实、多样的图像
5、简化临床工作流程:模态内/跨模态合成、造影增强图像合成
*除了简化工作流程,还可以为模型训练补齐缺失模态
模态内合成
参考文献44中,由低剂量PET&增强MRI合成标准剂量PET图像
跨模态合成
比如MRI、CT、PET之间
在上述合成中,去确认合成图像中是否出现幻觉很重要,比如错误学习了源图像的噪声,在新图像中生成对应的伪像,或者不正确地去除了重要内容
造影增强图像合成
非造影图像或者低剂量图像生成标准剂量图像
问题在于,源图像比如非造影图像到底是否包含能够区分非增强区、低增强区和高增强区的信息,仍待研究
关于合成医学的limitations&concerns
1、Reliability决定是否能被应用
(1)合成图像需要能捕捉真实特征,以至于医生无法区分真假图像。合成图像上的任何不真实特征都会阻碍其应用
(2)病理特征及其相互依赖性、病理特征的局部和全局表现,都应能在合成图像上被捕捉。关于这一部分研究较少(参考文献63)
2、小心合成图像被恶意使用
伪造患有疾病或健康的假证据,用于1-机构逃避责任;2-病人骗取保单等
3、合成图像可能会生成Biased data
合成数据可能引入或扩大bias,如地域、性别等的bias
因此,应谨慎使用,且合成数据只能和真实数据结合使用(防止肆意妄为)
4、对于监管和未来研究的建议
在目前HIPPA和GDPR的框架下,难以做到真正的去识别化
监管:(1)修订现有数据保护法,对合成数据进行精确定义和更严格的控制;(2)建立集中监管机构进行监督;(3)倡导透明度并确保合成数据开发和应用的问责制
未来研究:(1)研究与合成数据相关的潜在隐私问题和脆弱性;(2)全面探讨医疗保健中合成数据使用的技术、社会和伦理影响
合成图像的技术
1、VAE
2、GAN
3、Diffusion Models
4、Foundation Models
利用基础模型中医学图像相关信息,作为新的生成模型的基础(迁移学习)
计算量的问题
特别是3D合成
标签:Synthetic,模态,Generating,Data,合成,生成,图像,数据,模型 From: https://www.cnblogs.com/xjl-ultrasound/p/18431767