首页 > 其他分享 >文献阅读笔记|合成医学图像数据综述|Generating Synthetic Data for Medical Imaging

文献阅读笔记|合成医学图像数据综述|Generating Synthetic Data for Medical Imaging

时间:2024-09-25 20:05:17浏览次数:1  
标签:Synthetic 模态 Generating Data 合成 生成 图像 数据 模型

论文链接:https://doi.org/10.1148/radiol.232471
论文信息:Generating Synthetic Data for Medical Imaging,综述,2023年9月14日投稿,2024年3月1日接收,2024年9月10日发表于Radiology
蓝色字体标注对我而言的新知识

目录

绪论

需求决定合成数据的应用

1、扩充AI模型的训练数据集,解决数据量小以及分布不平衡的问题
2、在保护隐私的同时实现数据共享
3、更多拓展的应用:模态内/跨模态合成、造影增强图像合成、AI可解释性、合成图像用于医生培训

合成数据应具备的特点

1、真实,与源数据集相似
2、多样,防止Mode collapse
2、安全,不泄露个人隐私
3、有用,能在下游应用中有效(部分)替代真实数据

合成图像的应用

1、扩充数据集

介绍了已有研究

下游任务以两大类为主:分类、分割

介绍了合成图像的评估方法

(1)读者试验
(2)经典量化指标IS、FID缺点在于1-不能分辨和量化图像生成的各种失败;2-只能在一组图像上计算,限制了对单个图像的评估;3-基于Inception V3,这是在ImageNet上预训练的,是否适用于医学图像是待评估的;4-这两个指标本身在自然图像上就有一堆问题,特别是IS(第3-4点论文里没讲,但我觉得很重要)
(3)新指标α精度、β召回率、真实性——见原论文中参考文献26——可检测和定量图像合成的不同失败模式,可评估单个图像上。但缺乏针对医学图像的探索
(4)应用于下游任务的表现
——————以下是设想——————
(5)构建domain-specific bench mark datasets:便于有效比较各种生成模型的表现
(6)human-in-the-loop:让医生介入图像的合成,使得AI模型能够从医生那里学习到domain knowledge以提升模型表现(有点类似于强化学习的思路?)

2、数据共享和去识别化

合成数据的在此应用的意义

合成数据比真实数据更易于分享,但是生成模型并不能保证完全的隐私保护,需要开发方法去最小化隐私泄露的风险

合成数据使用的保障措施

为确保合成数据使用的透明化、可追溯性和问责制,需为合成数据建立强大的数字监管链,涵盖其生成、共享、存储和处置,每个阶段均应保留详细的文档,概述所使用的方法、采取的隐私措施和安全协议。该系统的基本组成部分包括加密、身份验证程序、严格的访问控制、定期审计和可靠的数据销毁方法。这些措施对于维护数据完整性、安全性和隐私至关重要——论文的参考文献38

其他促进数据共享的技术

(1)联邦学习:可以跨多个数据中心训练模型,同时保持数据本地化。但是,其漏洞在于,通过故意invert训练过程,可以推断其他中心的私人数据集信息
(2)去标识化:比如可以使用自动编码器,但对此的研究甚少

3、AI可解释性

可以使用生成模型去可视化检测AI模型是否使用不正确的相关性来预测结果。比如参考文献42中,使用Autoencoder对胸片预测归因

4、专业培训

为各种疾病案例生成真实、多样的图像

5、简化临床工作流程:模态内/跨模态合成、造影增强图像合成

*除了简化工作流程,还可以为模型训练补齐缺失模态

模态内合成

参考文献44中,由低剂量PET&增强MRI合成标准剂量PET图像

跨模态合成

比如MRI、CT、PET之间
在上述合成中,去确认合成图像中是否出现幻觉很重要,比如错误学习了源图像的噪声,在新图像中生成对应的伪像,或者不正确地去除了重要内容

造影增强图像合成

非造影图像或者低剂量图像生成标准剂量图像
问题在于,源图像比如非造影图像到底是否包含能够区分非增强区、低增强区和高增强区的信息,仍待研究

关于合成医学的limitations&concerns

1、Reliability决定是否能被应用

(1)合成图像需要能捕捉真实特征,以至于医生无法区分真假图像。合成图像上的任何不真实特征都会阻碍其应用
(2)病理特征及其相互依赖性、病理特征的局部和全局表现,都应能在合成图像上被捕捉。关于这一部分研究较少(参考文献63)

2、小心合成图像被恶意使用

伪造患有疾病或健康的假证据,用于1-机构逃避责任;2-病人骗取保单等

3、合成图像可能会生成Biased data

合成数据可能引入或扩大bias,如地域、性别等的bias
因此,应谨慎使用,且合成数据只能和真实数据结合使用(防止肆意妄为)

4、对于监管和未来研究的建议

在目前HIPPA和GDPR的框架下,难以做到真正的去识别化
监管:(1)修订现有数据保护法,对合成数据进行精确定义和更严格的控制;(2)建立集中监管机构进行监督;(3)倡导透明度并确保合成数据开发和应用的问责制
未来研究:(1)研究与合成数据相关的潜在隐私问题和脆弱性;(2)全面探讨医疗保健中合成数据使用的技术、社会和伦理影响

合成图像的技术

1、VAE

2、GAN

3、Diffusion Models

4、Foundation Models

利用基础模型中医学图像相关信息,作为新的生成模型的基础(迁移学习)

计算量的问题

特别是3D合成

标签:Synthetic,模态,Generating,Data,合成,生成,图像,数据,模型
From: https://www.cnblogs.com/xjl-ultrasound/p/18431767

相关文章

  • alloc_data 的作用
    `alloc_data`结构体看起来是用于配置或请求某种内存分配(很可能是通过ION(Input/OutputMemoryManagement)系统,这是一种在某些操作系统(如Android的Linux内核变种)中用于高效管理图形、视频等输入输出相关内存的机制)。每个成员都有特定的用途:-`alloc_data.len`:指定要分配的内存大......
  • 信创里程碑:TapData 与海量数据达成产品兼容互认证,共同助力基础设施国产化建设
    近日,深圳钛铂数据有限公司(以下简称钛铂数据)自主研发的钛铂实时数据平台(TapDataLiveDataPlatform,TapDataLDP)与北京海量数据技术股份有限公司(以下简称海量数据)海量数据库G100管理系统(VastbaseG100)完成并通过相互兼容性测试认证。测试结果显示,TapDataLDPV3与VastbaseG10......
  • 【YashanDB知识库】如何配置jdbc驱动使getDatabaseProductName()返回Oracle
    本文转自YashanDB官网,具体内容请见https://www.yashandb.com/newsinfo/7352676.html?templateId=1718516问题现象某些三方件,例如工作流引擎activiti,暂未适配yashandb,使用中会出现如下异常:问题的风险及影响影响客户业务无法进行。问题影响的版本所有的yashandbjdbc驱动版本。问题......
  • DevExpress WinForms中文教程:Data Grid - 如何添加或删除行?
    本教程介绍DevExpressWinForm的DataGrid控件UI元素和API,它们使您和最终用户能够添加或删除数据行。您将首选学习如何启用内置的数据导航器,然后学习如何使用MicrosoftOutlook启发的NewItem行添加新记录。最后教程将向您展示基本的API,它使您能够添加或删除行,并在最终用户使用网......
  • 如何在生成式AI里使用 Ray Data 进行大规模 RAG 应用的 Embedding Inference
    检索增强生成(RAG,即RetrievalAugmentedGeneration)是企业级生成式AI(GenAI)应用的热门案例之一。多数RAG教程演示了如何利用OpenAIAPI结合Embedding模型和大语言模型(LLM)来进行推理(Inference)。然而,在开发过程中,如果能使用开源工具,就可以免去访问自己数据的费用,同时也能加......
  • web.database() 创建的数据库对象线程安全吗?
    免责声明:尝试谷歌,一无所获,我管理我可能谷歌搜索得不好,但我没有想法。我有一个web.py应用程序,我需要定期运行一些数据库维护任务,并且我'我希望使用线程来完成此操作,以便Python应用程序完全独立。我的问题是:为了做到这一点,我必须采取什么样的预防措施(如果有的话)?计划是在调......
  • 基于 pandas DataFrame 中所有列的值的最小行计数条件
    假设我在pandasDataFrame中有三列,没有任何null或空值。每个项目的设施始终具有唯一的值。一个项目可以有一个或多个与其关联的供应商。同一供应商可以显示对于给定项目的不同设施,多次注册。对于给定项目,设施永远不会与多个供应商关联。......
  • List Comprehensions, Classe Data
    Assignment#2-ListComprehensions,Classes,CSV,TabularDataThisassignmentconsistsofthreeparts:1.HighestandLowestPotentiallyaffectedvehicles.2.nelta.py3.nelta.pyandRecallswithPotentiallyaffectedvehicles>500,000Clickonthis......
  • Spark(十)SparkSQL DataSet
    DataSetDataSet是具有强类型的数据集合,需要提供对应的类型信息1.创建DataSet使用样例类序列创建DataSetscala>caseclassperson(id:Int,name:String,age:Int)definedclasspersonscala>valcaseClassDS=Seq(person(1,"zhangsan",23)).toDS()caseClassDS:org.apa......
  • dataframe的apply按行操作
    1.原始数据及要求+---------------+-----------+---------------+--------+|stock_name|operation|operation_day|price|+---------------+-----------+---------------+--------+|Leetcode|Buy|1|1000||CoronaMasks|Buy......