这篇论文针对图像和文本的基础问题,如图像描述和视觉问答(VQA)。现有的一些方案提出的多模态框架有效融合了图像和文本的特征,优于单模态的方案。但是这些方案在共享所有下游任务数据的条件下进行训练的,这可能导致数据泄露。作者提出了一个联邦学习的框架,在不用共享数据的前提下,从不同的模态中获得各种类型的图像表征,然后将它们融合在一起,形成细粒度的图像表征,在防止数据泄漏的同时提高模型的性能。[1] Liu F, Wu X, Ge S, et al. Federated learning for vision-and-language grounding problems[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(07): 11572-11579.——CCF-A(AAAI)
这篇文章的优点在于,作者设计了对齐、集成和映射网络(aimNet),并实现了联邦学习框架,有效地将从图像提取出的视觉和文本特征转换成细粒度图像表征。对齐模块通过预训练模型提取的图像和文本特征使用交互注意力机制,来为图像提供了更清晰的语义表达。集成模块通过自我注意力机制整合图像和文本特征,捕捉突出图像区域之间的联系和文本单词之间的搭配,生成方面描述的图像表示。映射模块由两层非线性层组成,用于将对齐和集成模块学习到的细粒度图像表征映射到特定任务的特征域。总的来说,联邦学习框架如下:客户端通过预训练模型训练得到特征,上传到服务器,服务器利用aimNet网络对特征进行加工,得到新的特征再传回给客户端,客户端利用新的特征为输入传入本地模型做对应的任务,客户端再根据自己任务的评判指标去更新自己的模型参数,直到达到一个收敛的状态。
但这篇论文中对于场景的描述还不是很清晰,只是提到了数据泄露的问题。论文中提出的aimNet,本质上还是一个多模态学习框架,只是将他适配到联邦学习中,多模态与联邦学习结合的创新点和解决的问题难点没有体现出来。另外,虽然客户端共享的不是数据,在本地训练出图像的两种特征表达上传给服务器,这个过程并不能有效的保证客户端数据和隐私安全。如果这个客户端模型被获取到,或者是通过服务器发起的推理攻击就有可能得到输入原始的图像,就会造成客户端数据的泄露。
2022年10月12日
标签:模态,20,language,特征,grounding,图像,AAAI,文本,客户端 From: https://www.cnblogs.com/FBprivacy/p/16786051.html