首页 > 其他分享 >Federated Learning with Differential Privacy:Algorithms and Performance Analysis

Federated Learning with Differential Privacy:Algorithms and Performance Analysis

时间:2024-03-15 21:23:31浏览次数:24  
标签:mathbf Privacy Differential Federated 隐私 Delta mathcal 客户端 mathrm

2024/2/11
大四做毕设的时候第一次读这篇论文,当时只读了前一部分,后面关于收敛界推导证明的部分没有看,现在重新完整阅读一下这篇文章。

本文贡献

  1. 提出了一种基于差分隐私 (DP) 概念的新框架,其中在聚合之前将人工噪声添加到客户端的参数中,即模型聚合前加噪FL (NbAFL)
  2. 我们提出了 NbAFL 中经过训练的 FL 模型的损失函数的理论收敛界限。并且发现了这个理论这个理论界限的三个关键性质
    1. 收敛性能和隐私保护级别之间存在折衷,即更好的收敛性能导致更低的保护级别
    2. 给定固定的隐私保护级别,增加参与FL的整体客户端数量\(N\)可以提高收敛性能
    3. 就给定保护级别的收敛性能而言,存在最大聚合次数(通信轮次)的最佳数目
  3. 提出了一种 \(K\) 随机调度策略即每轮次全局聚合从全局的 \(N\) 个客户端中随机选择 \(K(1<K<N)\) 个客户端来参与聚合。我们还发现了这种情况下损失函数的相应收敛界,并且 \(K\) 随机调度策略也可以保留上述三个属性。此外,我们发现存在一个最优 \(K\),可以在固定隐私级别下实现最佳收敛性能

创新点

  1. 到目前为止,现有文献中尚未详细介绍具有隐私保护噪声扰动的 FL 收敛行为的理论分析,这将是本文工作的主要重点。
  2. 为了有效防止信息泄漏,我们提出了一种基于差分隐私(DP)概念的新框架,其中每个客户端在将其上传到服务器进行聚合之前故意添加噪声来扰乱其训练参数,即:模型聚合 FL 之前添加噪声(NbAFL)。
  3. 在理论上发现了添加人工高斯噪声的 NbAFL 中经过训练的 FL 模型的损失函数的收敛边界

威胁模型

  1. 本文中的服务器被假定为诚实的。然而,有外部敌手觊觎客户端的隐私信息
  2. 尽管第 \(i\) 个客户端的个人数据集 \(D_i\) 保存在客户端本地,但中间参数 \(w_i\) 需要与服务器共享,这可能会泄露客户端的隐私信息,比如通过模型逆向攻击。
  3. 此外,我们还假设上行链路信道比下行链路广播信道更安全,因为客户端可以在每个上传时间动态分配到不同的信道(例如,时隙,频带),而下行链路信道是广播的方式。因此,我们假设上行链路中每个客户端上传的参数最多有 \(L(L\leq T)\) 次曝光(这是因为每一轮通信不是每个客户端都被选中,只有被选中的需要上传参数),下行链路中聚合参数最多有 \(T\) 次曝光,其中 \(T\) 是聚合次数。

预备知识

\((\epsilon,\delta)\)差分隐私

对于随机机制\(\mathcal{M}\),相邻数据集\(\mathcal{D}_i\)、\(\mathcal{D}_i^{\prime}\),输出集合\(\mathcal{S}\)满足:

\[\Pr[\mathcal{M}(\mathcal{D}_i)\in\mathcal{S}]\leq e^\epsilon\mathrm{Pr}[\mathcal{M}(\mathcal{D}_i^{\prime})\in\mathcal{S}]+\delta.$$满足$(\epsilon,\delta)$差分隐私的高斯噪声$n\sim N(0,\sigma^2)$ ,**从高斯分布中采样噪声**,其中 $\sigma \geq c\Delta s/\epsilon$(其中$\Delta s=\max\|s(\mathcal{D_i})-s(\mathcal{D_i^{\prime}})\|$,$s$是一个实值函数),$c \geq \sqrt{2ln(1.25/\delta)}$。 也就是**采样的高斯分布的标准差$\sigma$满足:**<font color=red>$\sigma\geq\frac{\sqrt{2ln(1.25/\delta)}\Delta s}{\epsilon}$</font> #### 符号表 ![img](/i/l/?n=23&i=blog/1943846/202402/1943846-20240214150939690-1648104980.png =600x) ### 差分隐私保护的联邦学习 #### 全局差分隐私 ##### 对于上行链路的全局差分隐私 $$s_\mathbf{U}^{\mathcal{D}_i}\triangleq\mathbf{w}_i=\arg\min_\mathbf{w}F_i(\mathbf{w},\mathcal{D}_i)=\frac1{|\mathcal{D}_i|}\sum_{j=1}^{|\mathcal{D}_i|}\arg\min_\mathbf{w}F_i(\mathbf{w},\mathcal{D}_{i,j})\]

(这里下标\(U\)指的是上行链路的意思)
img

\[\Delta s_\mathrm{U}\triangleq\max\left\{\Delta s_\mathrm{U}^{\mathcal{D}_i}\right\},\quad\forall i \]

假设最小的本地数据集大小为\(m\),那么可以得到\(\Delta s_\mathrm{U}=\frac{2C}{m}\),那么要让上行链路每次曝光满足\((\epsilon,\delta)\)差分隐私,需要使\(\sigma_{\mathbf{U}}=c\Delta s_{\mathbf{U}}/\epsilon\),那么考虑到本地数据集\(L\)次曝光,因此每次添加的噪声\(\sigma_{\mathbf{U}}=\frac{c\Delta s_{\mathbf{U}}}{\epsilon/L}=\sigma_\mathbf{U}=cL\Delta s_\mathbf{U}/\epsilon\)(总的隐私预算是\(\epsilon\),那每次曝光的隐私预算是\(\epsilon/L\))

对于下行链路的全局差分隐私

从下行链路角度来看,\(\mathcal{D}_i\)的聚合操作可以表示为

\[s_\mathrm{D}^{\mathcal{D}_i}\stackrel{\Delta}{=}\mathrm{w}=p_1\mathrm{w}_1+\ldots+p_i\mathrm{w}_i+\ldots+p_N\mathrm{w}_N, 1\leq i\leq N \]

此处,\(p_i\)是联邦聚合时每个客户端的权重。

引理一
聚合后数据集\(\mathcal{D}_i\)的敏感度\(\Delta s_\mathrm{D}^{\mathcal{D}_i}\)为:

\[\Delta s_\mathrm{D}^{\mathcal{D}_i}=\frac{2Cp_i}m. \]

备注1:根据引理一,要达到下行链路一个小的全局敏感度

\[\Delta s_\mathrm{D}\triangleq\max\left\{\Delta s_\mathrm{D}^{\mathcal{D}_i}\right\}=\max\left\{\frac{2Cp_i}m\right\},\quad\forall i. \]

为了让这一项最小,那么即找到最小的 \(\max{p_i}\),又因为所有 \(p_i\) 加和等于 \(1\),那么理想的条件就是所有客户端使用相同大小的本地数据集训练 \(p_i=1/N\).

聚合后加噪的联邦学习算法

img

其中\(\frac{\mu \|w_i-w_{(t-1)}\|^2}{2}\)是修正项,是FedProx框架提出并引入的项,为了降低数据异质性带来的影响,提高整体框架的稳定性。该修正项的本质是针对局部模型中的参数和全局模型中的参数增加差异性的限制,从而为解释全局与部分局部信息之间的异质性提供理论依据。
MLSys提前看|机器学习的分布式优化方法

标签:mathbf,Privacy,Differential,Federated,隐私,Delta,mathcal,客户端,mathrm
From: https://www.cnblogs.com/xmasker/p/18015178

相关文章

  • Efficient and Straggler-Resistant Homomorphic Encryption for Heterogeneous Feder
    为异构联邦学习提供高效且抗掉队者的同态加密技术(INFOCOM24'(CCFA))本文的结构和逻辑清晰,结构设置、文笔以及实验设置和实验分析都值得收藏和反复学习!!!摘要同态加密(HE)被广泛用于加密模型更新,但会产生很高的计算和通信开销。为了减少这些开销,有人提出了打包HE(PHE),将多个明......
  • Differential Equations
    Firstorderdifferentialequations:$\frac{{\rmd}y}{{\rmd}x}+Fy=G$​$$\begin{aligned}&\frac{{\rmd}y}{{\rmd}x}+Fy=G\qquadz\frac{{\rmd}y}{{\rmd}x}+Fzy=Gz\qquadz\frac{{\rmd}y}{{\rmd}x}+\frac{{\rmd}z}{{\rmd}x}y=\frac{{\rmd......
  • Children's Privacy Policy
    Thankyouforusingourapp!Wevalueyourprivacyandarecommittedtoprovidingasafeandchild-friendlydigitalexperience.Pleasereadthefollowingtounderstandhowwehandleuserinformation.InformationCollection:Ourappdoesnotcollectperson......
  • 差分符号熵Differential symbolic Entropy,多尺度差分符号熵,层次差分符号熵,时移多尺度
    差分符号熵DifferentialsymbolicEntropy,多尺度差分符号熵,层次差分符号熵,时移多尺度差分符号熵,复合多尺度差分符号熵,精细复合多尺度差分符号熵(Matlab代码获取链接:https://mbd.pub/o/bread/mbd-ZZmblZlv)熵或复杂性度量区分时间序列类别和理解潜在动态的能力是众所周知的。该算法......
  • 【五期李伟平】CCF-A(AAAI'21)Game of Gradients: Mitigating Irrelevant Clients in Fe
    Nagalapatti,Lokesh,andR.Narayanam."GameofGradients:MitigatingIrrelevantClientsinFederatedLearning."(2021).  针对联邦学习中相关客户端选择(FRCS)的问题,本文提出一种可以选择具有相关数据的客户端的方法,并提出一个检测拥有特定目标标签数据的客户端......
  • Understanding q-value and FDR in Differential Expression Analysis
     Understandingq-valueandFDRinDifferentialExpressionAnalysisDaqianIntroductiontoq-valueandFDRIndifferentialgeneexpressionanalysis,researchersareoftenconfrontedwiththechallengeofdistinguishingtruesignals—thosegenesthat......
  • 【五期李伟平】CCF-A(TMC'22)Enabling Long-Term Cooperation in Cross-Silo Federated
    Zhang,Ning,Q.Ma,andX.Chen."EnablingLong-TermCooperationinCross-SiloFederatedLearning:ARepeatedGamePerspective."(2022).  针对重复执行跨筒仓联邦学习过程中如何保持客户积极参与(增加训练时使用的数据量、减少搭便车行为),本文提出合作的、子......
  • 【五期李伟平】CCF-A(S&P'20)The Value of Collaboration in Convex Machine Learning w
    NanW.,etal.“TheValueofCollaborationinConvexMachineLearningwithDifferentialPrivacy.”2020IEEESymposiumonSecurityandPrivacy.304-317.  联邦学习场景中,在适应度函数平滑、强凸、利普斯特连续的条件下,估算各客户端使用不同隐私预算时最终全局模......
  • FLAC: Federated Learning with Autoencoder Compression and Convergence Guarantee-
    目的:减少通信量(成本),例如VGGNet架构具有大约1.38亿个参数(4264Mb)方法:具有自动编码器压缩(AutoencoderCompression)且具有收敛保证(ConvergenceGuarantee);利用冗余信息(theredundantinformation)和FL的迭代纠错能力(iterativeerror-correctingcapabilityofFL)来压缩client的模型,......
  • Hierarchical Clustering-based Personalized Federated Learning for Robust and Fai
    任务:人类活动识别任务HumanActivityRecognition----HAR指标:系统准确性、公平性、鲁棒性、可扩展性方法:1.提出一个带有层次聚类(针对鲁棒性和公平的HAR)个性化的FL框架FedCHAR;通过聚类(利用用户之间的内在相似关系)提高模型性能的准确性、公平性、鲁棒性。2.提高FedCHAR的......