论文阅读：Zeno: Distributed Stochastic Gradient Descent with Suspicion-based Fault-tolerance

时间：2022-12-09 11:45:29浏览次数：76

标签：based Descent Zeno 梯度 flipping failure Stochastic 节点 gamma

论文链接：http://proceedings.mlr.press/v97/xie19b/xie19b.pdf

基于怀疑容错的分布式SGD

Abstact

zeno优势在于只需要假设系统中存在一个正常节点。
核心思想：怀疑有潜在缺陷的worker。可能会怀疑错误，因此加入了使用排名的偏好机制

Introduction

使用stochastic zero-order oracle计算分数，这个分数代表在迭代中该节点的可信度。然后取分数最高（最值得信任）的节点的均值。
论文贡献点：

系统中仅需存在一个正常节点
收敛速度与分布式同步SGD相同
适用于不相同分布的数据集

Model

Failure Model

最坏的情况即错误梯度将最后的平均梯度的方向带偏到与正确梯度完全相反的方向。

Methodology

Definition(Stochastic Descendant Score):
\(f_r(x)=\frac{1}{n_r}\sum_{n=1}^{n_r}f(x;z_i)\)
\(z_i\): i.i.d, 从完整数据集\(D\)中取样
\(n_r\): 批训练大小
\(Score_{\gamma, x}(u,x)=f_r(x)-f_r(x-\gamma{u})-\rho||u||^2\)
\(f_r(x)-f_r(x-\gamma{u})\)为损失函数的下降差值，下降越多且距离越近，得分越高，可信度越高。
在算出所有节点的得分后，进行从大到小的排序，然后选取得分最高的\(m-b\)个节点的梯度取平均作为中心服务器的更新。
详细算法：

实验结果

评估速度：

Zeno与Mean的收敛速度近似
Label-flipping failure:

bit-flipping failure:
控制浮点数符号的位被翻转，错误的worker将负梯度而不是真实梯度推送到服务器。

在bit-flipping failure和label-flipping falure中，当q = 8时，Mean似乎有很好的性能，而它不应该是容错的。原因是标签翻转和位翻转失败都不会改变梯度的大小。当故障梯度的数量q小于一半时，有可能故障梯度被非故障梯度抵消。
non-i.i.d:

标签：based,Descent,Zeno,梯度,flipping,failure,Stochastic,节点,gamma
From： https://www.cnblogs.com/luuumos/p/16951297.html

Transformer-Based Learned Optimization
前言本文为学习优化器提出一种新的神经网络体系结构，其灵感来自经典的BFGS算法。和BFGS一样，将预条件矩阵估计为一级更新的和，但使用基于transformer的神经网络来预测这些更......
[论文阅读] Template-Based Headline Generator for Multiple Documents
pretitle:Template-BasedHeadlineGeneratorforMultipleDocumentsaccepted:IEEEAccesspaper:https://ieeexplore.ieee.org/document/9729734/code:https://gi......
python 使用梯度下降法找最小值（Find the minimum using gradient descent）
最近在看《深度学习全书公式+推导+代码+TensorFlow全程案例》——洪锦魁主编清华大学出版社ISBN978-7-302-61030-4这本书，在第2章神经网络原理中2-3-3偏微分的内......
Image Upload based on jQuery
今天把自己写的一个简单的jQuery上传插件放到了Git@OSC上了，希望能帮助需要的人，并且得到高人的指点，一起用心的维护下去）插件很简单，目前只提供图片的上传功能，包括预览，进度条显......
深度学习中的两种anchor算法anchor-based 和anchor free 的区别
anchor-based:这里基于fasterrcnn中选择anchor的方法##RPN阶段（anchortarget）：1.计算所有样本点(wxh)与9个anchor拼在一起形成wxhx9个框，得到all_anchors（以图像为单......
HOW-TO install ffmpeg, Mplayer, mencoder,FLVtool2 and Yamdi on Plesk Linux based
SologinwithSSHandenterasroot.Weneedtomakesurethecorrectlibdirectoriesaresetupinldconfig.Editthe /etc/ld.so.conf fileandaddthefollowi......
基于ResNet的花卉图片分类 —— tensorflow版（flowers image classification based on
最近看了《TensorFlow深度学习实战（微课视频版）》——清华大学出版社一书中的11章节《基于ResNet的花卉图片分类》，觉得写的不错，是个关于ResNet的好例子，所以整理下，分享给......
cs224w(图机器学习)学习笔记2 Traditional Feature Based on Methods
目录一.Review二.TraditionalFeature-basedMethods:Node1.半监督学习任务semi-supervised2.节点特征overview3.节点度nodedegree4.节点中心度nodecentrality5.聚......
Fast22 - Removing Double-Logging with Passive Data Persistence in LSM-tree based
基于LSM-tree的关系型数据库中，通过被动的数据持久化方式移除双重日志记录原文链接摘要存储引擎是关系型数据库(RDB)中的重要组成部分。随着互联网服务和应用......
c read directories and files recursively based on a given directory
#pragmaonce#include<algorithm>#include<chrono>#include<ctime>#include<dirent.h>#include<fstream>#include<iostream>#include<sstream>#include<s......