Motivation

训练深度网络存在的问题：需要大量训练数据，进而需要更强的计算资源等。因此如何在减少这些开销（例如使用更小的数据集）的同时，不影响模型的性能成为了一个至关重要的问题；
挑选 coreset 的四大挑战：
- 选取 sample 的规则尚不明确；
- 检索的速度要快，否则就失去了加速训练的意义；
- 光找出 coreset 仍不够，还要为 coreset 中的每个 datapoint 决定他们各自的学习率；
- 即使某个策略在一些数据集上起作用了，也要用数学的方法进行分析（为什么有用）。

Analysis

目标：找出完整数据集 $V$ 的一个子集 $S^{*}$，使得：

其中 w 是模型权重参数，W 是 w 所有可能取值的区域， $\beta$ 是权重，对于 Coreset 中的每个样本有不同的权重（代表重要程度），使用 Coreset 进行训练时，学习率可以根据权重调整。

上图中的范数部分成为估计误差（即挑选子集的梯度和全数据集梯度的差距）。

直接用此式是不可行的，因为需要计算每个可能的 w，而 W 一般是连续的。

两步转化，获得估计误差的上界（针对一个特定的 w）：

因此问题变成了，找出完整数据集 $V$ 的一个 $S^{*}$，使得（为了解决 w 连续的问题，约定 $d_{ij}$ 为最大误差时的 w，也就是相当于又取了一次上界）：

解决这个问题是 NP-hard 的，因为必须计算每一种可能的 S 组合，因此可以用次模函数，利用贪心算法得到一个近似的解：

问题变成了：

标签：coreset,误差,Training,训练,权重,efficient,Coresets,数据
From： https://www.cnblogs.com/metaz/p/16844505.html

论文笔记 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Effic
AnalysisCoreset是带有权重的数据子集，目的是在某个方面模拟完整数据的表现（例如损失函数的梯度，既可以是在训练数据上的损失，也可以是在验证数据上的损失）；给出优化目标的定......
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Cov
BN层只是从一定程度上解决了梯度衰减的问题但是并没有完全解决如果输入值的差距过大会导致模型加BN层后loss依旧无变化。代码:fromenumimportautofromscipy.ioimpo......
【论文阅读】ICRA2021: VDB-EDT An Efficient Euclidean Distance Transform Algorith
参考与前言Summary:浩哥推荐的一篇无人机下的建图andplanning实验Type:ICRAYear:2021论文链接：https://arxiv.org/abs/2105.04419youtubepresentationvideo：htt......
9-11月 Training
P5664[CSP-S2019]Emiya家今天的饭容斥一下，对每一列做一次dp,记一下差值来压掉一维*CF521DShop把赋值先转化成加法，再把加法全转化成乘法P5689[CSP-S2019江西]多......
论文笔记 - RETRIEVE: Coreset Selection for Efficient and Robust Semi-Supervised
Motivation虽然半监督学习减少了大量数据标注的成本，但是对计算资源的要求依然很高（无论是在训练中还是超参搜索过程中），因此提出想法：由于计算量主要集中在大量未标注的数据上......
Oct. Training 6
F-TrailsandGladeshttps://codeforces.com/problemset/problem/209/C题意给你一个图，你从1好点出发，每条边走且只走一遍，问你最少要添加多少条边。思路翻译一下题意......
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generatio
BART:DenoisingSequence-to-SequencePre-trainingforNaturalLanguageGeneration,Translation,andComprehensionBART：用于自然语言生成、翻译和理解的seq2seq去噪......
Oct. Training 5
E-Escapehttps://codeforces.com/gym/102361/problem/E题意若干个机器人从矩阵第一行上方要走到矩阵最后一行下方，一个机器人对应一个出口，机器人只能直走，现在可以设置......
Oct. Training 4
L-Airportshttps://codeforces.com/gym/100959题意给定n个点，第i个点为（$x_i,y_i$）,对于曼哈顿距离小于D的两个点可以建一条边，问最大的D使得整个图联通。思路这就相......
【论文阅读】VDBFusion: Flexible and Efficient TSDF Integration of Range Sensor D
Type:SensorsYear:2022tag:Mapping组织:Bonn参考与前言论文链接：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8838740/其他参考建议看一下本篇论文的对应refer......

论文笔记 - Coresets for Data-efficient Training of Machine Learning Models

Motivation

Analysis

相关文章

赞助商

阅读排行