论文笔记 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

时间：2022-11-06 23:15:02浏览次数：56

标签：Subset coreset Selection Based 函数梯度损失数据

Analysis

Coreset 是带有权重的数据子集，目的是在某个方面模拟完整数据的表现（例如损失函数的梯度，既可以是在训练数据上的损失，也可以是在验证数据上的损失）；

给出优化目标的定义：

$w^t$ 是 t 轮得到的 coreset 权重，$X_t$ 是 t 轮得到的 coreset，$L$ 既可以是在训练数据上的损失，也可以是在验证数据上的损失，$L_T$ 是在 coreset 上的损失函数，$\theta_t$ 是 t 轮得到模型参数；

最小化 ERR 来使 Coreset 最好地模拟损失函数（训练集或验证集）的梯度。

如何优化这个问题

将其转化为次模函数：

之后可以用贪心算法快速解决。

Tricks

只计算最后一层的梯度；
现在完整的数据集上跑几个 epoch，获得一个较为靠近的模型权重（类似于 warm-up 和 pre-training）；
每过 R 个 epoch 再更新 coreset。

标签：Subset,coreset,Selection,Based,函数,梯度,损失,数据
From： https://www.cnblogs.com/metaz/p/16864563.html

论文笔记 - PRISM: A Rich Class of Parameterized Submodular Information Measures
Motivation与ActiveLearning类似，TargetLearning致力于挑选外卖更“感兴趣”的数据，即人为为更重要的数据添加bias。例如我们当前的任务目标是增强自动驾驶算法的夜......
论文笔记 - SIMILAR: Submodular Information Measures Based Active Learning In Rea
motivationActiveLearning存在的重要问题：现实数据极度不平衡，有许多类别很少见（rare），又有很多类别是冗余的（redundancy），又有些数据是OOD的（out-of-distribution）。1.不同的......
【论文阅读】ICRA2021: VDB-EDT An Efficient Euclidean Distance Transform Algorith
参考与前言Summary:浩哥推荐的一篇无人机下的建图andplanning实验Type:ICRAYear:2021论文链接：https://arxiv.org/abs/2105.04419youtubepresentationvideo：htt......
基于gamebased算法的动态频谱访问matlab仿真
目录一、理论基础二、核心程序三、测试结果一、理论基础随着越来越多的新型无线应用，对频谱资源的需求越来越大。在这种情况下，这是举世公认的认知无线电的出现已经成......
MultipleSelection_Dropdown——Dropdown复选框扩展
参考文章：https://www.cnblogs.com/chinarbolg/p/9601417.html https://www.cnblogs.com/Fivee/p/13099362.html usingSystem.Collections.Generic;usingUnit......
Codeforces Round #778 (Div. 1 + Div. 2, based on Technocup 2022 Final Round) F M
A-E都还是比较简单的。首先，容易想到的，异或上$2^k$，相当于以$2^{k+1}$的长度分块，然后每一块对半切，然后交换左右部分。我的想法是由于这个交换的性质，也许我们可以尝......
基于gamebased算法的动态频谱访问matlab仿真
目录一、理论基础二、核心程序三、测试结果一、理论基础随着越来越多的新型无线应用，对频谱资源的需求越来越大。在这种情况下，这是举世公认的认知无线电的出现已经成为......
论文笔记 - RETRIEVE: Coreset Selection for Efficient and Robust Semi-Supervised
Motivation虽然半监督学习减少了大量数据标注的成本，但是对计算资源的要求依然很高（无论是在训练中还是超参搜索过程中），因此提出想法：由于计算量主要集中在大量未标注的数据上......
阿里TDM论文阅读《Learning Tree-based Deep Model for Recommender Systems》
背景推荐本质上需要完成从全量商品库高效检索Topk相关商品，由于候选商品数量过于庞大，现在的推荐系统一般分为两个阶段：召回和排序。对于召回阶段，面临着从全量商品库里面，高效......
TABLA: A Unified Template-based Framework for Accelerating Statistical Machine L
TABLA:AUnifiedTemplate-basedFrameworkforAcceleratingStatisticalMachineLearning2016IEEEInternationalSymposiumonHighPerformanceComputerArchitec......

论文笔记 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

Analysis

如何优化这个问题

Tricks

相关文章

赞助商

阅读排行