论文笔记 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios

时间：2022-11-06 21:36:28浏览次数：48

标签：次模 Information OOD Based 函数 cup Measures mathcal 数据

motivation

Active Learning 存在的重要问题：现实数据极度不平衡，有许多类别很少见（rare），又有很多类别是冗余的（redundancy），又有些数据是 OOD 的（out-of-distribution）。

1. 不同的次模函数

提出三种次模函数的变体：

次模条件增长（Submodular Conditional Gain, SCG），越大说明差异越大：

$$f(\mathcal{A}|\mathcal{P})=f(\mathcal{A}\cup\mathcal{P})-f(\mathcal{P})$$

次模交互信息（Submodular Mutual Information, SMI），越大说明相似性越大：

$$I_f(\mathcal{A};\;\mathcal{Q})=f(\mathcal{A})+f(\mathcal{Q})-f(\mathcal{A}\cup\mathcal{Q})$$

次模条件交互信息（Submodular Conditional Mutual Information, SCMI），上面二者的结合：

$$I_f(\mathcal{A};\;\mathcal{Q}|\mathcal{P})=f(\mathcal{A}\cup\mathcal{P})+f(\mathcal{Q}\cup\mathcal{P})-f(\mathcal{A}\cup\mathcal{Q}\cup\mathcal{P})-f(\mathcal{P})$$

其中 SCMI 可以通过设置不同的 $\mathcal{Q}$ 和 $\mathcal{P}$ 得到另外两种次模函数（算上标准次模函数的话就是三种），对应关系和适用场景如下：

图 1 各种SIM 函数

2. 次模函数的实例化问题

次模信息度量（submodular information measures, SIM）,一般有三种实例化的问题：

设施选址问题（Facility Location）
图切问题（Graph Cut）
对数行列式问题（Log Determinant）

Analysis

1. 标准 Active Learning

见图 1 的第一行，此时问题退化：AL 的检索样本过程只考虑多样性（不考虑检索的数据是否冗余、OOD，也不偏向 rare 的样本）。

2. 样本不平衡

主要指某些类别出现很少的情况，例如医疗影像病灶判断，真正 positive 的数据是很少的，因此可以使用 SMI 次模函数（图 1 第二行），在保证多样性的基础上，使得 AL 检索的样本与 $\mathcal{Q}$（有病灶的影像）尽可能接近。

3. 样本冗余

虽然次模函数本身保证了多样性，但是在 batch active learning 中，多样性的保证指存在与一个 batch 中。因此可以使用 SCG 次模函数（图 1 第三行），提供额外的多样性正则信息。

4. OOD 数据

未标注的数据容易出现 OOD 的数据，例如在手写数字识别的任务中，未标注的数据集中出现了手写字母的图片（不是任务目标也无法提供有效信息），是应当避免的。因此可以使用 SCMI 次模函数（图 1 第四行），使得 AL 检索的样本与 in-domin 的数据尽可能相似，与 out-of-domin 的数据尽可能远离，同时保证多样性。

5. 混合场景

当未标注数据出现了多种情景时也可以进行组合（例如即出现了冗余的数据，也出现了 OOD 的数据）：

图 2 混合场景

同时，类似于在线学习（online learning），未标注的数据集有可能是在不断产生中的，因此一开始数据集未出现上述场景的时候可以使用标准次模函数，出现了上述场景之后（例如某次数据收集之后出现了大量 OOD 样本）了可以再改用 SIM 的变体。

标签：次模,Information,OOD,Based,函数,cup,Measures,mathcal,数据
From： https://www.cnblogs.com/metaz/p/16864143.html

【论文阅读】ICRA2021: VDB-EDT An Efficient Euclidean Distance Transform Algorith
参考与前言Summary:浩哥推荐的一篇无人机下的建图andplanning实验Type:ICRAYear:2021论文链接：https://arxiv.org/abs/2105.04419youtubepresentationvideo：htt......
基于gamebased算法的动态频谱访问matlab仿真
目录一、理论基础二、核心程序三、测试结果一、理论基础随着越来越多的新型无线应用，对频谱资源的需求越来越大。在这种情况下，这是举世公认的认知无线电的出现已经成......
Codeforces Round #778 (Div. 1 + Div. 2, based on Technocup 2022 Final Round) F M
A-E都还是比较简单的。首先，容易想到的，异或上$2^k$，相当于以$2^{k+1}$的长度分块，然后每一块对半切，然后交换左右部分。我的想法是由于这个交换的性质，也许我们可以尝......
基于gamebased算法的动态频谱访问matlab仿真
目录一、理论基础二、核心程序三、测试结果一、理论基础随着越来越多的新型无线应用，对频谱资源的需求越来越大。在这种情况下，这是举世公认的认知无线电的出现已经成为......
阿里TDM论文阅读《Learning Tree-based Deep Model for Recommender Systems》
背景推荐本质上需要完成从全量商品库高效检索Topk相关商品，由于候选商品数量过于庞大，现在的推荐系统一般分为两个阶段：召回和排序。对于召回阶段，面临着从全量商品库里面，高效......
TABLA: A Unified Template-based Framework for Accelerating Statistical Machine L
TABLA:AUnifiedTemplate-basedFrameworkforAcceleratingStatisticalMachineLearning2016IEEEInternationalSymposiumonHighPerformanceComputerArchitec......
A span-based model for aspect terms extraction and aspect sentiment classificati
模型首先通过Bert进行编码，然后经过双向GRU(在论文中表示，双向GRU一般比双向LSTM的效果要好)之后经过交互层，交互层和DOER论文中的方法相同，使用双线性的注意力机制，比......
谣言检测(RDCL)——《Towards Robust False Information Detection on Social Network
论文信息论文标题：TowardsRobustFalseInformationDetectiononSocialNetworkswithContrastiveLearning论文作者：ChunyuanYuan,QianwenMa,WeiZhou,Jizhong......
ctfshow web72(绕过open_basedir)
if(isset($_POST['c'])){$c=$_POST['c'];eval($c);$s=ob_get_contents();ob_end_clean();echopreg_replace("/[0-9]|[a......
git pull提示当前branch没有跟踪信息 There is no tracking information for the cur
gitpull提示当前branch没有跟踪信息Thereisnotrackinginformationforthecurrentbranch使用第二种方法，设置本地repository和远程repository关联在执行git......