昨天去听了一个宣讲,晚上和 5w citation 的老师吃了一个饭,收获了一个合影。吃饭的时候和刘夏雷老师交流了一个工作,通俗语言表达如下。
连续学习的 setting 下有一个灾难性遗忘的问题。举一个具体一点的例子:现在我们有一个图片分类的任务,原先有 10 类,现在要扩充至 20 类。原先我们建立一个 image 到 1~10 数字的映射,现在我们建立一个 image 到一段文字的映射。原先我们要输出一个数字,我们现在变成输出 token。
昨天另外听了我校徐君老师的一个工作,这个工作中了 icml,也用通俗语言记录一下
我们发现 vision 或者 nlp 网络中有一个模块叫做激活函数。在反向传播过程中,激活函数求导所用到的表达式很长,存储中间量是必要的,但这很消耗显存。我们想把表达式剪短,做法是使用(2/4/8)个 Relu 加权平均,权重是固定的,可以简单预训练或者得到。
skyh 表示:我们 icml 是这样的,你不服你也投去啊。
以上都是大概的 idea 的陈述,具体模型结构选择/不严谨的地方的理论证明请关注论文。
标签:10,17,05,一个,image,icml,2024,我们 From: https://www.cnblogs.com/yspm/p/18198864/WasteWords20240517