标签：视频 prompt 训练模型论文笔记李沐数据 Adapter

LLaMA 最近开源，分别开源了 7e9, 1.3e10, 3.3e10, 6.5e10 四个参数量的模型。但是这里有意思的是，他们管自己的模型称为 smaller models。

Google 推出了 22B 的 ViT

1. Efficient（PEFT）

简要概括

更高效，哪里慢就让它快起来

让所有的方法更 efficient 一些。

论文 1：AIM

论文：AIM: Adapting Image Models for Efficient Video Action Recognition

如何使用 parameter efficient fine-tuning

本篇是做视频动作识别（视频理解）

摘要、介绍、相关工作、结论

之前的视频理解的工作，粗略地可以被分为两类：

时间上和空间上地处理尽量分开
时间上和空间上一起做

比如这里的左图，先预训练好一个图片模型，接下来地步骤大致分为：

在已经与训练好的图片模型之上，单独地增加一个时序处理地模块
3D 网络，时间空间特征一起学

虽然效果很好，但是计算代价实在太大，这些模型都需要 Full Fine Tune，尤其是视频数据集非常大的时候很难受。

本文研究动机来自于 CLIP，证明了它自己即使直接 zero-shot 就会很好，而且它也说明了在视频方面的任务上：

训练的很好的图像模型可以直接拉过来，且越来越具有泛化性，因此可能不需要 finetune 的部分了。
防止灾难性遗忘，如果有一个大模型，下游没有很好的数据集（或者说没有很多的数据），硬要 finetune 这个大模型的话，往往会做不好。

于是本文拿到一个好的图像模型后，直接把其参数锁住。然后通过修改周边的方式，来让这个模型具备时序建模的能力，来让这个模型能够直接做视频理解任务。

而 PEFT 有两个简单的方式：

Adapter
prompt tuning

Adapter

Adapter 论文：Parameter-Efficient Transfer Learning for NLP

Adapter Layer 结构

下采样的 FC 层
非线性激活层
上采样的 FC 层
最后还有一个 residual connection

它是把 Adapter 可以随意地插入 TFM block 中，然后锁住原 TFM 的参数，只训练 Adapter。

这样由于 Adapter 相比 TFM 参数量很小，因此不是特别大。

Prompt tuning

Prompt tuning 方法简单地讲，就是给模型一个提示，让模型做要做的事。

Prompt tuning 论文：Learning to Prompt for Vision-Language Models

hard prompt（手工 prompt）：由于手工写的 prompt 一旦写出来就写死了，这会隐含一个先验知识，可能会对最后的效果产生影响。比如上图中前三个蓝色的部分。
soft prompt：让论文自己学习 prompt。比如上图中绿色的部分。

上面是文本的分支，和预测的 [CLASS] 一起进入文本编码器，得到文本的特征。

下面图片进入图片编码器，得到一个图像特征。然后这一个图像特征和文本特征做相似度，看哪个最高选哪个。

这里和 CLIP 的区别在于：prompt 变成了一个可以学习的上下文。

通过这种方式把原来的模型锁住，只学习 prompt，减少计算量。

纯视觉也可以用 prompt，例如论文：Visual Prompt Tuning

上图是 Visual Prompt Tuning 模型的总览图。

首先有个输入（图片），和一些已经训练好并被冻结的层。
接下来开始加 prompt。这个 prompt 加在前面。
图片打成 patch 后先通过 embedding 层。然后和学习的 prompt 一起丢尽模型里
然后整个模型只优化 prompt 这个 \(P_0\)

VPT deep 的意思是说，每一层的输入输出的时候，都加上 learnable 的 prompt。

Deep 的效果比 Shallow 要好一些，这俩都比不用 prompt 要好。

方法

模型

作者都认为自己的方法简单。

主要思路就是锁住模型参数，然后往模型里加 Adapter。

有三种方式进行修改：

Spatial Adaptation：别的都锁住，只在 Self-Attention 后面加一层 Adapter。
- 作者认为，意义在于：
  - 不给其添加什么视频理解的能力以及时序建模的能力
  - 只给它加一些可以学习的参数，看看它能不能从图像学习到的特征迁移到视频数据集来。
  - 看看能不能解决领域之间有差距的问题。
- 后面其实这个方法已经有用了，但是缺少了时序建模的能力，效果不尽如人意，比不上之前 full finetune 的模型。
Temporal Adaptation：
- 做了修改有：
  - 两个 self-attention 加一个 MLP
  - 两个 attention 参数一样
  - 第一个 T attention 输入的矩阵先 reshape 一下，维度为 \((N+1) \times T \times D\)，是在时序这个维度上做自注意力
  - 第二个 S attention 输入的矩阵再 reshape 回来，维度为 \(T \times (N + 1) \times D\)，在 sequence length 的维度上做自注意力
- 这里有个问题，层的参数是锁住的，那么怎么确保一个学 spatial 另一个学 temporal 呢？
  - 于是在 T attention 后面加了一个 adapter，S attention 后面也加了一个
  - 这样就有两套可以学习的参数
- 于是这样可以达到 full finetune 的模型，甚至超越
Joint Adaptation
- 修改：
  - 在 MLP 旁边加上了 Adapter
- 目的：
  - 希望最后做一层 Spatial Temporal
  - 希望三个 Adapter 各司其职，各自学各自该学的
- 最后这个模型结构其实就是 AIM 了。

实验

TimesFormer 做 baseline，跟 AIM 结果也很相近。

Frozen space-only：也是常说的 LinearProbe，整个 backbone 锁住，只去 tune 最后的 head。
Finetuned space-only：正常的模型 Finetune
Finetuned space-time：TimesFormer 本身，是一个 Video 的 FullFineTuning 的过程
Frozen space-only + spatial adaptation：加上了 spatial adaptation 后，可以发现和 Finetuned space-only 差不多，但是训练参数量只有 3.7 M
Frozen space-only + temporal adaptation：加上 temporal adaptation 后，效果直接翻一倍
- 这里超过了 FullFinetune 的模型
Frozen space-only + joint adaptation adaptation：还能再提升一点点
AIM：再把预训练模型从 IN-21K 换成 CLIP，于是还有提升

上表是在 AIM 在 K400 数据集上的表现。比之前的方法要高。

上表是 AIM 在 Something-Something 数据集、K700 数据集和 Diving-48 数据集上的表现。

Something-Something
- 表现不是最好的
  - 可能数据集更加 Temporal Heavy，更注重时序信息，而且很细粒度
- 但也很有竞争力
剩下两个数据集都取得了大于等于 SOTA 的结果。

大部分实验都是一台 8 卡机能完成的，短则半天，长则三四天。

2. Existing stuff (pretrained model) New directions

简要概括

能不 pretraining 就不 pretraining

能借助已有的东西，就尽量借助已有的东西，例如别人的预训练模型。

没有足够多的资源，尽量不要去碰 pretraining，可选项：Zero-show、Few-show、FineTuning，所需资源从左到右上升
或者做新方向，这里可能没有成熟的数据集和 Benchmark，因此数据和 Setting 都可以自己选
找不到新方向的话，专心提高自己的方法

简单给几个新的 topic：

Causality Learning：因果学习
Feed forward Network（为什么这个是新方向？）
In-Context Learning：nlp 领域的
Chain-of-thought prompting