我们如何持续适应视觉-语言模型？

目前对于大型语言模型的研究和应用越来越受到关注。然而，这些模型只能处理文本数据，这在某些应用中限制了它们的用途。人类能够跨多种模式处理信息，例如书面和口头语言，以及对周围现实的视觉理解。我们期望模型也能具备类似的处理能力。

视觉-语言模型 能够同时处理文本和视觉数据，广泛应用于图像分析（例如，医学图像）、物体识别和更好的场景理解（例如，自动驾驶汽车）、为图像生成说明，回答视觉问题，讨论图像等多个领域……

不幸的是，多模态模型与单模态模型面临相同的挑战。一旦训练完成，随着新的数据样本出现或数据分布改变，它们可能会变得过时。

在我上篇文章中，我介绍了一般的AI模型的 持续学习（Continual Learning, CL） 方法。持续学习试图找出持续训练模型的方法，这可能是未来一种更可持续的解决方案。在本文中，我想探讨将 CL应用于视觉-语言模型（VLMs） 的可能性——特别是对比语言-图像预训练（CLIP）模型。

什么是CLIP？

对比语言-图像预训练（CLIP）由OpenAI于2021年在 自然语言监督下学习可迁移的视觉模型 论文[1]中提出。

CLIP模型的目标是 理解文本与图像之间的关系。如果你输入一段文字，它应该在给定的一组图像中返回最相关的图像。同样，如果你输入模型一张图像，它应该在一组可用文本中返回最契合的文本。

CLIP在一个大型的文本-图像配对数据集上进行了训练。通过对比学习，将匹配的文本-图像对在嵌入空间中拉近，而不匹配的对则分开。这种学习到的共享嵌入空间在推断过程中用于理解文本与图像之间的关系。如果你想了解更多关于CLIP的信息，我推荐这篇文章，它对CLIP进行了详细的描述。

为什么视觉-语言模型需要持续学习？

由于分布变化或新数据样本的出现，大型基础模型可能会随着时间推移而变得过时。重新训练这些模型既昂贵又耗时。TiC-CLIP论文[7]的作者指出，目前的评估实践常常未能在考虑时间演变数据时，捕捉性能差异。

在图1中你可以看到，如果我们比较2020年前训练的OpenAI模型和2022年前训练的OpenCLIP模型，尽管它们在Imagenet上的稳健性（左图）差异不大，但在2014–2016年和2021–2022年的检索任务中却存在性能差距（右图），这表明OpenAI模型在应对时间演变数据时的零样本稳健性较差[7]。

图1. 来自论文TiC-CLIP: 持续训练CLIP模型[7]的图像。

此外，对于某些使用场景，如在线终身学习（OLL）[8]，持续学习可能是一个自然选择，其中数据来自连续和非平稳的数据流，并随着时间演变。

最后，正如在[4]中指出的，CLIP 展现了显著的零样本能力，但对于某些领域，由于在预训练期间某些类别的数据不足，可能难以取得良好表现。

挑战

由于当前一些先进的视觉-语言模型需要越来越多的计算时间和资源，找到一种无需重新训练就能不断适应的方法似乎至关重要。然而，在持续适应这些模型的过程中存在一些挑战：

灾难性遗忘 — 学习新任务可能会损害旧任务的表现。
失去零样本能力 — 预训练模型可以展示零样本行为，即可以执行未接收过训练数据的任务，例如在没有在训练过程中见过图像类别的情况下对其进行分类。然而，这种能力可能在持续训练过程中丧失。
文本与图像表示的错配 — 正如[12]的作者所指出的，在CLIP的持续学习过程中，多模态表示空间的对齐可能会恶化，进而导致长期表现下降。

CLIP 的持续学习方法

关于如何改进多模态模型的持续学习方面，研究仍在进行。以下是一些现有的策略和用例：

专家混合（MoE）
为了持续训练 CLIP，[2]的作者提出了通过使用任务特定的适配器的 MoE 方法。他们在冻结的 CLIP 模型之上构建了一个动态扩展架构。
这里的想法是随着新任务的训练，添加新的适配器。同时，训练分布判别自动选择器，以便在推理阶段，模型可以自动选择测试数据是应发送到 MoE 适配器还是预训练的 CLIP 进行零样本检测。

2. CoLeCLIP

[4]的作者们关注开放领域中视觉-语言模型的持续学习问题 — 我们可能拥有来自多种已知和未知领域的包含新类别的数据集。
应对开放领域的挑战对于 AI助手、自动驾驶系统和机器人 等应用场景尤为重要，因为这些模型在复杂和不断变化的环境中运行 [4]。
CoLeCLIP 基于 CLIP 但调整用于解决开放领域问题。
在 CoLeCLIP 中，每个任务都会在冻结的 CLIP 文本编码器上附加一个外部可学习的参数高效微调（PEFT）模块，以学习类别的文本嵌入 [4]。

3. 持续语言学习（CLL）

[3]的作者指出，当前预训练的视觉-语言模型通常只支持英语。同时，创建多语言模型的流行方法成本高昂，且需要大量数据。
在他们的论文中，作者提出通过使用 CLL 来扩展语言能力，其中语言知识是逐步更新的。
CLL-CLIP 使用一个可扩展的嵌入层来存储语言差异。它只训练令牌嵌入，并针对图像与多语言文本之间的对齐进行优化 [3]。
作者们还提出了一种新颖的方法，以确保所有令牌嵌入的分布在初始化期间是相同的，并在后续训练期间进行正则化。你可以在他们论文的图2中看到这一过程的可视化。

图2. 来自论文《通过持续语言学习包容和多样化CLIP的语言》中的图片 [3]。

4. 对称图像-文本调优策略（SIT）

在[8]中，作者观察到在他们的在线终身学习场景中，参数高效调优（PET）期间文本和图像之间存在不对称性，这可能导致灾难性遗忘。
他们提出使用SIT策略来缓解这一问题。这种方法仅在在线学习期间在当前批次内匹配图像和类别标签。
目标是在不引入编码器之间的不对称性的情况下，保持CLIP的泛化能力，同时提高其在特定下游任务或数据集上的性能。

持续学习模型的评估

CL的评估标准似乎仍在进步中。许多现有的评估CL模型有效性的基准在构建数据集时并未考虑时间因素。正如[7]所提到的那样，性能差距有时可能只有在我们重新创建测试数据的时间演变设置时才会变得明显。

此外，许多现有的视觉语言模型评估基准仅关注单一图像输入，而没有测量多图像理解，这在某些应用中可能至关重要。[5]的作者开发了一个多图像评估基准，可以更细致地评估当前最先进模型的局限性和能力。

持续学习并不能解决所有问题……

像CLIP这样的视觉语言模型也有其缺点。在[6]中，作者探讨了CLIP的视觉嵌入空间与纯视觉自监督学习之间的差距。他们调查了嵌入空间中的错误匹配，即当图像不应该有相似编码时却有相似编码的情况。

从他们的结果可以得出结论，如果一个预训练模型有弱点，那么当该模型被调整时，这些弱点可能会被传递。学习视觉表示仍然是一个未解决的挑战，视觉模型可能会成为多模态系统中的瓶颈，仅靠扩展无法解决像CLIP这样的模型的内在局限性。[6]

结论

本文探讨了将持续学习应用于视觉语言模型的机会和挑战，重点是CLIP模型。希望本文能让你初步了解这种可能性，尽管持续学习似乎是未来AI模型的一个好方向，但要使其完全可用还有很多工作要做。

如果你有任何问题或意见，请随时在评论区分享。

下一次再见！

图片由作者在Midjourney生成。

参考文献

[1] Radford, A., Kim, J., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., \& Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning (pp. 8748–8763). PMLR.

[2] Jiazuo Yu, Yunzhi Zhuge, Lu Zhang, Ping Hu, Dong Wang, Huchuan Lu, \& You He. (2024). Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters.

[3] Bang Yang, Yong Dai, Xuxin Cheng, Yaowei Li, Asif Raza, \& Yuexian Zou. (2024). Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning.

[4] Yukun Li, Guansong Pang, Wei Suo, Chenchen Jing, Yuling Xi, Lingqiao Liu, Hao Chen, Guoqiang Liang, \& Peng Wang. (2024). CoLeCLIP: Open-Domain Continual Learning via Joint Task Prompt and Vocabulary Learning.

[5] Bingchen Zhao, Yongshuo Zong, Letian Zhang, \& Timothy Hospedales. (2024). Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning.

[6] 盛邦童, 刘庄, 翟悦翔, 马毅, Yann LeCun, 与谢三宁. (2024). 《眼睛睁大了吗？探索多模态LLMs的视觉缺陷》。

[7] Saurabh Garg, Hadi Pour Ansari, Mehrdad Farajtabar, Sachin Mehta, Raviteja Vemulapalli, Oncel Tuzel, Vaishaal Shankar, 与 Fartash Faghri (2023). 《TiC-CLIP：CLIP模型的持续训练》。发表于 NeurIPS研讨会。

[8] 王乐园, 翔刘宇, 魏宇杰, 王云龙, 与何兆丰. (2024). 《CLIP模型是一种高效的在线终身学习者》。

[9] Vishal Thengane, Salman Khan, Munawar Hayat, 与 Fahad Khan. (2023). 《CLIP模型是一种高效的持续学习者》。

[10] 丁宇轩, 刘岭乔, 田春娜, 杨静远, 与丁昊轩. (2022). 《不要停止学习：朝向CLIP模型的持续学习》。

[11] Akash Ghosh, Arkadeep Acharya, Sriparna Saha, Vinĳa Jain, 与 Aman Chadha. (2024). 《探索视觉-语言模型的前沿：当前方法与未来方向的综述》。

[12] Ni, Z., Wei, L., Tang, S., Zhuang, Y., 与 Tian, Q. (2023). 《使用非对角信息的持续视觉-语言表示学习》。发表于 第40届国际机器学习会议论文集。JMLR.org。

总结：

目前大型语言模型主要处理文本数据，但在人类处理信息时往往需要综合视觉和语言。因此，视觉-语言模型（VLM）得到了广泛应用，这类模型可分析图像、进行物体识别、生成说明和回答视觉问题。然而，这些多模态模型面临着与单模态模型相同的问题：随着时间的推移和新数据样本的出现，模型可能会过时。

CLIP是由OpenAI于2021年提出的一种对比学习模型，旨在理解文本与图像之间的关系。这一模型在训练时将匹配的文本-图像对拉近，而不匹配的则分开。然而，大型基础模型容易随着时间变得过时，且重新训练代价高昂。针对这一问题，提出了多种持续学习策略，如专家混合（MoE）、持续语言学习（CLL）和对称图像-文本调优策略（SIT），旨在提高模型的适应性。

当前对CL模型的评估还在不断进步，许多现有标准未能考虑时间因素，导致性能差异未能及时捕捉。尽管持续学习被视为解决未来AI模型过时问题的潜在方法，但其实现仍面临挑战。

用光年AI，轻松提升私域流量转化率，赢得市场先机！光年AI通过其强大的AI模型、自研知识库和灵活的工作流，帮您实现业务的超常规增长，显著提高营收并降低成本。选择光年AI，让您的私域流量增长无忧。

标签：学习,训练,CLIP,模型,适应,图像,视觉
From： https://blog.csdn.net/2401_86793433/article/details/141601395