首页 > 其他分享 >大模型背景下计算机视觉年终思考小结(上)

大模型背景下计算机视觉年终思考小结(上)

时间:2024-01-13 15:33:21浏览次数:32  
标签:计算机 训练 模型 任务 年终 图像 视觉 小结

1. 引言

在过去的十年里,出现了许多涉及计算机视觉的项目,举例如下:

  • 使用射线图像和其他医学图像领域的医学诊断应用
  • 使用导航图像分析建筑物和土地利用率相关应用
  • 各种环境下的目标检测和跟踪,如交通流统计、自然环境垃圾检测估计等

大模型背景下计算机视觉年终思考小结(上)_大模型

上述应用所采用的计算机视觉的方法遵循统一的标准流程:

  • 首先定义需要解决的问题所属类别(分类、检测、跟踪、分割) 以及相应输入数据的分辨率等
  • 接着需要人工标注数据
  • 选择一个网络进行训练,验证和进行一些统计值分析
  • 建立推理脚本并进行部署

到2023年底,人工智能领域迎来了来自生成式AI的新爆发:大语言模型(LLM)和图像生成式模型。每个人都在谈论它,那么它对计算机视觉领域的应用有什么改变呢?本文我们将探索是否可以利用它们来构建数据集,以及如何利用新的架构和新的预训练权重,或者从大模型中进行蒸馏学习。

2. 理想的计算机视觉应用开发

在工业界,我们通常感兴趣的是可以以相对较小的成本来构建和部署计算机视觉相关应用,小规模计算机视觉特性如下:

  • 小规模计算机视觉开发成本不应过高
  • 它不应该需要庞大的基础设施来训练(想想算力和数据规模)
  • 它不需要具备强大的研究技能,而是现有技术的扩展应用
  • 推理应该是轻量化和快速的,这样它就可以在嵌入式或部署在CPU/GPU服务器上

小规模计算机视觉显然不是当今人工智能的趋势,因为我们看到具有数十亿参数的模型开始成为一些应用程序的标准设计。我们听到了很多关于这方面的消息,但重要的是要记住,关注较小的规模在某些场景的应用也是至关重要的,并不是所有项目都应该遵循谷歌、Meta、OpenAI或微软的大模型规模趋势。事实上,大多数有趣的计算机视觉项目实际上比那些成为头条新闻的项目规模要小得多。

考虑到这一点,我们还能利用人工智能的最新发展来进行相关应用开发吗?首先让我们深入了解下计算机视觉下的基础模型。

3. 计算机视觉基础模型

最近的大语言模型(LLM)非常流行,因为大家可以轻松地在应用程序中使用基础模型(许多是开源的,或者可以通过API使用), 事实上大家也可以把GPTBertLlama想象成这样的提取文本特征的基础模型。基础模型是一个非常大的通用神经网络,可作为大多数下游任务的基础。它包含了关于非常广泛的主题、语义、语法等的知识。

类比到计算机视觉领域中,我们已经使用这样的模型有一段时间了:在过去的10年里,使用在ImageNet上预先训练的神经网络(100万张标记的图像)作为下游任务的“基础”模型是标准的训练流程。大家可以在上面建立自己的神经网络,如果需要的话,可以根据自己的数据对其进行微调。

大模型背景下计算机视觉年终思考小结(上)_计算机视觉_02

ImageNet上预训练的视觉网络和大语言预训练模型LLM之间有两个主要的概念上的差异:

  • 训练二者的数据类型不同:ImageNet上视觉网络的训练依赖于纯有监督学习,一个1000个类别的分类任务;然而LLM属于生成式模型,它们是使用原始文本以自监督的方式进行训练的(任务通常为预测下一个单词)
  • 这些基础模型对新任务的适应:ImageNet上预训练网络需要新的学习过程来适应新任务。对于LLM,虽然也可以对模型进行微调,但该模型足够强大,通常可以直接用于下游任务,而无需做进一步的训练,只需提供给模型正确的提示信息,使其对新任务有用

目前大多数计算机视觉应用,如分类、目标检测、语义分割等任务,仍然使用ImageNet预训练网络的权重。让我们回顾一下最近推出的新模型,这些模型可能对我们的计算机视觉任务有用。

4. 大规模视觉模型

在计算机视觉的世界里,除了ImageNet外,今年来有很多自监督网络的例子,其中一些是生成式模型(想想最新的GAN和最近大火的扩散模型)。它们仅在原始图像或图像-文本对(例如图像及其描述)上进行训练。它们通常被称为LVM(大规模视觉模型)。

  • DINOV2: 一组大型ViT集合(视觉transformer,1B参数量),明确旨在成为计算机视觉的良好基础模型,即这样的模型可以提取一些通用的视觉特征,也就是说,这些特征适用于不同的图像任务,无需进行进一步的微调即可使用, 而且它以完全自监督的方式进行训练。

大模型背景下计算机视觉年终思考小结(上)_大模型_03

  • SAM: 一个致力于高分辨率图像的ViT,专门设计用于分割,并实现零样本分割(无需注释即可生成新的分割mask)。使用LoRA可以廉价地“微调”SAM,从而大幅减少必要的训练图像数量。另一个用例是使用SAM作为医学图像分割中的补充输入。

大模型背景下计算机视觉年终思考小结(上)_计算机视觉_04


5. 图文大模型

图文大模型的主要以图像文本对作为模型的输入,这类模型随着对比学习的快速发展也得到了迅速的崛起,举例如下:

  • CLIP: 图像和文本描述的特征对齐,非常适合少样本分类任务,并在实践应用中作为各种下游CV任务的基础模型
  • 大模型背景下计算机视觉年终思考小结(上)_大模型_05

  • Scaling Open-Vocabulary Object Detection: 现有的开放世界目标检测算法中,得益于大规模的图像-文本对,预训练的encoder有较多的数据支撑,但在应用于目标检测时,由于检测数据集比起图像-文本数据集数量规模少很多,限制了开放世界目标检测算法的性能。这里作者用self-training的范式来扩展检测数据集。
  • 大模型背景下计算机视觉年终思考小结(上)_计算机视觉_06

6. 文生图大模型

文生图模型现在属于大规模生成式模型,通常为多模式的任务(包括在其架构中能够理解复杂文本的大型语言基础模型),比较出名的例子为StableDiffusion以及DALL-E 这两项工作的细节,可以直接去附录进行更全面的了解研究。

大模型背景下计算机视觉年终思考小结(上)_大模型_07


7. 视觉多任务大模型

  • Florence-2: unified Computer Vision (Microsoft)

大模型背景下计算机视觉年终思考小结(上)_计算机视觉_08

该模型采用了一种基于prompt的统一表示方法,广泛适用于各种 CV 和 Visual-Language 任务。与现有的 CV 大模型在迁移学习方面表现出色不同,它在执行各种任务时可以通过简单的指令来处理不同的空间层次和语义粒度的复杂性。Florence-2 核心为通过采用文本提示作为任务说明来支持语义描述生成(image captioning),目标检测(object detection)、定位(grounding)和分割(segmentation)等相关视觉任务。

8. 多用途大模型

业内还涌现一批封闭源代码,仅通过API调用的大型多用途大模型,虽然不以视觉为中心,但展示了卓越的视觉功能,而且还具有生成式功能:比如Open AI的GPT-4V 以及Google的Gemini(下图所示),都带来了行业内新的大模型发展高度。与之对比,还有许多开源的、较小规模的多用途视觉+文本大模型也在开发中,例如LlaVA

大模型背景下计算机视觉年终思考小结(上)_计算机视觉_09

所有这些模型都是强大的基础模型,涵盖了许多视觉文本领域,并擅长在许多情况下进行判别式或生成式任务。

9. 总结

本文主要用来回顾了23年相关大模型在计算机视觉多个领域的发展现状,以及一些突出的技术论文概要分享,主要涉及图像大模型到图文大模型以及生成式大模型。对于这些大模型,在实际工作和项目中,我们更多的应该是思考如何在我们特定的、小规模的背景下利用好它们。

本章节主要为相关论文的梳理和概述总结,下一节我们会针对实际项目中如何结合大模型进行数据集的构造等方向进行归纳总结。

10. 参考链接

主要参考论文和文献资料梳理如下:

DINO V2

SAM

SAMed

SAM medical image segmentation

CLIP

Scaling Open-Vocabulary Object Detection

StableDiffusion

DALL-E

Florence-2

GPT-4V

Gemini

LlaVA

Small Scale Computer Vision

标签:计算机,训练,模型,任务,年终,图像,视觉,小结
From: https://blog.51cto.com/u_15506603/9232502

相关文章

  • OpenCV计算机视觉学习(15)——浅谈图像处理的饱和运算和取模运算
    如果需要其他图像处理的文章及代码,请移步小编的GitHub地址传送门:请点击我如果点击有误:https://github.com/LeBron-Jian/ComputerVisionPractice本来在前面博客OpenCV计算机视觉学习(2)——图像算术运算&图像阈值(数值计算,掩膜mask操作,边界填充,二值化)里面已经学习了......
  • 机器视觉 - YoloV8 命令行安装
    创建python环境下载并安装miniconda安装包,注意miniconda和python版本对应关系,不要选择python最新的版本,以免yolo或pytorch不能兼容最新版python.这里到安装到C:\miniconda3配置conda环境,修改conda配置文件内容,文件名为C:\Users\myuser\.condarcpy虚拟环......
  • OpenCV - 计算机视觉开发
      OpenCV 介绍  OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉库,它提供了很多函数,这些函数非常高效地实现了计算机视觉算法(最基本的滤波到高级的物体检测皆有涵盖)。  OpenCV是跨平台的,可以在Windows、Linux、Mac OS、Android、iOS等操作系统上......
  • Android Bluetooth 蓝牙开发/蓝牙协议 小结
    蓝牙术语蓝牙蓝牙术语:HFP(Hands-freeProfile)耳机模式:让蓝牙设备可以控制电话,如接听、挂断、拒接、语音拨号等,拒接、语音拨号要视蓝牙耳机及电话是否支持。HSP(HandsetProfile)耳机模式用于支持蓝牙耳机与移动电话之间使用蓝牙电话广播:BluetoothHeadsetClient.ACTION_CA......
  • 【2023年度技术盘点】「年终盘点后端系列」探索服务架构体系的技术风向,构建微服务核心
    文章导航大纲前提背景回顾过去的几年,我们目睹了科技界的快速发展,其势头如同一列驶向前方的高速列车。作为后端开发者,我们见证了每一次技术革新所带来的广阔前景。这些创新不仅深刻影响着我们的工作方式,而且不断引领我们走向未来。随着数字化浪潮的涌现,不同的架构设计理念相互交织,共......
  • 应用案例 | 基于三维机器视觉的焊接件上料解决方案
    在制造业中,还有许多传统的焊接自动化设备主要是通过人工来进行上料。传统的上料过程中,主要是通过人工来进行的。上料过程中会收到人为因素的影响,如操作人员的技能水平、工作态度等,导致上料不准确,不稳定,影响工作效率。例如,操作人员无法准确地将焊接件放置在指定位置,或者放置的焊接件......
  • 应用案例 | 基于三维机器视觉的自动化无序分拣解决方案
    近年来,电商行业蓬勃发展,订单的海量化、订单类型的碎片化,使物流行业朝着“多品种、无边界、分类广”的方向迅速发展。根据许多研究机构的预测,电子商务销售额预计将以每年两位数的速度增长,推动整个行业的规模不断扩大。物流分拣一直是一项单调乏味的体力活,长期以来存在着招工难的问题......
  • 你逛过凌晨四点的校园吗?--大四毕业生的年终总结
    前言:Hello大家好,我是Dream。又是一年的年终总结,我也迎来了自己的毕业季,没错,我马上要毕业啦!不知道大家是什么时候认识我的呢,又或者是第一次发现我~这一年,迎接过朝阳、拍下过夕阳,和路过的小狗摇脑袋,好好吃过每一顿饭,认真做着每一件很小的“大事”。这是我连续第三年提笔写年终......
  • # Cockpit开机自启动小结
    之前使用cockpit作开机自启动是手动修改/usr/lib/systemd/system/cockpit.service文件,其实是不规范的操作,配置自启动应该执行如下命令:$sudosystemctlenablecockpit.socketCreatesymlink/etc/systemd/system/socket.target.wants/cockpit.socket->/usr/lib/systemd/syste......
  • 书籍推荐-《计算机视觉的特征描述》
    以下内容来自公众号【一点人工一点智能】编辑:东岸因为@一点人工一点智能书籍:RoboticVehicles:SystemsandTechnology作者:TianSengNg出版:Springer《计算机视觉的特征描述》通过对近100种局部、区域和全局特征描述符的调查,将该领域的历史发展与当代方法的最新分析相结合,而......