阿里巴巴发布 Qwen2-VL 人工智能模型，具备先进的视频分析和推理能力

时间：2024-09-01 11:54:28浏览次数：14

标签：视频宇航员 Qwen2 模型 VL 人工智能视觉

中国阿里巴巴集团的云计算部门阿里云周四宣布推出一款名为 Qwen2-VL 的新型人工智能模型，该模型具有高级视觉理解能力和多语言对话能力。

在这里插入图片描述

该公司在 Qwen-VL 人工智能模型的基础上，历时一年研发出了新模型，并表示它可以实现对长度超过 20 分钟的高质量视频的理解。

据阿里巴巴称，它可以总结视频内容、回答相关问题、实时保持连续的对话流以及即时聊天支持。因此，它可以充当个人助理，直接使用从视频内容中提取的信息。

在一个例子中，我们给该模型提供了一段视频，似乎是国际空间站的纪录片短片，其中包括控制中心的场景和两名宇航员在太空漂浮时在太空舱内讲话的镜头。

它并不完美。当被要求对场景进行总结时，模型给出了清晰的输出，包括对说话的个人、控制室以及 "这些人似乎是宇航员，他们穿着太空服 "的描述。宇航员并没有穿太空服，他们似乎穿着有领衬衫和裤子。

当被问及宇航员穿的衣服是什么颜色时，模特正确地回答道"两名宇航员分别穿着蓝色和黑色的衣服。其中一人确实穿着蓝色衬衫，另一人穿着黑色衬衫。

该模型能够为文字对话实时即时聊天提供基础，用户可以与模型对话，模型可以回答有关视频的问题。它还能基于视觉进行功能调用和工具使用，使其能够检索和访问航班状态、天气预报和包裹跟踪等外部数据。这将使它在与客户服务人员或现场工作人员互动时非常有用，他们可以向它展示产品图片、条形码或其他信息。

功能调用和类人视觉感知

Qwen2-VL 系列建立在 Qwen 型号系列的基础上，在几个关键领域取得了重大进步：这些模型可以集成到手机和机器人等设备中，从而实现基于视觉环境和文本指令的自动化操作。这一功能凸显了 Qwen2-VL 作为需要复杂推理和决策的任务的强大工具的潜力。

阿里巴巴表示，Qwen-VL 模型的一个关键改进是继续使用视觉转换器模型（ViT）和 Qwen2 语言模型。该公司说，它使用的 ViT 有大约 6 亿个参数，可以同时处理图像和视频输入。

该模型通过实施本地动态分辨率支持得到了增强，从而使模型能够处理任意数量的图像分辨率，这是对其前身的升级。此外，新增的多模态旋转位置嵌入系统（M-ROPE）进一步使模型能够同时理解文本、二维视觉和三维位置数据。

Qwen2-VL 采用高度许可的 Apache 2.0 许可，有 Qwen2-VL-2B 和 Qwen2-VL-7B 两种尺寸的开源版本。公司还发布了在 Hugging Face 上运行 70 亿参数模型的演示。

该公司指出，该模型确实有其局限性，因为它无法从视频文件中提取音频，因为它只是为视觉推理而设计的。此外，该模型的训练内容截至 2023 年 6 月，无法保证复杂指令或场景的完全准确性。不过，阿里巴巴表示，该模型的性能和视觉能力在大多数指标上都达到了顶级基准，甚至超过了 OpenAI 的旗舰产品 GPT-4o 和 Anthropic 的 Claude 3.5-Sonnet 等闭源模型。

该公司表示，Qwen2-VL 系列将成为迈向更强大视觉语言模型的垫脚石。这些模型将集成更多的功能，以实现 "全方位 "模型，能够在视觉和音频之间进行推理。

感谢大家花时间阅读我的文章，你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容，请多多关注我的动态！

标签：视频,宇航员,Qwen2,模型,VL,人工智能,视觉
From： https://blog.csdn.net/weixin_41446370/article/details/141781714

AI编码新时代：免费人工智能助手Blackbox AI
前言：在当今快速发展的科技时代，人工智能已经渗透到我们生活的方方面面，从智能手机的语音助手到智能家居控制系统，再到在线客服和个性化推荐算法，AI智能工具正变得越来越普遍。它们以其高效、智能和用户友好的特性，极大地提升了我们的生活和工作效率。作为一个热衷于尝试各种......
马铃薯叶片病害识别系统+Python+图像识别+人工智能+深度学习+卷积神经算法+计算机课设
一、介绍马铃薯叶片病害识别系统。本项目使用Python作为主要开发语言，基于TensorFlow等深度学习框架搭建ResNet50卷积神经算法网络模型，通过对收集到的3种常见的马铃薯叶片病害数据集（'早疫病','健康','晚疫病'）进行训练得到一个识别精度较高的模型，然后将模型以H5格式文件形式保存......
阿尔茨海默病症识别+图像识别Python+人工智能+深度学习+TensorFlow+机器学习+卷积神经
一、介绍阿尔茨海默病症识别。使用Python作为主要编程语言进行开发，基于深度学习等技术使用TensorFlow搭建ResNet50卷积神经网络算法，通过对病症图片4种数据集进行训练['轻度痴呆','中度痴呆','非痴呆','非常轻微的痴呆']，最终得到一个识别精确度较高的模型。然后使用Django框架......
servlet
ServletServlet是Javaweb开发的基石，与平台无关的服务器组件（操作系统），它运行在Servlet容器/web应用服务器/Tomcat中，负责与客户端通信Servlet的功能1.创建并返回基于客户请求的动态HTML页面2.可以与数据库进行通信Servlet的使用Servlet本身是一种接口，存在与Javax.servle......
基于人工智能的大学生出入校园穿搭推荐系统的设计与实现-计算机毕业设计源码+LW文档
摘要本文针对大学生出入校园时穿搭风格多样、个性化需求高且难以获取有效穿搭建议的现象，提出了一种基于人工智能的大学生出入校园穿搭推荐系统。该系统利用深度学习技术，结合时尚潮流趋势和大学生群体特征，构建了一个智能化的穿搭推荐。通过采集和分析大量时尚穿搭数据，系统能够准确......
通义千问-VL-Chat-Int4
Qwen-VL 是阿里云研发的大规模视觉语言模型（LargeVisionLanguageModel,LVLM）。Qwen-VL可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。Qwen-VL系列模型性能强大，具备多语言对话、多图交错对话等能力，并支持中文开放域定位和细粒度图像识别与理解。安装要求(......
阿里重磅开源超强AI模型Qwen2-VL：能理解超 20 分钟视频！
炸裂！阿里巴巴的云计算部门刚刚发布了一款全新的AI模型——Qwen2-VL，而且一口气发布了20亿参数和70亿参数两个版本，还开放了最强720亿参数版本的API！小伙伴们可能要问了，这个Qwen2-VL到底有多厉害？01、Qwen2-VL有多厉害？·看得清，看得懂： Qwen2-VL在各种视觉理解任务上都取......
人工智能如何革新电子邮件营销
电子邮件通讯是客户关系管理的主要方式之一，但这并不意味着它们是理想的。它们既固定又耗时；这些通讯通常在发送之前提前几周或几个月准备好，然后在最后一刻更新以加入促销和其他修改，这会导致大量重复工作和混乱。它们对独特客户的兴趣适应很少，除了可能进行几次A/B测试，但这些测试......
Java人证合一接口原理、身份证识别、人工智能
人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关技术，通常也叫做人像识别、面部识别。人证合一接口，一般是指人脸与身份证识别接口的相结......
生成式人工智能(大语言模型)上线备案清单准备
一、大模型备案所需资料详解1、大模型上线备案表这是备案申请的核心材料，需详细填写大模型的基本情况、模型研制过程、服务内容、安全防范措施、安全评估结果及自愿承诺等信息。表格内容应真实、准确，无遗漏，为后续审核提供全面依据。2、语料标注规则语料标注是训练大模型的基......

阿里巴巴发布 Qwen2-VL 人工智能模型，具备先进的视频分析和推理能力

功能调用和类人视觉感知

相关文章

赞助商

阅读排行