北大&中大打造Chat-UniVi：高效统一视觉语言模型，130亿参数3天训练突破

时间：2023-12-22 22:32:00浏览次数：32

在人工智能领域，北京大学和中山大学的最新研究成果——Chat-UniVi，正在引起广泛关注。这个模型成功地实现了一个重大突破，即用更少的视觉token数量处理图片和视频任务，同时在训练成本上取得显著降低。这项研究不仅为视觉语言模型的发展提供了新的思路，而且在推动多模态AI应用方面具有深远意义。

Huggingface模型下载：https://huggingface.co/Chat-UniVi/Chat-UniVi
AI快站模型免费加速下载： https://aifasthub.com/models/Chat-UniVi

北大&中大打造Chat-UniVi：高效统一视觉语言模型，130亿参数3天训练突破_模态

研究背景与创新

多模态语言模型通常集中于图片或视频输入，分别采用大量视觉token来获得更精细的空间分辨率或牺牲空间分辨率以构建时间理解能力。Chat-UniVi的创新之处在于，它通过一组动态视觉token来统一表示图片和视频，有效降低了视觉token的数量，同时保持了强大的表达能力。这种方法特别适合处理可变长度的视频，为多模态语言模型提供了新的应用前景。

北大&中大打造Chat-UniVi：高效统一视觉语言模型，130亿参数3天训练突破_模态_02

Demo

北大&中大打造Chat-UniVi：高效统一视觉语言模型，130亿参数3天训练突破_模态_03

聚焦技术细节

Chat-UniVi的核心技术在于其统一的视觉表征方法。研究人员采用最近邻的密度峰聚类算法，逐步对视觉token进行分组和合并，以优化图片和视频的表示。此外，模型还引入了一个多尺度表征，上层特征表示高级语义概念，而下层特征关注视觉细节。这种多尺度表征的引入，使得Chat-UniVi能够适应各种任务，从语义理解到生成详细描述。

北大&中大打造Chat-UniVi：高效统一视觉语言模型，130亿参数3天训练突破_语言模型_04

训练过程与成效

Chat-UniVi的训练分为两个阶段：多模态预训练和联合指令微调。在预训练阶段，模型仅训练投影矩阵，冻结LLM和视觉编码器，有效捕获视觉信息而不损害LLM性能。联合指令微调阶段则在混合数据集上对整个模型进行全参数微调，实现对大量指令的理解并产生更自然的输出。

实验成果

在图片理解实验中，Chat-UniVi以更少的视觉token实现了卓越的性能，甚至在7B参数下达到了LLaVA 13B参数的水平。在视频理解方面，它超越了专门针对视频设计的方法，如VideoChat和Video-ChatGPT。在图片问答和视频问答实验中，Chat-UniVi也展现了强大的性能，特别是在抵抗幻觉的能力上超越了最新的先进方法。

未来展望

Chat-UniVi的出现为视觉语言模型的研究和应用提供了新的思路。它在多模态AI领域的应用前景广阔，尤其是在视频编辑、智能辅助系统、以及更多的AI驱动应用中。同时，它为未来视觉语言模型的设计和优化提供了宝贵的参考。

模型下载

Huggingface模型下载

https://huggingface.co/Chat-UniVi/Chat-UniVi

AI快站模型免费加速下载

https://aifasthub.com/models/Chat-UniVi

标签：视频,UniVi,模型,token,130,Chat,视觉
From： https://blog.51cto.com/u_16323307/8939284

文心一言 VS 讯飞星火 VS chatgpt （162）-- 算法导论13.1 2题
二、用go语言，对图13-1中的红黑树，画出对其调用TREE-INSERT操作插人关键字36后的结果。如果插人的结点被标为红色，所得的树是否还是一棵红黑树?如果该结点被标为黑色呢?文心一言，代码不能运行：在Go语言中，对红黑树进行插入操作后，需要重新调整树的结构以保持其红黑性质。下面是一个示例......
文心一言 VS 讯飞星火 VS chatgpt （162）-- 算法导论13.1 2题
二、用go语言，对图13-1中的红黑树，画出对其调用TREE-INSERT操作插人关键字36后的结果。如果插人的结点被标为红色，所得的树是否还是一棵红黑树?如果该结点被标为黑色呢?文心一言，代码不能运行：在Go语言中，对红黑树进行插入操作后，需要重新调整树的结构以保持其红黑性质。下面是一个......
当 ChatGPT 有了身体会怎样？《Nature》预测 2024 科技大事丨 RTE 开发者日报 Vol.112
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（RealTimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表......
鸿蒙、ChatGPT 入选全球十大工程成就丨 RTE 开发者日报 Vol.111
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（RealTimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表......
文心一言 VS 讯飞星火 VS chatgpt （161）-- 算法导论13.1 1题
一、用go语言，按照图13-1(a)的方式，画出在关键字集合(1，2，…，15)上高度为3的完全二叉搜索树。以三种不同方式向图中加入NIL叶结点并对各结点着色，使所得的红黑树的黑高分别为2、3和4。文心一言：首先，我们需要明确什么是完全二叉搜索树（CompleteBinarySearchTree,CBST）和红黑树（Red......
大模型：高质量对话数据生成，Enhancing Chat Language Models by Scaling High-quality I
EnhancingChatLanguageModelsbyScalingHigh-qualityInstructionalConversations论文地址1.导读不少工作已经意识到ChatGPT的秘密在于将指令微调和对其微调做到了极致，是继GPT-3后的又一次大力出奇迹。这篇文章来自清华大学5月份的工作，目的在于生成高质量的指令微调......
ChatGPT
一、ChatGPT基础知识transformer机制和RLHFRLHF（ReinforcementLearningfromHumanFeedback）是基于人类反馈来构建强化学习，使用强化学习的方法和框架，是模型能够接纳人类反馈。不要求构建真实的环境，而是用人工标注的反馈信息去构成环境的奖励机制。这样训练的结果就是系统汇迎合......
好家伙，这个开源项目硬生生复制了一个 ChatGPT Plus 出来
最近有一款聊天机器人框架LobeChat火出了天际，它不仅支持多模态，支持语音会话，还有一个强大的FunctionCalling插件生态系统（可以作为ChatGPT插件的平替）。最重要的是，它的UI很漂亮，一看就是小姐姐精心设计过的~连Vercel的CEO都给它点赞了：项目地址：https://github.com/lob......
GPT-4没通过图灵测试！60年前老AI击败了ChatGPT，但人类胜率也仅有63%
长久以来，「图灵测试」成为了判断计算机是否具有「智能」的核心命题。上世纪60年代，曾由麻省理工团队开发了史上第一个基于规则的聊天机器人ELIZA，在这场测试中失败了。时间快进到现在，「地表最强」ChatGPT不仅能作图、写代码，还能胜任多种复杂任务，无「LLM」能敌。然而，ChatGPT却在最近一......
Chat接入
一、文档https://platform.openai.com/docs/api-reference/chat二、调用curlhttps://api.openai.com/v1/chat/completions\-H"Content-Type:application/json"\-H"Authorization:Bearer$OPENAI_API_KEY"\-d'{"model":"......