首页 > 其他分享 >北大&中大打造Chat-UniVi:高效统一视觉语言模型,130亿参数3天训练突破

北大&中大打造Chat-UniVi:高效统一视觉语言模型,130亿参数3天训练突破

时间:2023-12-22 22:32:00浏览次数:32  
标签:视频 UniVi 模型 token 130 Chat 视觉

在人工智能领域,北京大学和中山大学的最新研究成果——Chat-UniVi,正在引起广泛关注。这个模型成功地实现了一个重大突破,即用更少的视觉token数量处理图片和视频任务,同时在训练成本上取得显著降低。这项研究不仅为视觉语言模型的发展提供了新的思路,而且在推动多模态AI应用方面具有深远意义。

  • Huggingface模型下载:https://huggingface.co/Chat-UniVi/Chat-UniVi
  • AI快站模型免费加速下载: https://aifasthub.com/models/Chat-UniVi

北大&中大打造Chat-UniVi:高效统一视觉语言模型,130亿参数3天训练突破_模态

研究背景与创新

多模态语言模型通常集中于图片或视频输入,分别采用大量视觉token来获得更精细的空间分辨率或牺牲空间分辨率以构建时间理解能力。Chat-UniVi的创新之处在于,它通过一组动态视觉token来统一表示图片和视频,有效降低了视觉token的数量,同时保持了强大的表达能力。这种方法特别适合处理可变长度的视频,为多模态语言模型提供了新的应用前景。

北大&中大打造Chat-UniVi:高效统一视觉语言模型,130亿参数3天训练突破_模态_02

Demo

北大&中大打造Chat-UniVi:高效统一视觉语言模型,130亿参数3天训练突破_模态_03

聚焦技术细节

Chat-UniVi的核心技术在于其统一的视觉表征方法。研究人员采用最近邻的密度峰聚类算法,逐步对视觉token进行分组和合并,以优化图片和视频的表示。此外,模型还引入了一个多尺度表征,上层特征表示高级语义概念,而下层特征关注视觉细节。这种多尺度表征的引入,使得Chat-UniVi能够适应各种任务,从语义理解到生成详细描述。

北大&中大打造Chat-UniVi:高效统一视觉语言模型,130亿参数3天训练突破_语言模型_04

训练过程与成效

Chat-UniVi的训练分为两个阶段:多模态预训练和联合指令微调。在预训练阶段,模型仅训练投影矩阵,冻结LLM和视觉编码器,有效捕获视觉信息而不损害LLM性能。联合指令微调阶段则在混合数据集上对整个模型进行全参数微调,实现对大量指令的理解并产生更自然的输出。

实验成果

在图片理解实验中,Chat-UniVi以更少的视觉token实现了卓越的性能,甚至在7B参数下达到了LLaVA 13B参数的水平。在视频理解方面,它超越了专门针对视频设计的方法,如VideoChat和Video-ChatGPT。在图片问答和视频问答实验中,Chat-UniVi也展现了强大的性能,特别是在抵抗幻觉的能力上超越了最新的先进方法。

未来展望

Chat-UniVi的出现为视觉语言模型的研究和应用提供了新的思路。它在多模态AI领域的应用前景广阔,尤其是在视频编辑、智能辅助系统、以及更多的AI驱动应用中。同时,它为未来视觉语言模型的设计和优化提供了宝贵的参考。

模型下载

Huggingface模型下载

https://huggingface.co/Chat-UniVi/Chat-UniVi

AI快站模型免费加速下载

https://aifasthub.com/models/Chat-UniVi

标签:视频,UniVi,模型,token,130,Chat,视觉
From: https://blog.51cto.com/u_16323307/8939284

相关文章

  • 文心一言 VS 讯飞星火 VS chatgpt (162)-- 算法导论13.1 2题
    二、用go语言,对图13-1中的红黑树,画出对其调用TREE-INSERT操作插人关键字36后的结果。如果插人的结点被标为红色,所得的树是否还是一棵红黑树?如果该结点被标为黑色呢?文心一言,代码不能运行:在Go语言中,对红黑树进行插入操作后,需要重新调整树的结构以保持其红黑性质。下面是一个示例......
  • 文心一言 VS 讯飞星火 VS chatgpt (162)-- 算法导论13.1 2题
    二、用go语言,对图13-1中的红黑树,画出对其调用TREE-INSERT操作插人关键字36后的结果。如果插人的结点被标为红色,所得的树是否还是一棵红黑树?如果该结点被标为黑色呢?文心一言,代码不能运行:在Go语言中,对红黑树进行插入操作后,需要重新调整树的结构以保持其红黑性质。下面是一个......
  • 当 ChatGPT 有了身体会怎样?《Nature》预测 2024 科技大事丨 RTE 开发者日报 Vol.112
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(RealTimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表......
  • 鸿蒙、ChatGPT 入选全球十大工程成就丨 RTE 开发者日报 Vol.111
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(RealTimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表......
  • 文心一言 VS 讯飞星火 VS chatgpt (161)-- 算法导论13.1 1题
    一、用go语言,按照图13-1(a)的方式,画出在关键字集合(1,2,…,15)上高度为3的完全二叉搜索树。以三种不同方式向图中加入NIL叶结点并对各结点着色,使所得的红黑树的黑高分别为2、3和4。文心一言:首先,我们需要明确什么是完全二叉搜索树(CompleteBinarySearchTree,CBST)和红黑树(Red......
  • 大模型:高质量对话数据生成,Enhancing Chat Language Models by Scaling High-quality I
    EnhancingChatLanguageModelsbyScalingHigh-qualityInstructionalConversations论文地址1.导读不少工作已经意识到ChatGPT的秘密在于将指令微调和对其微调做到了极致,是继GPT-3后的又一次大力出奇迹。这篇文章来自清华大学5月份的工作,目的在于生成高质量的指令微调......
  • ChatGPT
    一、ChatGPT基础知识transformer机制和RLHFRLHF(ReinforcementLearningfromHumanFeedback)是基于人类反馈来构建强化学习,使用强化学习的方法和框架,是模型能够接纳人类反馈。不要求构建真实的环境,而是用人工标注的反馈信息去构成环境的奖励机制。这样训练的结果就是系统汇迎合......
  • 好家伙,这个开源项目硬生生复制了一个 ChatGPT Plus 出来
    最近有一款聊天机器人框架LobeChat火出了天际,它不仅支持多模态,支持语音会话,还有一个强大的FunctionCalling插件生态系统(可以作为ChatGPT插件的平替)。最重要的是,它的UI很漂亮,一看就是小姐姐精心设计过的~连Vercel的CEO都给它点赞了:项目地址:https://github.com/lob......
  • GPT-4没通过图灵测试!60年前老AI击败了ChatGPT,但人类胜率也仅有63%
    长久以来,「图灵测试」成为了判断计算机是否具有「智能」的核心命题。上世纪60年代,曾由麻省理工团队开发了史上第一个基于规则的聊天机器人ELIZA,在这场测试中失败了。时间快进到现在,「地表最强」ChatGPT不仅能作图、写代码,还能胜任多种复杂任务,无「LLM」能敌。然而,ChatGPT却在最近一......
  • Chat接入
    一、文档https://platform.openai.com/docs/api-reference/chat二、调用curlhttps://api.openai.com/v1/chat/completions\-H"Content-Type:application/json"\-H"Authorization:Bearer$OPENAI_API_KEY"\-d'{"model":"......