首页 > 其他分享 >英伟达™(NVIDIA®)发布 NVEagle: 超级震撼的视觉语言模型,7B、13B 和 13B 聊天微调版

英伟达™(NVIDIA®)发布 NVEagle: 超级震撼的视觉语言模型,7B、13B 和 13B 聊天微调版

时间:2024-09-03 12:24:15浏览次数:13  
标签:13B Eagle 模型 伟达 MLLM 视觉编码 NVIDIA 视觉

多模态大型语言模型(MLLM)是人工智能领域的一次重大飞跃,它将视觉信息和语言信息结合起来,能够更好地理解和解释复杂的现实世界场景。 这些模型旨在观察、理解和推理视觉输入,使其在光学字符识别(OCR)和文档分析任务中发挥无价之宝的作用。 这些 MLLM 的核心在于它们的视觉编码器,可将图像转换为视觉标记,然后与文本嵌入进行整合。 这种整合使模型能够解释视觉输入并做出有效反应。 然而,设计和优化这些视觉编码器仍然是一项严峻的挑战,尤其是在处理需要精细视觉感知的高分辨率图像时。

MLLM 的开发面临着一些挑战,尤其是在提高视觉感知能力方面。 一个关键问题是出现幻觉,即模型根据视觉输入产生不准确或无意义的输出。 这个问题在需要高分辨率图像处理的任务中尤为突出,例如 OCR 和文档理解。 由于视觉编码器的设计以及用于整合视觉和文本数据的方法存在局限性,现有模型在处理这些任务时往往需要帮助。 此外,虽然目前许多 MLLM 采用了单一视觉编码器,但这种方法往往需要捕捉准确解读所需的全部视觉信息,从而导致错误和性能下降。

研究人员探索了各种提高 MLLM 性能的方法。 一种常见的方法是使用在大型数据集上预先训练好的单一视觉编码器,如 CLIP,这种编码器通常因其能够对齐视觉和文本表征而被选用。 不过,这种方法也有缺点,尤其是在处理高分辨率图像处理任务时。 另一种方法涉及复杂的融合策略,将来自多个编码器的视觉特征结合起来。 虽然这些方法可以提高性能,但往往需要大量的计算资源,而且有时只能在不同类型的视觉任务中提供一致的结果。 例如,Flamingo 和 LLaVA-HR 等模型就是为应对 MLLM 设计中的特定挑战而开发的。 然而,它们在效率和有效性方面仍有改进的余地。

来自英伟达™(NVIDIA®)、佐治亚理工学院、UMD 和香港理工大学的研究人员开发了 Eagle 系列 MLLM。 这种新方法通过对各种视觉编码器进行基准测试、尝试不同的融合策略以及逐步确定视觉专家的最佳组合,系统地探索了 MLLM 的设计空间。 研究人员介绍了一种方法,即简单地串联来自互补视觉编码器的视觉标记,其效果不亚于更复杂的混合架构。 这种方法既简化了设计过程,又能保持高性能。 他们引入了一个预对齐阶段,在整合非文本对齐的视觉专家与语言模型之前,先将它们对齐,从而提高模型的一致性和性能。

Eagle 系列机型(又称 NVEagle)包括几种针对不同任务和要求量身定制的变体。 这些型号有三个主要版本: Eagle-X5-7B、Eagle-X5-13B 和 Eagle-X5-13B-Chat。 7B 和 13B 型号专为通用视觉语言任务而设计,其中 13B 变体由于参数更大,功能更强。 13B-Chat 模型专门针对对话式人工智能进行了微调,非常适合需要基于视觉输入进行细微理解和交互的应用。

在这里插入图片描述
NVEagle 的突出特点之一是在视觉编码器中使用了混合专家(MoE),从而显著提高了视觉感知能力。 这种方法允许模型为特定任务动态选择最合适的视觉编码器,从而增强了处理和理解复杂视觉信息的能力。 NVEagle 模型已在 Hugging Face 上发布,供研究人员和开发人员使用。 该模型在从 OCR 和文档分析到视觉问题解答的各种基准测试中表现优异,因此此次发布凸显了该模型的多功能性和鲁棒性。

在这里插入图片描述
Eagle 模型在多个基准测试中都取得了优异的成绩。 例如,在 OCR 任务中,Eagle 模型在 OCRBench 上取得了 85.9 的平均分,超过了 InternVL 和 LLaVA-HR 等其他领先模型。 在评估模型根据图像中的文本回答问题的能力的 TextVQA 中,Eagle-X5 获得了 88.8 分,比竞争对手有了显著提高。 该模型在视觉问题解答任务(如 GQA)中也表现出色,获得了 65.7 分,证明了其处理复杂视觉输入的能力。 在 Eagle 模型(如 Pix2Struct 和 EVA-02)中引入额外的视觉专家后,在各种基准测试中的性能都得到了持续提升,包括在结合使用多个视觉编码器时,平均得分从 64.0 显著提高到 65.9。

总之,“Eagle” 系列模型解决了视觉感知中的许多关键难题。 研究人员通过系统地探索设计空间和优化多个视觉编码器的集成,创建了一个能够应对这些挑战的模型。 Eagle 模型通过精简高效的设计,在各种任务中实现了最先进的性能。 事实证明,使用简单而有效的融合策略,结合引入预对齐阶段,是提高 MLLM 性能的有力方法。

标签:13B,Eagle,模型,伟达,MLLM,视觉编码,NVIDIA,视觉
From: https://blog.csdn.net/weixin_41446370/article/details/141852996

相关文章

  • Linux实时查看GPU (NVIDIA),CPU及内存使用情况
    GPU方法一:需要用到一个工具gpustatpipinstallgpustat#安装工具gpustat-cp#输出当前状态gpustat-cp-i1#持续监视方法二:使用nvidia-smi命令nvidia-smi-lsecondsnvidia-smi--loop=seconds上述两个命令都可以,要把seconds换成你想刷新的时间间隔。按......
  • NVIDIA 系列之 使用生成式 AI 增强 ROS2 机器人技术:使用 BLIP 和 Isaac Sim 进行实时
    简介在快速发展的机器人领域,集成先进的AI模型可以显著增强机器人系统的功能。在本博客中,我们将探讨如何在ROS2(机器人操作系统2)环境中利用BLIP(引导语言图像预训练)模型进行实时图像字幕制作,并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点,该节点订......
  • NVIDIA APP全局设置加载失败解决方案
    NVIDIAAPP全局设置加载失败解决方案因为NVIDIAAPP直到现在还是Beta版本,在使用过程中难免会出现不少问题。问题描述全局设置界面显示叹号或者显示当前设置不可用,请稍后再试;局部设置也要加载好一会儿才能出来。无效办法重启笔记本设备开/关独显直连临时解决办法考虑到......
  • 英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
    前言 小模型崛起了。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自机器之心仅用于学术分享,若侵权请联系删除CV方向的准研究生们,未来三年如何度过?招聘高光谱图像、语义分割、diffusion等方向论文指导老师上个月......
  • AMD在新的MLPerf基准测试中缩小了与Nvidia的差距
    AMD、UntetherAI、Google、Intel和Nvidia的新基准测试结果显示,AI硅片性能竞争日趋激烈。然而,系统设计、网络和软件使AI大放异彩,而这正是Nvidia的强项。终于,我可以停止抱怨AMD缺乏公开的AI基准测试了。AMD发布了其MI300GPU的优秀MLPerf推理结果,虽然只在一个基准测试上与Nvidi......
  • Ubuntu 环境下NVIDIA 驱动重启后驱动失效
    NVIDIA驱动重启后驱动失效,还原系统恢复,重启后继续失效。估计是系统更新了内核,这可能会导致与已安装的NVIDIA驱动不兼容,从而导致驱动失效。 解决办法禁止自动更新内核:TopreventyourUbuntusystemfromautomaticallyupdatingthekernel,youcanfollowthesesteps:......
  • 浪潮5468M7,英伟达4090,安装ubuntu18.04 使用ubuntu做运算
    浪潮5468M7,配置6块英伟达4090使用ubuntu做运算1.制作安装镜像,使用ventoy刻录U盘,下载ubuntu18.04,直接拷贝进入镜像装系统方法此处省略,参见官方技术网站,浪潮信息技术网–360°专家服务(4008600011.com)2.机器制作raid,此处步骤省略,默认启动模式为UEFI。riad制作参见浪潮400......
  • Nvidia 显卡发展历程
    注:机翻,未校。NvidiaGPUsthroughtheages:ThehistoryofNvidia’sgraphicscardsByAdrianWillingsUpdatedMar25,2023Nvidiawasoriginallyfoundedin1993butitwasn’tuntil1995thatthecompanyreleaseditsfirstgraphicsproduct-theNV1.......
  • VirGL与NVIDIA GPU一起运行 - 2024(QEMU)
    安装Nvidia驱动程序550和下一版本(如果需要检查,请将550更改为555等)。sudoadd-apt-repositoryppa:graphics-drivers/ppasudoaptupdatesudoaptinstallnvidia-driver-550禁用集成GPU第1步(只能通过英伟达™(NVIDIA®(英伟达™))GPU运行,不能使用其他GPU)(如果无法......
  • nvidia系列教程-AGX-Orin 确定gpio编号
    目录前言一、软件版本说明二、debugfs得到gpio三、gpio操作总结前言        NVIDIAJetsonAGXOrin是一款强大的嵌入式AI计算平台,适用于各种复杂的边缘计算任务。对于开发者来说,准确地控制和操作GPIO(通用输入输出)引脚是非常重要的。本文将详细介绍如......