Cross-modal Information Flow in Multimodal Large Language Models

时间：2025-01-05 10:30:13浏览次数：3

标签：模态 Information 语言 Language 模型 MLLM Large 信息流视觉

本文是LLM系列文章，针对《Cross-modal Information Flow in Multimodal Large Language Models》的翻译。

多模态大型语言模型中的跨模态信息流

摘要
1 引言
2 相关工作
3 MLLM中的信息流跟踪
4 实验设置
5 不同模态对最终预测的贡献
6 语言和视觉信息如何集成的？
7 最终答案是如何生成的？
8 结论

摘要

自回归多模态大语言模型（MLLM）的最新进展表明，视觉语言任务取得了有前景的进展。虽然有各种研究调查了大型语言模型中语言信息的处理，但目前对MLLM的内部工作机制以及语言和视觉信息在这些模型中的相互作用知之甚少。在这项研究中，我们的目标是通过检查MLLM中不同模态（语言和视觉）之间的信息流来填补这一空白，重点是视觉问题的回答。具体来说，给定一个图像问题对作为输入，我们研究了模型中的何处以及视觉和语言信息如何结合以生成最终预测。通过使用LLaVA系列中的一系列模型进行实验，我们发现这两种模式的整合过程有两个不同的阶段。在较低的层中，该模型首先将整个图像的更一般的视觉特征转化为（语言）问题表征的表示。在中间层中，它再次将关于与问题相关的特定对象的视觉信息传输到问题的各个表征位置。最后，在较高层，将得到的多模态表示传播到输入序列的最后一个位置，以进行最终预测。总体而言，我们的研究结果为MLLM中图像和语言处理的空间和功能方面提供了一个新的全面视角，从而促进了未来对多模态信息定位和编辑的研究。

1 引言

2 相关

标签：模态,Information,语言,Language,模型,MLLM,Large,信息流,视觉
From： https://blog.csdn.net/c_cpp_csharp/article/details/144817964

SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language
本文是LLM系列文章，针对《SLED:SelfLogitsEvolutionDecodingforImprovingFactualityinLargeLanguageModels》的翻译。SLED:SelfLogitsEvolutionDecodingforImprovingFactualityinLargeLanguageModels摘要1引言2Self-Logits进化解码3实验4......
论文阅读：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Transformer可以接收一整段序列，然后使用self-attention机制来学习它们之间的依赖关系，但其在语言建模时受到固定长度上下文的限制（固定长度的输入、绝对位置编码的限制、注意力机制的计算复杂度）。Transformer-XL以此为基础，引入一个片段级递归机制和一种新的位置编码方案，从而可以在......
[论文速览] Language Model Beats Diffusion - Tokenizer is Key to Visual Generatio
Pretitle:LanguageModelBeatsDiffusion-TokenizerisKeytoVisualGenerationaccepted:ICLR2024paper:https://arxiv.org/abs/2310.05737code:non-officialref:https://mp.weixin.qq.com/s/oYlV93VHFfTjzYKUIld8JA关键词：tokenizer,languagemodel,diffusi......
大型语言模型（LLMs）演化树 Large Language Models
大型语言模型（LLMs）演化树LargeLanguageModelsflyfish下面的图来自论文地址Transformer模型（如BERT和GPT-3）已经给自然语言处理（NLP）领域带来了革命性的变化。这得益于它们具备并行化能力（能够同时对输入数据的多个部分进行计算）、处理长距离依赖关系的能力（可以考虑并理解......
MySQL 中information_schema、mysql、performance_schema、sys 简介
一、information_schema简介在MySQL中，把information_schema看作是一个数据库，确切说是信息数据库。其中保存着关于MySQL服务器所维护的所有其他数据库的信息。如数据库名，数据库的表，表栏的数据类型与访问权限等。在INFORMATION_SCHEMA中，有数个只读表。它们实际上是视图，而不是基本......
CrisisSense-LLM: Instruction Fine-Tuned Large Language Model for Multilabel Soci
本文是LLM系列文章，针对《CrisisSense-LLM:InstructionFine-TunedLargeLanguageModelforMultilabelSocialMediaTextClassificationinDisasterInformatics》的翻译。CrisisSense-LLM：灾难信息学中多标签社交媒体文本分类的指令微调大语言模型摘要1引言2......
从 LLM 到 LAM ：Large Action Models
与主要专注于文本生成和回复的传统LLMs不同，LAMs旨在在物理和数字环境中执行动作。核心观点LAMs是AI发展的重要方向，能够将AI从被动语言理解转变为主动任务完成，在人工智能发展进程中具有重要意义。LAMs通过在物理和数字环境中执行动作，实现了从语言交互到实际行动的......
YOLOv11模型改进-模块-引入多尺度大核注意力Multi-scale Large Kernel Attention
MLKA的提出源于图像超分辨率任务的挑战性，该任务需重建低质量图像缺失的高频信息，但因LR与HR图像对应关系复杂，寻找像素相关性困难。此前模型扩展容量的方法增加了训练负担和数据收集成本，而采用的注意力机制无法同时获取局部与长距离信息且感受野固定。受视......
LargeSystemCache=1 启用“大型系统缓存”，适用于高内存的服务器，能提高文件系统的缓存
"LargeSystemCache"=dword:00000000这一行通常出现在Windows操作系统的注册表设置中，涉及到系统内存管理的配置，特别是与文件缓存（FileCache）相关的部分。它具体控制Windows操作系统如何使用系统内存来缓存文件系统数据。下面逐个回答你的问题：1. 为什么(Why)"LargeSystemCac......
Enlarge disk space in VirtualBox
1EnlargespacefirstShutdownyourvm,andadjustspaceinsetting2IncreatepartitionsizeKeepinmindthatthoughyouincreasedthesizeofyourvirtualdisk,theactualpartitionsizeremainsthesameifyourspaceisdynamicallyallocated.Downloa......

Cross-modal Information Flow in Multimodal Large Language Models

多模态大型语言模型中的跨模态信息流

摘要

1 引言

2 相关

相关文章

赞助商

阅读排行