聊聊多模态大模型处理的思考

时间：2024-03-26 17:26:10浏览次数：27

转载请注明出处：https://www.cnblogs.com/zhiyong-ITNote

多模态：文本、音频、视频、图像等多形态的展现形式。
目前部门内业务要求领域大模型需要是多模态——支持音频/文本。从个人思考的角度来审视下，审视下多模态大模型的实现方式。
首先就要区分输入与输出，即输入的模态与输出的模态。从目前来看，模型的输出大多都是文本，模型的输入一般是图片/文本；但少数的大模型比如QWen、讯飞星火等支持语音的输入。

输入

对于输入来说，最需要考虑的就是Embedding。
不管是哪种大模型，其最终的输入都是张量数字的形式；其模型的结构都是神经网络模型，而神经网络模型计算的单位是张量。这中间就需要一个转换过程，也就是最常用听到看到的Embedding。

Embedding的作用是巨大的，不论是在深度学习领域还是推荐系统领域、搜索引擎领域等等；而且也衍生出向量数据库的概念；存的就是这些Embedding后的张量。

多模态基座模型

即原生基座模型，比如GLM、LlaMa2、QWen、文心一言等基座模型支持多模态的输入输出，从个人调研来看，GLM、文心一言对这方面的支持比较弱，仅支持文本/图像；LlaMa2有开源的实现支持文本/图像/音视频；QWen是最全的，阿里对其支持很到位，而且在魔塔社区，阿里开源了很多的音视频模型，还是蛮强大覆盖很全的。
以Llama2实现为例，官方地址：Video-LLaMA；其架构图如下：

输入的Embedding化都在模型内部已处理完毕，我们无需考虑。
魔塔社区/HuggingFace上，已经开源了很多高质量的多模态模型，截个图展示下：

文本化处理

使用开源/商务组件处理输入的内容，将其文本化，再输入到模型中；然后再经历输入部分的流程。

但对于这类的处理来说，需要考虑的问题还是比较多：

组件转换文本的准确性
组件转换的损失
大模型中Embedding组件将输入文本Embedding化时的损失

第一点不用叙述；
第二点，如果组件的处理不到位，遗漏了一些语气词或是某些情感词之类的，对输出文本的内容表达、语义表达将产生一定的损失。
第三点，如果转换后的文本语义与文本内容不对应，比如同音词或是生僻字的情况下，导致Embedding化时产生一定的损失。

Embedding化处理

利用某种Embedding模型，将输入的内容直接Embedding化，生成张量后，直接丢进大模型中。
在这里需要考虑两点：

大模型支持Embedding的输入
Embedding组件与大模型内置的Embedding组件要一致

大模型训练时，有自己的内置的Embedding组件，如果输入时的Embedding组件产生的张量与训练时的Embedding张量不一致，这就是两种不同的Embedding组件导致的问题，其最终的效果将会大打折扣。

输出

模型的输出虽然最终也是经过处理后，生成文本；但这就已经很满足绝大多数的需求。
而对于很多场景下，比如我们的场景需要再制定角色语音包，也是很好处理的。这个过程其实就是语音合成的过程。比如，开车导航时的语音包，有不同的人物声音，这都是语音合成处理的。

总结

最终来看，第一个方案肯定是最合适的；但如果对于选型的大模型不支持多模态的情况下，考虑开源实现或是第二张方案，但要综合调研其带来的影响，并不是简单的转文本就行。第三种，目前我没有找到合适的Embedding模型支持多模态，后续继续探讨挖掘下。

转载请注明出处：https://www.cnblogs.com/zhiyong-ITNote

首发于个人公众号

标签：模态,思考,模型,Embedding,组件,聊聊,文本,输入
From： https://www.cnblogs.com/zhiyong-ITNote/p/18097116

关于我对于计算机专业的思考与展望
1.回顾你过去将近3年的学习经历当初你报考的时候，是真正喜欢计算机这个专业吗？你现在后悔选择了这个专业吗？你认为你现在最喜欢的领域是什么（可以是计算机的也可以是其它领域）？我报考的时候是对计算机专业很有兴趣，所以选择了计算机专业，现在没有后悔选择了这个专业，可以通过编程实现很......
聊聊ShareGPT格式的微调数据集
转载请注明住处：https://www.cnblogs.com/zhiyong-ITNote概述ShareGPT格式的数据集中，一般是如下格式：[{"conversations":[{"from":"human","value":"IsawadressthatIliked.Itwasoriginallypriceda......
关于软件功能的思考－－学习过程的胡思乱想
小白一枚，最近在学MySQL和docker。为什么会思考这个问题呢？一来是还没找到工作有点闲，二来主感叹日常接触的软件有点无聊（可能是圈子太小。。。）。诱因是我问了AI一个问题：现代软件的功能有哪些？回答如下：1.数据处理和管理：软件可以用于存储、组织、检索和分析数据。2.用户界面：提供友......
【测试思考】设计测试用例时，你在想什么
突然想写这篇文章是因为，前两天看到一篇文章【像用户一样测试】然后想起事儿 .. 想到在2020年上海爆发疫情后，开始频繁使用买菜软件，在一个深夜从某团紧急挑选加购商品，看到提醒自己账户还有一张满减优惠券，挺高兴的。临近下单想起来还有一些面包没......
解决长尾问题，BEV-CLIP：自动驾驶中复杂场景的多模态BEV检索方法
解决长尾问题，BEV-CLIP：自动驾驶中复杂场景的多模态BEV检索方法理想汽车的工作，原文，BEV-CLIP:Multi-modalBEVRetrievalMethodologyforComplexSceneinAutonomousDriving链接：https://arxiv.org/pdf/2401.01065.pdf自动驾驶中对复杂场景数据的检索需求正在增加，尤其是随着......
聊聊功率器件（氮化镓，碳化硅）
氮化镓和碳化硅是两种具有独特性质和广泛应用的无机物。下面将尽可能详细地解释它们的定义、应用、研究热点以及对我们的价值。1，氮化镓氮化镓（GaN）是一种由氮和镓元素组成的化合物，具有直接能隙的半导体特性。其结构类似于纤锌矿，硬度很高，并且具有宽带隙、高热导率以及稳定的化学......
EI级！高创新原创未发表！VMD-TCN-BiGRU-MATT变分模态分解卷积神经网络双向门控循环单元融
EI级！高创新原创未发表！VMD-TCN-BiGRU-MATT变分模态分解卷积神经网络双向门控循环单元融合多头注意力机制多变量时间序列预测（Matlab）目录EI级！高创新原创未发表！VMD-TCN-BiGRU-MATT变分模态分解卷积神经网络双向门控循环单元融合多头注意力机制多变量时间序列预测（Matlab）预测......
限流场景&限流方案的一些思考
限流场景保护系统资源：限流可用于保护系统资源，防止系统被过度请求而导致资源耗尽或系统崩溃。例如，限制对数据库、缓存、消息队列等关键资源的访问速率，以确保系统的稳定性和可用性。防止恶意攻击：限流可用于防止恶意攻击和恶意请求，如暴力破解、DDoS攻击等。通过限制来自单个I......
从ICAC 2024聊聊CIM trend
从ICAC2024聊聊CIMtrend刚参加完今年在上海举办的ICAC2024，体验很好，从各位老师同学处学到很多。我是做CIM的，所以两个CIMSession一个不落，另外因为对Processor感兴趣，EffientDigitalCircuitSession和LowPowerSoCSession也去学习了一下。因为大部分工作在ISSCC上已经了解过......
csrf防御的思考
关于csrf防御什么是csrfcsrf就是攻击者利用受信任用户的浏览器（利用浏览器的cookie），在其已经登录某个站点（A站点）的情况下，在用户不知情的情况下在A站点执行了恶意操作。恶意url一旦点击，发送请求时浏览器会自动携带cookie从上面简介可知，发生csrf主要在于A站点，没有对发起的请求进行充......

聊聊多模态大模型处理的思考

输入

多模态基座模型

文本化处理

Embedding化处理

输出

总结

相关文章

赞助商

阅读排行