DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

时间：2024-08-27 17:25:28浏览次数：10

标签：Slimming Efficient token Multimodal Visual 处理器视觉冗余

arxiv:http://arxiv.org/abs/2406.19101
视觉处理器+LLM：视觉处理器：Swin Transformer
创新点：通过：1、去除图片冗余像素；2、去除冗余token。来减小模型中的视觉处理器的参数量

现存的文档理解多模态模型面临3个主要问题：1、高分辨率；2、密集文本；3、复杂的文档布局。针对此问题作者提出：1、Adaptive Pixel Slimming（APS）；2、Dynamic Token Slimming（DTS）

模型结构

1、Adaptive Pixel Slimming（APS）：自适应的像素缩减：移除图片中不重要的部分（比如说图片的边缘、空白等）处理之后 保持图片的纵横比 不变(因为如果纵横比发生改变容易导致文字扭曲，视觉处理上效果就不是很好)。

只适合处理布局简单的图像，比如说：文档等，因为这些图像而言存在较多的冗余部分可以被删除

处理流程：对于给定的一张图片通过 梯度提取 （简单理解为将图片转化为黑白图片），而后通过设定的阈值（可以类似于opencv中联通区域算法，将一些列的阈值小于某个值的内容进行“拼接”）来判断是不是冗余的（如果没有文字/内容纯白背景就会转化为黑色），而后根据：水平/竖直方向来将冗余的部分进行“丢弃”。（存在缺陷：对于简单的水平/竖直处理很方便，但是复杂之后提取效果就不是很好）

2、Dynamic Token Slimming：动态token缩减。出发点作者认为一个合适的视觉处理器应该是“区分”出在图片中那些是重要的，那些是不重要的

如果视觉处理器能够处理处理出那些属于 essential 那些属于 no-essential，那么后续就只需要将 必要的 和 非必要的进行分类即可。但是对于模型而言无法进行判断，但是非必要的存在一个问题：nonessential tokens typically lack uniqueness（缺乏独立性） and are often similar to other tokens（与其他token相似）.那么就可以通过计算 相似性将非必要的token融合到必要的token中。

标签：Slimming,Efficient,token,Multimodal,Visual,处理器,视觉,冗余
From： https://www.cnblogs.com/Big-Yellow/p/18381556

GaLore Memory-Efficient LLM Training by Gradient Low-Rank Projection
目录概符号说明GaLoreZhaoJ.,ZhangZ.,ChenB.,WangZ.,AnandkumarA.andTianY.GaLore:Memory-efficientllmtrainingbygradientlow-rankprojection.ICML,2024.概本文提出了一种优化器中高效的缓存策略.符号说明\(W_t\in\mathbb{R}^{m\timesn}\),参......
BAdam A Memory Efficient Full Parameter Optimization Method for Large Language M
目录概BAdam代码LuoQ.,YuH.andLiX.BAdam:Amemoryefficientfullparameteroptimizationmethodforlargelanguagemodels.arXivpreprint,2024.概本文介绍了一种Blockcorrdinatedescent(BCD)的训练方式.BAdam当模型本身很大的时候,训练它会成为一......
微软常用运行库合集|dll报错必装，Visual C++ 下载安装
前言MicrosoftVisualC++Redistributable（简称MSVC，VB/VC，系统运行库）是Windows操作系统应用程序的基础类型库组件。此版VisualC++运行库组件合集（微软常用运行库合集）由国内封装爱好者@Dreamcast打包而成，整合VisualC++组件安装包运行库所有版本，提供图形安装界面，可自选更新V......
Efficient Prompting Methods for Large Language Models: A Survey
本位是LLM系列文章，针对《EfficientPromptingMethodsforLargeLanguageModels:ASurvey》的翻译。大型语言模型的高效提示方法综述摘要1引言2概述3高效计算提示4高效设计提示5未来提示：理论分析6结论摘要提示已成为使大型语言模型（LLM）适应特定自然......
WPF LogicalTree vs Visual Tree
Copyfrom https://www.c-sharpcorner.com/blogs/wpf-logical-and-visual-trees1 WPF'shierarchicalstructurerequiresanewconceptualmodelofapplicationstructure,whichtakestheformofanelementtree.Twotypesofelementtreesarerequiredt......
VS2022 Visual Studio Installer 一直卡在0%，或者下载速度慢的问题解决办法
C:\Users\Administrator\AppData\Local\Temp到c盘查看日志，发现是下载一个叫vs_installer.opc的东西失败了，直接复制日志里的https://aka.ms/vs/17/release/installer，下载，发现成功下载，然后放到installer安装器同级目录，重新打开setup安装，就成功了打开了，然后会一直正在准备中，......
解决方案 | VS2022 社区版获取工具和功能找不到visual stdio安装程序的终极解决办法
首先这是一种解决方法：https://blog.csdn.net/Wysnbb/article/details/124588395 其次，如果上面方法解决不了，那么可以重新下载vs社区版。（不要误会，并不是下载10G+的东西）https://visualstudio.microsoft.com/zh-hans/vs/community/ 下载得到：安装VisualStud......
【开发工具】| Visual Studio 2019如何打开汇编语言窗口
文章目录引言开启方式①首先设置visualStudio开启反汇编窗口。②打开反汇编窗口引言汇编语言是一种低级编程语言，它非常接近计算机的机器语言。机器语言是计算机能够直接理解和执行的二进制指令集，而汇编语言则是这些二进制指令的文本表示形式，使用助记符来代替难以记......
YOLOv5改进 | 融合改进 | C3 融合Efficient Multi-Scale Conv提升检测效果
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转......
Visual C++ 下载安装教程（微软常用运行库合集|dll报错必装）
前言MicrosoftVisualC++Redistributable（简称MSVC，VB/VC，系统运行库）是Windows操作系统应用程序的基础类型库组件。此版VisualC++运行库组件合集（微软常用运行库合集）由国内封装爱好者@Dreamcast打包而成，整合VisualC++组件安装包运行库所有版本，提供图形安装界面，可自选更新VC++版......

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

相关文章

赞助商

阅读排行