首页 > 其他分享 >DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

时间:2024-08-27 17:25:28浏览次数:5  
标签:Slimming Efficient token Multimodal Visual 处理器 视觉 冗余

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

arxiv:http://arxiv.org/abs/2406.19101
视觉处理器+LLM:视觉处理器:Swin Transformer
创新点:通过:1、去除图片冗余像素;2、去除冗余token。来减小模型中的视觉处理器的参数量

APS

现存的文档理解多模态模型面临3个主要问题:1、高分辨率;2、密集文本;3、复杂的文档布局。针对此问题作者提出:1、Adaptive Pixel Slimming(APS);2、Dynamic Token Slimming(DTS)

模型结构

image.png

1、Adaptive Pixel Slimming(APS):自适应的像素缩减:移除图片中不重要的部分(比如说图片的边缘、空白等)处理之后 保持图片的纵横比 不变(因为如果纵横比发生改变容易导致文字扭曲,视觉处理上效果就不是很好)。

APS

只适合处理布局简单的图像,比如说:文档等,因为这些图像而言存在较多的冗余部分可以被删除

处理流程:对于给定的一张图片通过 梯度提取 (简单理解为将图片转化为黑白图片),而后通过设定的阈值(可以类似于opencv中联通区域算法,将一些列的阈值小于某个值的内容进行“拼接”)来判断是不是冗余的(如果没有文字/内容纯白背景就会转化为黑色),而后根据:水平/竖直方向来将冗余的部分进行“丢弃”。(存在缺陷:对于简单的水平/竖直处理很方便,但是复杂之后提取效果就不是很好)

2、Dynamic Token Slimming:动态token缩减。出发点作者认为一个合适的视觉处理器应该是“区分”出在图片中那些是重要的,那些是不重要的

APS

如果视觉处理器能够处理处理出那些属于 essential 那些属于 no-essential,那么后续就只需要将 必要的非必要的进行分类即可。但是对于模型而言无法进行判断,但是非必要的存在一个问题:nonessential tokens typically lack uniqueness缺乏独立性) and are often similar to other tokens与其他token相似).那么就可以通过计算 相似性将非必要的token融合到必要的token中。

APS

标签:Slimming,Efficient,token,Multimodal,Visual,处理器,视觉,冗余
From: https://www.cnblogs.com/Big-Yellow/p/18381556

相关文章

  • GaLore Memory-Efficient LLM Training by Gradient Low-Rank Projection
    目录概符号说明GaLoreZhaoJ.,ZhangZ.,ChenB.,WangZ.,AnandkumarA.andTianY.GaLore:Memory-efficientllmtrainingbygradientlow-rankprojection.ICML,2024.概本文提出了一种优化器中高效的缓存策略.符号说明\(W_t\in\mathbb{R}^{m\timesn}\),参......
  • BAdam A Memory Efficient Full Parameter Optimization Method for Large Language M
    目录概BAdam代码LuoQ.,YuH.andLiX.BAdam:Amemoryefficientfullparameteroptimizationmethodforlargelanguagemodels.arXivpreprint,2024.概本文介绍了一种Blockcorrdinatedescent(BCD)的训练方式.BAdam当模型本身很大的时候,训练它会成为一......
  • 微软常用运行库合集|dll报错必装,Visual C++ 下载安装
    前言MicrosoftVisualC++Redistributable(简称MSVC,VB/VC,系统运行库)是Windows操作系统应用程序的基础类型库组件。此版VisualC++运行库组件合集(微软常用运行库合集)由国内封装爱好者@Dreamcast打包而成,整合VisualC++组件安装包运行库所有版本,提供图形安装界面,可自选更新V......
  • Efficient Prompting Methods for Large Language Models: A Survey
    本位是LLM系列文章,针对《EfficientPromptingMethodsforLargeLanguageModels:ASurvey》的翻译。大型语言模型的高效提示方法综述摘要1引言2概述3高效计算提示4高效设计提示5未来提示:理论分析6结论摘要提示已成为使大型语言模型(LLM)适应特定自然......
  • WPF LogicalTree vs Visual Tree
    Copyfrom https://www.c-sharpcorner.com/blogs/wpf-logical-and-visual-trees1  WPF'shierarchicalstructurerequiresanewconceptualmodelofapplicationstructure,whichtakestheformofanelementtree.Twotypesofelementtreesarerequiredt......
  • VS2022 Visual Studio Installer 一直卡在0%,或者下载速度慢的问题解决办法
    C:\Users\Administrator\AppData\Local\Temp到c盘查看日志,发现是下载一个叫vs_installer.opc的东西失败了, 直接复制日志里的https://aka.ms/vs/17/release/installer,下载,发现成功下载,然后放到installer安装器同级目录,重新打开setup安装,就成功了打开了,然后会一直正在准备中,......
  • 解决方案 | VS2022 社区版 获取工具和功能找不到visual stdio安装程序的终极解决办法
      首先这是一种解决方法:https://blog.csdn.net/Wysnbb/article/details/124588395 其次,如果上面方法解决不了,那么可以重新下载vs社区版。(不要误会,并不是下载10G+的东西)https://visualstudio.microsoft.com/zh-hans/vs/community/  下载得到:  安装VisualStud......
  • 【开发工具】| Visual Studio 2019如何打开汇编语言窗口
    文章目录引言开启方式①首先设置visualStudio开启反汇编窗口。②打开反汇编窗口引言汇编语言是一种低级编程语言,它非常接近计算机的机器语言。机器语言是计算机能够直接理解和执行的二进制指令集,而汇编语言则是这些二进制指令的文本表示形式,使用助记符来代替难以记......
  • YOLOv5改进 | 融合改进 | C3 融合Efficient Multi-Scale Conv提升检测效果
      秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转......
  • Visual C++ 下载安装教程(微软常用运行库合集|dll报错必装)
    前言MicrosoftVisualC++Redistributable(简称MSVC,VB/VC,系统运行库)是Windows操作系统应用程序的基础类型库组件。此版VisualC++运行库组件合集(微软常用运行库合集)由国内封装爱好者@Dreamcast打包而成,整合VisualC++组件安装包运行库所有版本,提供图形安装界面,可自选更新VC++版......