【论文阅读笔记】An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large V

时间：2024-10-21 15:45:18浏览次数：1

标签：Plug Acceleration Layer 分数 After FastV module token

论文地址：https://arxiv.org/pdf/2403.06764
代码地址：https://github.com/pkunlp-icler/FastV

Introduction
Inefficient Visual Attention in VLLMs
- Preliminaries
  - 两种分数
  - 结果分析
- FastV
  - Overview
  - Re-rank and Filtering module (core)
Thought

Introduction

现象（问题）：大多数 LVLM 在深层的 attention 分数很低；
推测：视觉信号的冗余导致在千层会被聚合为 "anchor" token，在深层中，网络更关注这些 "anchor"；
FastV：应用于某一层中，前面的 layer 正常计算，后面的根据 threshold 随机丢弃；

Inefficient Visual Attention in VLLMs

Preliminaries

给定 image-question pair \((d, t)\)，利用 decoder 自回归生成过程：

\[p(\hat{y}) = \]

两种分数

结果分析

FastV

Overview

Re-rank and Filtering module (core)

\[ranking \ \ function: f_{\phi} \]

\[filtering \ \ layer: K \]

\[filtering \ \ ratio: R \]

在第 \(K\) 层后，利用 \(f_{\phi}\) 对 token 的注意力分数进行排序（利用该 token 对于其他所有 token 的平均注意力得分），后 \(R\%\) 会被丢弃。

Thought

Same as LoRA, so straightforward that everyone can make delevopment based on this. It's a good start for MLLM's inference using plug-and-play module.

标签：Plug,Acceleration,Layer,分数,After,FastV,module,token
From： https://www.cnblogs.com/marti88414/p/18489607

Java 当中使用 “google.zxing ”开源项目和 “github 的 qrcode-plugin” 开源项目
Java当中使用“google.zxing”开源项目和“github的qrcode-plugin”开源项目生成二维码@目录Java当中使用“google.zxing”开源项目和“github的qrcode-plugin”开源项目生成二维码1.Java当中使用“google.zxing”开源项目生成二维码1.1准备工作1.2生成......
Comfyui如何快速选出图像的高光和阴影 _ layerstyle节点
✨背景comfyui中，除了AI图像生成本身以外，还会有很多图像处理的工作要做，比如说调整色阶、饱和度，或者还原商品细节。在最近探索的一个场景中，需要将图像中的高光部分提取出来做光源模拟，发现layerstyle这个节点组中包含了这个功能，所以简单分享一下。✨layerMask:ShadowHighlight......
【CSS in Depth 2 精译_052】第三部分：现代 CSS 代码组织 + 第 8 章：概述层叠图层及其嵌
当前内容所在位置（可进入专栏查看其他译好的章节内容）【第三部分现代CSS代码组织】✔️【第八章层叠图层及其嵌套】✔️8.1用layer图层来操控层叠规则（上篇）✔️8.1.1图层的定义（上篇）✔️8.1.2图层的顺序与优先级（精译中⏳）8.1.3revert-layer关键字文......
Openlayers高级交互（2/20）：清除所有图层的有效方法
Openlayers项目中，经常会放置很多的图层，在业务操作的时候，会做出删除所有图层的行为。这里面给出了一个详细的方法，能够有效的解决清除所有图层的问题。效果图专栏名称内容介绍Openlayers基础实战（72篇）专栏提供73篇文章，为小白群体提供基础知识及示例演示，能解决基础的开发问......
Openlayers高级交互（3/20）：动态添加 layer 到 layerGroup，并动态删除
layerGroup是OpenLayers库中的一个类，用于创建图层组。图层组允许您将多个图层组合在一起，并作为一个整体来控制它们的可见性和其他属性。本示例动态添加layer到layerGroup，并动态删除。效果图专栏名称内容介绍Openlayers基础实战（72篇）专栏提供73篇文章，为小白群体提供基......
vue3+vite5+qiankun结合vite-plugin-qiankun插件，搭建微前端框架
没有特别的幸运，那么就特别的努力！！！前言涉及到环境npm：9.6.3node：19.9.0node官网地下载址：https://nodejs.org/dist项目框架主应用：vue2微应用1：vue2，qiankun官网API是基于vue2+webpack。微应用2：vue3+vite+ts，目前官网没有vue3示例，需要介入vite-plugin-qiankun插件进行处理......
模块联邦-vite-plugin-federation
主应用"@originjs/vite-plugin-federation":"^1.3.6"vite.config.tsbuild:{emptyOutDir:false,chunkSizeWarningLimit:1000,minify:false,cssCodeSplit:!pluginOption.isUnionSub,//sccscopedtarget:[&quo......
OpenLayers：构建现代Web地图应用
......
[转]Learn Power Platform Power Apps Dataverse Write a plug-in
Learn PowerPlatform PowerApps Dataverse Writeaplug-inInthisarticleIPlugininterfacePluginBaseabstractclassServicesyoucanuseinyourcodePuttingitalltogetherShow2moreYoucancreate plug-ins byusingoneofthefollowingmetho......
EasyPlayer.js 很不错的在线直播播放器支持h.265 h.264
下载地址：https://github.com/EasyDarwin/EasyPlayer.js?tab=readme-ov-file代码比较简单：<scriptsrc="/scripts/EasyPlayer/EasyPlayer-pro.js"></script><divclass="demo_play"name="demo_play"></div><script>......