吐槽

在连续挖了好几个坑之后，又开了一个新的坑：推理优化。它属于一个llm底层的应用，目的是在操作系统层面来优化llm的执行速度进而优化整个模型。
那闲话少说，我们正式开始。

llm的过程

prefill阶段与decoding阶段

prefill

decoding

这两者的区别是prefill会先把所有的数据进行拿出来计算，后者只会拿很小一块

推理优化的Benchmark

吞吐量

单位时间内系统能吐出多少个decoding
影响因素：模型优化，输入数据长度

First Token Latency（很重要）

首次prefill阶段所花费的时间
影响因素：输入长度

Latency

生成每个词的间隔
影响因素：输入长度

QPS（每秒请求数）

QPS=K/这K个请求的时间
影响因素：显卡利用率

LLM推理的子过程

优化

1/流水线前后处理与高性能采样
本质是处理过程中的Tokenize和Detokenize部分可以在cpu中进行处理，这样就不必浪费gpu资源进而提升效率。
2/动态批处理
利用流水线思想优化处理过程，通过将多个用户的过程结合在一起来提升处理速度，具体来说在self Attention层分成了Flash attention和Decoding attention两个部分一起处理merge step。
3/Cache现存管理
过去的cache是直接给每一个用户分配一个固定大小的内存，也有优化版本将用户的信息切块来分配，都是存在问题的。ppl中采用的VM Allocator在过去的cache基础上做了修改，会根据用户过去的信息来做一个预测长度。这样可以有效的减少浪费
4/KV Cache量化
Q：什么是量化？
A：将浮点数表示的数据转换为更小的数据类型,如整数或固定点数,从而减少存储空间和计算开销。

KV缓存决定了服务器能服务的用户数量，优化缓存就是提升性能
应用在self attation,K,V三个层中
5/矩阵乘法量化
矩阵乘法在模型中花费占比70%以上

量化大体方向

int8 VS int4

int8相比于fp16 加载权重减半，计算时间减半。
int4加载权重会减少的更多，但会多一个解量化的时间，且不减半计算时间。
在服务器中多用int8是因为解量化的时间与计算时间正相关，而服务器中计算占比较大。

标签：推理,prefill,decoding,llm,量化,优化
From： https://www.cnblogs.com/sandust/p/18516756

LOD优化之Impostors
Unity下两个Imposters替代体方案的插件介绍——AmplifyImposters与RuntimeImposters(youtube.com)第21章真正的骗子|英伟达开发商---Chapter21.TrueImpostors|NVIDIADeveloperOctahedralImpostors(shaderbits.com) ......
yolov8旋转目标检测从原理到模型训练、部署、验证、推理（附代码）
定向边界框目标检测在这里插入图片描述导言定向目标检测是在传统目标检测的基础上更进一步的技术，它引入了一个额外的角度参数，以更精确地定位图像中的物体。传统的目标检测算法通常使用轴对齐的矩形包围框来框定物体，而定向目标检测则使用旋转的边界框，这些边界框能够更好......
video 标签缓存优化策略
在Web开发中，处理视频内容的缓存是一个常见的需求，尤其是在视频播放过程中管理缓存（buffer）以优化用户体验。HTML5的<video>元素及其相关的JavaScriptAPI提供了一些方法来管理和监控视频的缓存状态。HTMLMediaElement缓存（Buffer）<video>元素是HTMLMediaElement接口的一个实......
【EI复现】风-水电联合优化运行分析（Matlab代码实现）
......
【顶级EI复现】【最新EI复现】基于共享储能服务的智能楼宇双层优化配置（Matlab代码实现
......
【C++】——高效构建与优化二叉搜索树
活着就意味必须要做点什么，请好好努力。——村上春树《地下》目录1、二叉搜索树BST1.1什么是二叉搜索树1.2BST的性能功能分析2、二叉搜索树的实现2.1BST框架2.2BST插入2.3BST搜索2.4BST删除2.5BST细节问题3、二叉搜索树遍历3.1中序遍历3.2前序遍历3.3......
【多微电网】含多微电网租赁共享储能的配电网博弈优化调度（Matlab代码实现）
......
资源利用率提高30%，揭秘华为云Serverless高效、高密度调度优化原理
KeyTakeawaysUSENIXATC（USENIXAnnualTechnicalConference)是计算机系统领域国际顶级学术会议之一（CCF-A），在国际上享有极高的学术声誉，2024年录用率仅为15.8%。来自华为云中间件团队、上海交通大学IPADS实验室的论文《HarmonizingEfficiencyandPracticability:Optimizing......
【JVM详解&JVM优化】JVM内存模型
一、介绍： JVM是java虚拟机，JVM(JavaVirtualMachine)。对于Java不需要管理垃圾，jvm会自动帮助我们回收垃圾，但更好的掌握jvm如何帮助回收垃圾的，能让我们的系统更加稳定。所有的Java程序都需要在JVM中运行，JVM也是Java跨平台的原理所在，对于不同......
高并发场景下的抢红包系统设计：实时拆分与预先生成方案的比较与优化
引言在之前面试中经常会问到的一个经典场景问题是如何设计一个抢红包系统。我之前的项目场景中也会涉及到群红包的业务逻辑。今天我们来一起讨论下这个业务场景设计。这个问题不仅考察我们对高并发处理的理解，还涉及到数据库设计、缓存优化、分布式锁控制等技术细节。在“......

推理优化（1）

吐槽