【所有方法一览】大模型推理优化：在更小的设备运行、推理增速

时间：2023-12-28 14:03:42浏览次数：40

标签：蒸馏推理一览知识矩阵参数优化模型

大模型推理优化：在更小的设备运行、推理增速
知识蒸馏（优先）
模型剪枝
模型量化（优先）
参数共享
低秩分解
参数搜索

知识蒸馏（优先）

【所有方法一览】大模型推理优化：在更小的设备运行、推理增速_深度学习

知识蒸馏：

知识：模型参数、一堆矩阵
蒸馏：把大模型参数迁移到小模型，用更小的矩阵代替更大的矩阵

让大、小模型最后一层输出尽可能接近。

判别指标：KL 散度、L2 距离

学习的是最后一层的概率分布，但大模型不止最后一层，还有很多中间层。

所以，不仅要最后一层接近，还有俩者的中间层、输入层、注意力层也要接近
判别指标：MSE loss

主流是知识蒸馏，但需要多训练一个模型，成本更高。

模型剪枝

把其中一些参数（矩阵）去掉，接近 0 的参数。

去掉 30% 的参数，对下游任务性能不影响

对于注意力层，定义重要性指标，去掉不重要的层。

模型量化（优先）

把浮点数变成定点数。

主流框架都支持。

参数共享

相邻矩阵共享同一套参数，原先相邻矩阵参数都不同。

只使用一个层，效果也不会差

低秩分解

用一小维代替整个参数矩阵。

参数搜索

找更好的神经网络配置，比如加卷积层、找更好的非线性函数、注意力机制优化等。

标签：蒸馏,推理,一览,知识,矩阵,参数,优化,模型
From： https://blog.51cto.com/u_13937572/9014081

依靠HDR-VMAF，Netflix的HDR视频已全部实现动态优化
编者按：据11月30日Netflixtechblog显示，Netflix现已推出动态优化HDR（高动态范围）视频流功能。该功能使用了新的算法HDR-VMAF，提升了用户的观看体验。Netflix于2016年开始推出HDR视频，此后其提供的HDR影片数量一直持续增长。HDR视频可以提供更广泛的色彩和更高的对比度，从而提供更趋近真......
PostgreSQL pgbackrest 参数与优化与 “小作文和售货员”
最近热度最大的新闻，可能就是“小作文”和“售货员”，这里我特别想对曾经的某“售货员”曾经不经意说的一句话进行转载：“有些人很好奇，他们问我，谁给你写的那些小作文，我想说的是，如果公司能写好这样的句子，让我读的话，那么为什么公司不找一个长得比我更好看的主播来这里读，人们好像更愿意相......
PHP内存占用优化
请求次数：1300次执行时间：200*60=12000S//要分批保存数据，可以将`$all_data`数组拆分成多个小数组，并逐一调用`saveAll`方法。以下是一个示例，演示如何将数据分批为每批100条进行保存：$dataModel=newcxVipUserStudyInfo();$batchSize=100;$offset=0;foreach($jsonD......
电商平台同品牌优化店铺
在淘宝这个世界最大的电商平台上，商家们面临着巨大的竞争压力。对于许多商家来说，他们常常困惑于一个问题：为什么我的店铺销量比别家好，但搜索排名却落后呢？其实，这背后的原因与淘宝的搜索排名原则密切相关。本文将深入解析淘宝搜索排名的核心原则，并探讨如何优化店铺排名，帮助商家在竞争激......
泛互联网行业A/B测试全解析：产品优化的创新之道
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群近期，火山引擎数智平台举办了“超话数据：企业产品优化分享”的活动。火山引擎产品解决方案专家从企业应用的视角，分享了A/B实验在产品全用户生命周期的体验优化和案例。在用户拉新环节，企业可以通过广......
泛互联网行业A/B测试全解析：产品优化的创新之道
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群近期，火山引擎数智平台举办了“超话数据：企业产品优化分享”的活动。火山引擎产品解决方案专家从企业应用的视角，分享了A/B实验在产品全用户生命周期的体验优化和案例。在用户拉新环节，企......
神经网络优化篇：详解归一化输入（Normalizing inputs）
归一化输入训练神经网络，其中一个加速训练的方法就是归一化输入。假设一个训练集有两个特征，输入特征为2维，归一化需要两个步骤：零均值归一化方差；希望无论是训练集和测试集都是通过相同的$μ$和$σ^2$定义的数据转换，这两个是由训练集得出来的。第一步是零均值化，\(\mu......
C++编译器中的 Copy elision 和 RVO 优化
一、Copyelision简介在C++计算机编程中，复制省略（Copyelision）是指一种编译器优化技术，它消除了不必要的对象复制。常见的俩种场景下复制省略1、纯右值参数复制构造2、函数返回值优化（ReturnvalueoptimizationRVO)1.1纯右值参数复制构造#include<iostream>intnum=0......
17--MySQL优化
MySQL优化一、优化工具：1、系统优化工具1.1 top (1)简介：实时监控当前操作系统的负载情况的，每秒刷新一次状态,通常会关注三大指标（CPU、MEM、IO）（2）评判标准（2.1）整体的负载情况，判断标准，如果值非常高，只能告诉我们操作系统很繁忙 load average: 0.00, 0.00, 0.00 ......
优化线上故障排查与性能问题的方法
在面对线上故障和性能问题时，迅速而准确的排查是至关重要的。以下是一些优化排查的方法，帮助更有效地解决短时间内产生大量timewait请求的问题。1.监控和日志分析通过监控系统实时监控应用的指标，特别关注与网络通信和连接有关的指标。检查日志以找到与timewait请求相关的信息，可......