首页 > 其他分享 >【所有方法一览】大模型推理优化:在更小的设备运行、推理增速

【所有方法一览】大模型推理优化:在更小的设备运行、推理增速

时间:2023-12-28 14:03:42浏览次数:37  
标签:蒸馏 推理 一览 知识 矩阵 参数 优化 模型




大模型推理优化:在更小的设备运行、推理增速

  • 知识蒸馏(优先)
  • 模型剪枝
  • 模型量化(优先)
  • 参数共享
  • 低秩分解
  • 参数搜索



 


知识蒸馏(优先)

【所有方法一览】大模型推理优化:在更小的设备运行、推理增速_深度学习

知识蒸馏:

  • 知识:模型参数、一堆矩阵
  • 蒸馏:把大模型参数迁移到小模型,用更小的矩阵代替更大的矩阵

让大、小模型最后一层输出尽可能接近。

  • 判别指标:KL 散度、L2 距离

学习的是最后一层的概率分布,但大模型不止最后一层,还有很多中间层。

  • 所以,不仅要最后一层接近,还有俩者的中间层、输入层、注意力层也要接近
  • 判别指标:MSE loss

主流是知识蒸馏,但需要多训练一个模型,成本更高。

模型剪枝

把其中一些参数(矩阵)去掉,接近 0 的参数。

  • 去掉 30% 的参数,对下游任务性能不影响

对于注意力层,定义重要性指标,去掉不重要的层。

模型量化(优先)

把浮点数变成定点数。

主流框架都支持。

参数共享

相邻矩阵共享同一套参数,原先相邻矩阵参数都不同。

  • 只使用一个层,效果也不会差

低秩分解

用一小维代替整个参数矩阵。

参数搜索

找更好的神经网络配置,比如加卷积层、找更好的非线性函数、注意力机制优化等。


标签:蒸馏,推理,一览,知识,矩阵,参数,优化,模型
From: https://blog.51cto.com/u_13937572/9014081

相关文章

  • 依靠HDR-VMAF,Netflix的HDR视频已全部实现动态优化
    编者按:据11月30日Netflixtechblog显示,Netflix现已推出动态优化HDR(高动态范围)视频流功能。该功能使用了新的算法HDR-VMAF,提升了用户的观看体验。Netflix于2016年开始推出HDR视频,此后其提供的HDR影片数量一直持续增长。HDR视频可以提供更广泛的色彩和更高的对比度,从而提供更趋近真......
  • PostgreSQL pgbackrest 参数与优化 与 “小作文和售货员”
    最近热度最大的新闻,可能就是“小作文”和“售货员”,这里我特别想对曾经的某“售货员”曾经不经意说的一句话进行转载:“有些人很好奇,他们问我,谁给你写的那些小作文,我想说的是,如果公司能写好这样的句子,让我读的话,那么为什么公司不找一个长得比我更好看的主播来这里读,人们好像更愿意相......
  • PHP内存占用优化
    请求次数:1300次执行时间:200*60=12000S//要分批保存数据,可以将`$all_data`数组拆分成多个小数组,并逐一调用`saveAll`方法。以下是一个示例,演示如何将数据分批为每批100条进行保存:$dataModel=newcxVipUserStudyInfo();$batchSize=100;$offset=0;foreach($jsonD......
  • 电商平台同品牌优化店铺
    在淘宝这个世界最大的电商平台上,商家们面临着巨大的竞争压力。对于许多商家来说,他们常常困惑于一个问题:为什么我的店铺销量比别家好,但搜索排名却落后呢?其实,这背后的原因与淘宝的搜索排名原则密切相关。本文将深入解析淘宝搜索排名的核心原则,并探讨如何优化店铺排名,帮助商家在竞争激......
  • 泛互联网行业A/B测试全解析:产品优化的创新之道
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群近期,火山引擎数智平台举办了“超话数据:企业产品优化分享”的活动。火山引擎产品解决方案专家从企业应用的视角,分享了A/B实验在产品全用户生命周期的体验优化和案例。在用户拉新环节,企业可以通过广......
  • 泛互联网行业A/B测试全解析:产品优化的创新之道
     更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近期,火山引擎数智平台举办了“超话数据:企业产品优化分享”的活动。火山引擎产品解决方案专家从企业应用的视角,分享了A/B实验在产品全用户生命周期的体验优化和案例。在用户拉新环节,企......
  • 神经网络优化篇:详解归一化输入(Normalizing inputs)
    归一化输入训练神经网络,其中一个加速训练的方法就是归一化输入。假设一个训练集有两个特征,输入特征为2维,归一化需要两个步骤:零均值归一化方差;希望无论是训练集和测试集都是通过相同的\(μ\)和\(σ^2\)定义的数据转换,这两个是由训练集得出来的。第一步是零均值化,\(\mu......
  • C++编译器中的 Copy elision 和 RVO 优化
    一、Copyelision简介在C++计算机编程中,复制省略(Copyelision)是指一种编译器优化技术,它消除了不必要的对象复制。常见的俩种场景下复制省略1、纯右值参数复制构造2、函数返回值优化(ReturnvalueoptimizationRVO)1.1纯右值参数复制构造#include<iostream>intnum=0......
  • 17--MySQL优化
    MySQL优化一、优化工具:1、系统优化工具1.1 top (1)简介: 实时监控当前操作系统的负载情况的,每秒刷新一次状态,通常会关注三大指标(CPU、MEM、IO) (2)评判标准 (2.1) 整体的负载情况,判断标准,如果值非常高,只能告诉我们操作系统很繁忙 load average: 0.00, 0.00, 0.00 ......
  • 优化线上故障排查与性能问题的方法
    在面对线上故障和性能问题时,迅速而准确的排查是至关重要的。以下是一些优化排查的方法,帮助更有效地解决短时间内产生大量timewait请求的问题。1.监控和日志分析通过监控系统实时监控应用的指标,特别关注与网络通信和连接有关的指标。检查日志以找到与timewait请求相关的信息,可......