首页 > 其他分享 >四. TensorRT模型部署优化-quantization(calibration)

四. TensorRT模型部署优化-quantization(calibration)

时间:2024-06-23 12:30:08浏览次数:3  
标签:校准 TensorRT calibration batch quantization 直方图 量化 size

目录

前言

自动驾驶之心推出的 《CUDA与TensorRT部署实战课程》,链接。记录下个人学习笔记,仅供自己参考

本次课程我们来学习课程第四章—TensorRT 模型部署优化,一起来学习 calibration 校准算法

课程大纲可以看下面的思维导图

在这里插入图片描述

0. 简述

本小节目标:理解 calibration 的作用,不同 calibration algorithm 的不同点,以及什么时候使用哪种算法,calibration 与 batch size 的关系

这节课我们来学习第四章节量化的第三小节—calibration(校准),大家如果做过 PTQ 量化可能对这个词比较熟悉,不同的 calibration 算法所表现出来量化精度是不同的,它与网络模型的架构是有关系的。那大家可能会想我们针对不同的模型使用哪一种 calibration 算法比较好呢,另外我们在做 Calibration 的时候我们要选择一个 batch size,那 calibration 和 batch size 的关系又是怎么去选择的呢,它跟模型的鲁棒性关系大不大呢,是不是 batch size 越大越好呢?

我们这个小节就来给大家解答下这些问题

标签:校准,TensorRT,calibration,batch,quantization,直方图,量化,size
From: https://blog.csdn.net/qq_40672115/article/details/139894163

相关文章

  • MODEL COMPRESSION VIA DISTILLATION AND QUANTIZATION翻译
    摘要:深度神经网络(DNNs)继续取得重大进展,解决了从图像分类到翻译或增强学习的任务。这个领域的一个受到广泛关注的方面是在资源受限环境中(如移动或嵌入式设备)高效执行深度模型。本文聚焦于这一问题,并提出了两种新的压缩方法,这两种方法共同利用了权重量化和大型网络(称为“教师”网络)......
  • 使用 TensorRT C++ API 调用GPU加速部署 YOLOv10 实现 500FPS 推理速度——快到飞起!!
    ​NVIDIA®TensorRT™是一款用于高性能深度学习推理的SDK,包含深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量。YOLOv10是清华大学研究人员近期提出的一种实时目标检测方法,通过消除NMS、优化模型架构和引入创新模块等策略,在保持高精度的同时显著降低了......
  • 四. TensorRT模型部署优化-quantization(mapping-and-shift)
    目录前言0.简述1.近10年模型的变化与硬件的发展2.模型量化回顾3.什么是量化4.量化会出现什么问题5.量化的基本原理:映射和偏移6.量化的基本原理:基本术语6.1量化和反量化6.2对称量化和非对称量化6.3量化粒度6.4校准6.5PTQ和QAT7.其他:有关量化学习的激活函数......
  • TexQ: Zero-shot Network Quantization with Texture Feature Distribution Calibrati
    我们使用以下这六个标准对网络量化和相关领域的研究进行分类。以下是每个标准的详细解释,并结合了参考文献中的相关研究:研究领域:该标准将研究大致分为三个主要领域:量化:这是上传论文的核心焦点。它涉及减少模型参数的位宽(例如,从32位浮点数到4位整数)等技术,以压缩模型并提......
  • TensorRT c++部署onnx模型
    在了解一些概念之前一直看不懂上交22年开源的TRTModule.cpp和.hpp,好在交爷写的足够模块化,可以配好环境开箱即用,移植很简单。最近稍微了解了神经网络的一些概念,又看了TensorRT的一些api,遂试着部署一下自己在MNIST手写数字数据集上训练的一个LeNet模型,识别率大概有98.9%,实现用pytor......
  • 【jetson nano】yolov5环境配置tensorrt部署加速
    安装pytorchNano上预装的Jetpack版本为4.6.1,Python为3.6.9,CUDA环境为10.2。在PyTorchforJetson中可以下载不同版本的torch,torch<=1.10.0。1安装torch1.8.0#substitutethelinkURLandwheelfilenamefromthedesiredtorchversionabovewgethttps://nvidia.box.com......
  • Product Quantization
    Background如何在数据海量的内容库中快速检索出Top-k的信息候选?缩小查找的范围,快速找到最有可能成为近邻的一个粗集合对Embedding向量做压缩,快速计算两个Embedding的距离。本实践内容的代码管理在Codes24/FlashCIM/文件夹下的pq_lib中VectorQuantization将一个向量空间中......
  • pytorch 转 tensorRT 踩的几个小坑_tensorrt engine set up failed
    CSDN搬家失败,手动导出markdown后再导入博客园1、版本不匹配[E][TRT]Layer:Where_51'soutputcannotbeusedasshapetensor.[E][TRT]Networkvalidationfailed.[E]Enginecreationfailed.[E]Enginesetupfailed.这实际是由于pytorch与TensorRT版本不匹......
  • VisionPro - Calibration 校准
    Calibration校准许多视觉应用程序要求您以有意义的真实世界值报告测量值和位置。校准包括计算将图像坐标映射到真实世界坐标的二维变换,然后将此预先计算的坐标空间附加到每个运行时图像的坐标空间树。运行时图像中的视觉工具可以以校准单位报告其结果。VisionPro包括两个校准......
  • Quantization: fp16, bf16, int8, fp4, nf4
    1GPUMemoryUsage1.1HowtoComputeHowtocomputeGPUMemoryUsage?Modelsize:ModelWeights:4Bytes*num_paramOptimizer:4Bytes*2*num_param(forAdamW)Gradient:4Bytes*num_paramfeedforward:sum:1.2HowtoReduceStrategy1:Optimizati......