六. 部署分类器-preprocess-speed-compare

时间：2024-08-17 17:57:14浏览次数：18

标签：src compare tar timer cpu 分类器 preprocess speed cv

前言

自动驾驶之心推出的《CUDA与TensorRT部署实战课程》，链接。记录下个人学习笔记，仅供自己参考

本次课程我们来学习课程第六章—部署分类器，一起来 CPU 端图像预处理方法以及速度对比

课程大纲可以看下面的思维导图

在这里插入图片描述

0. 简述

本小节目标：学习 CPU 端 bgr2rgb + normalization + hwc2chw 等图像预处理操作以及它们的性能比较

这节课程开始我们进入第六章节—部署分类器，这个章节偏实战，为大家准备了几个案例：

6.0-preprocess-speed-compare
6.1-deploy-classification
6.2-deploy-classification-advanced
6.3-int8-calibration
6.4-trt-engine-inspector

第六章节准备的案例一共是五个，第一个是 preprocess-speed-compare，这个小节主要教大家如果用 CPU 做图像预处理都有哪些方法，哪种方法访问图像速度更快；6.1 小节主要给大家介绍初步的分类器部署该怎么做，这个小节为了方便大家理解整个代码写得比较简单，也没有涉及到任何 C++ 的设计模式，所以整个代码看起来有很多缺陷；6.2 小节是针对 6.1 小节的一个扩展，主要是把 6.1 小节中的很多问题给解决掉，另外我们自己在写推理框架的时候应该考虑哪些东西

6.3 小节给大家介绍 int8 calibration，我们在前面或多或少都有涉及到量化这个概念，其中校准是量化的一个重要环节，校准包括很多校准器比如 MinMaxCalibrator、EntropyCalibrator、LegacyCalibrator 等等，我们在部署时该如何使用这些校准器呢？选择哪个校准器呢？这都是我们在 6.3 小节需要讨论的问题；最后 6.4 小节主要给大家介绍 TensorRT 官方工具 trt-engine-explorer，这个工具主要是帮助大家观察经过 TensorRT 优化前后的推理引擎在架构上有什么不同，去理解 TensorRT 做了哪些优化，哪些层融合了，哪些节点添加了，哪些节点被删除了，这个方便我们更好的去理解 TensorRT 的优化，同时可以帮助我们分析 TensorRT 中哪些优化是可以进一步改善的

后续的一些案例主要是讲 Transformer 的一些部署以及面临的一些问题，比如 attention 计算瓶颈，LayerNormalization 这种节点和 CNN 中 Conv 这种节点相比推理性能差异又在哪里，还有纯 Transformer 模型和纯 CNN 模型以及 CNN+Transformer 模型相比它们的计算效率以及计算密度有什么不同（目前 2024/8/17 尚未更新）

下面我们开始本次课程的学习

标签：src,compare,tar,timer,cpu,分类器,preprocess,speed,cv
From： https://blog.csdn.net/qq_40672115/article/details/141284136

百万级超长序列大模型训练如何加速，硬核解读MindSpeed方案
摘要：针对现有长序列训练场景的痛点，MindSpeed在并行算法、计算效率、内存占用以及通信四个维度系统性优化大模型长序列训练效率，支持大模型百万级长序列训练。1 长序列已经成为主流大模型能力之一23年底Gemini1.5Pro发布以来，大模型序列长度迅速增长，处理超长序列上下......
随机森林分类器（Random Forest Classifier）
随机森林分类器（RandomForestClassifier，又称为“随机森林”）是一种常用的机器学习算法，它是基于决策树的一种集成学习方法，是一种集成算法（EnsembleLearning），它属于Bagging类型，通过组合多个弱分类器，最终结果通过投票或取均值，使得整体模型的结果具有较高的精确度和泛化性能。......
OpenCV的级联分类器训练
使用增强级联的弱分类器包括两个主要阶段：训练和检测阶段。对象检测教程中有描述使用基于HAAR或LBP模型的检测阶段。这里主要介绍训练增强分类器级联所需的功能，包括：准备训练数据、执行实际模型训练、可视化训练。目录一、训练数据准备1、负样本2、正样本3、命令行参数......
CF1863E Speedrun 题解
CF1863E你在玩一个游戏，要完成\(n\)个任务。其中对于每个任务\(i\)，它只能在某一天的第\(h_i\)时刻完成。游戏每天有\(k\)个小时，分别编号为\(0,1,...k-1\)。给出\(m\)对任务间的依赖关系，\((a_i,b_i)\)表示\(a_i\)必须比\(b_i\)先完成。保证依赖关系不形成环。完......
【Python机器学习】利用AdaBoost元算法提高分类性能——基于单层决策树构建弱分类器
单层决策树（也称决策树桩）是一种简单的决策树。它基于单个特征来做决策，由于这棵树只有一次分裂过程，因此它实际上就是一个树桩。在构造AdaBoost代码时，首先通过一个简单数据集来确保在算法上一切就绪：fromnumpyimport*defloadSimpData():datMat=matrix([[1.0,2.1],......
Beyond Compare Pro v5.0.0.29773 授权版
BeyondCompare是一款文件及文件夹（目录）的对比工具。BeyondCompare不仅可以快速比较出两个目录的不同，还可以比较每个文件的内容，而且可以任意显示比较结果。BeyondCompare程序内建了文件浏览器，方便您对文件、文件夹、压缩包、FTP网站之间的差异比对以及资料同步。软件截图：使......
BMTrain类Megatron+DeepSpeed原理学习
这一章节虽然是BMTrain，不是目前常用的Megatron+DeepSpeed，但是对于了解原理，也是很有帮助。BMTrain数据并行一般数据并行上图，把数据切为3份，每张显卡处理一部分数据，每张显卡利用得到的数据进行前向传播和反向传播，得到各自的梯度，为了让模型学到这份数据的所有知识，就需要......
Beyond Compare Pro v5.0.0.29773 授权版
BeyondCompare是一款文件及文件夹（目录）的对比工具。BeyondCompare不仅可以快速比较出两个目录的不同，还可以比较每个文件的内容，而且可以任意显示比较结果。BeyondCompare程序内建了文件浏览器，方便您对文件、文件夹、压缩包、FTP网站之间的差异比对以及资料同步。软件截图：使......
Speedybee405v3 与 msp_rx 的 USB 通信
我正在尝试让飞行控制器405speedybeev3使用Pythonmultiwii通过USB进行通信。我将接收器设置为msp_rx，但无法显示IMU数据。当我将USB插入计算机并使用multiwii.py时，它应该获取IMU数据，但飞控却没有不显示任何值。我理解你想通过Python的multiwii库读取......

六. 部署分类器-preprocess-speed-compare

目录

前言

0. 简述

相关文章

赞助商

阅读排行