首页 > 其他分享 >六. 部署分类器-preprocess-speed-compare

六. 部署分类器-preprocess-speed-compare

时间:2024-08-17 17:57:14浏览次数:9  
标签:src compare tar timer cpu 分类器 preprocess speed cv

目录

前言

自动驾驶之心推出的 《CUDA与TensorRT部署实战课程》,链接。记录下个人学习笔记,仅供自己参考

本次课程我们来学习课程第六章—部署分类器,一起来 CPU 端图像预处理方法以及速度对比

课程大纲可以看下面的思维导图

在这里插入图片描述

0. 简述

本小节目标:学习 CPU 端 bgr2rgb + normalization + hwc2chw 等图像预处理操作以及它们的性能比较

这节课程开始我们进入第六章节—部署分类器,这个章节偏实战,为大家准备了几个案例:

  • 6.0-preprocess-speed-compare
  • 6.1-deploy-classification
  • 6.2-deploy-classification-advanced
  • 6.3-int8-calibration
  • 6.4-trt-engine-inspector

第六章节准备的案例一共是五个,第一个是 preprocess-speed-compare,这个小节主要教大家如果用 CPU 做图像预处理都有哪些方法,哪种方法访问图像速度更快;6.1 小节主要给大家介绍初步的分类器部署该怎么做,这个小节为了方便大家理解整个代码写得比较简单,也没有涉及到任何 C++ 的设计模式,所以整个代码看起来有很多缺陷;6.2 小节是针对 6.1 小节的一个扩展,主要是把 6.1 小节中的很多问题给解决掉,另外我们自己在写推理框架的时候应该考虑哪些东西

6.3 小节给大家介绍 int8 calibration,我们在前面或多或少都有涉及到量化这个概念,其中校准是量化的一个重要环节,校准包括很多校准器比如 MinMaxCalibrator、EntropyCalibrator、LegacyCalibrator 等等,我们在部署时该如何使用这些校准器呢?选择哪个校准器呢?这都是我们在 6.3 小节需要讨论的问题;最后 6.4 小节主要给大家介绍 TensorRT 官方工具 trt-engine-explorer,这个工具主要是帮助大家观察经过 TensorRT 优化前后的推理引擎在架构上有什么不同,去理解 TensorRT 做了哪些优化,哪些层融合了,哪些节点添加了,哪些节点被删除了,这个方便我们更好的去理解 TensorRT 的优化,同时可以帮助我们分析 TensorRT 中哪些优化是可以进一步改善的

后续的一些案例主要是讲 Transformer 的一些部署以及面临的一些问题,比如 attention 计算瓶颈,LayerNormalization 这种节点和 CNN 中 Conv 这种节点相比推理性能差异又在哪里,还有纯 Transformer 模型和纯 CNN 模型以及 CNN+Transformer 模型相比它们的计算效率以及计算密度有什么不同(目前 2024/8/17 尚未更新

下面我们开始本次课程的学习

标签:src,compare,tar,timer,cpu,分类器,preprocess,speed,cv
From: https://blog.csdn.net/qq_40672115/article/details/141284136

相关文章

  • 百万级超长序列大模型训练如何加速,硬核解读MindSpeed方案
    摘要:针对现有长序列训练场景的痛点,MindSpeed在并行算法、计算效率、内存占用以及通信四个维度系统性优化大模型长序列训练效率,支持大模型百万级长序列训练。1      长序列已经成为主流大模型能力之一23年底Gemini1.5Pro发布以来,大模型序列长度迅速增长,处理超长序列上下......
  • 随机森林分类器(Random Forest Classifier)
    随机森林分类器(RandomForestClassifier,又称为“随机森林”)是一种常用的机器学习算法,它是基于决策树的一种集成学习方法,是一种集成算法(EnsembleLearning),它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能。......
  • 分类器集成(集成学习)
    分类器集成(又称为“集成学习”),集成学习(ensemblelearning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifiersystem)、基于委员会的学习(committee-basedlearning)。结合策略主要有平均法、投票法和学习法等。上图显示出集成学习的一般结构......
  • OpenCV的级联分类器训练
    使用增强级联的弱分类器包括两个主要阶段:训练和检测阶段。对象检测教程中有描述使用基于HAAR或LBP模型的检测阶段。这里主要介绍训练增强分类器级联所需的功能,包括:准备训练数据、执行实际模型训练、可视化训练。目录一、训练数据准备1、负样本2、正样本3、命令行参数......
  • CF1863E Speedrun 题解
    CF1863E你在玩一个游戏,要完成\(n\)个任务。其中对于每个任务\(i\),它只能在某一天的第\(h_i\)时刻完成。游戏每天有\(k\)个小时,分别编号为\(0,1,...k-1\)。给出\(m\)对任务间的依赖关系,\((a_i,b_i)\)表示\(a_i\)必须比\(b_i\)先完成。保证依赖关系不形成环。完......
  • 【Python机器学习】利用AdaBoost元算法提高分类性能——基于单层决策树构建弱分类器
    单层决策树(也称决策树桩)是一种简单的决策树。它基于单个特征来做决策,由于这棵树只有一次分裂过程,因此它实际上就是一个树桩。在构造AdaBoost代码时,首先通过一个简单数据集来确保在算法上一切就绪:fromnumpyimport*defloadSimpData():datMat=matrix([[1.0,2.1],......
  • Beyond Compare Pro v5.0.0.29773 授权版
    BeyondCompare是一款文件及文件夹(目录)的对比工具。BeyondCompare不仅可以快速比较出两个目录的不同,还可以比较每个文件的内容,而且可以任意显示比较结果。BeyondCompare程序内建了文件浏览器,方便您对文件、文件夹、压缩包、FTP网站之间的差异比对以及资料同步。软件截图:使......
  • BMTrain类Megatron+DeepSpeed原理学习
    这一章节虽然是BMTrain,不是目前常用的Megatron+DeepSpeed,但是对于了解原理,也是很有帮助。BMTrain数据并行一般数据并行上图,把数据切为3份,每张显卡处理一部分数据,每张显卡利用得到的数据进行前向传播和反向传播,得到各自的梯度,为了让模型学到这份数据的所有知识,就需要......
  • Beyond Compare Pro v5.0.0.29773 授权版
    BeyondCompare是一款文件及文件夹(目录)的对比工具。BeyondCompare不仅可以快速比较出两个目录的不同,还可以比较每个文件的内容,而且可以任意显示比较结果。BeyondCompare程序内建了文件浏览器,方便您对文件、文件夹、压缩包、FTP网站之间的差异比对以及资料同步。软件截图:使......
  • Speedybee405v3 与 msp_rx 的 USB 通信
    我正在尝试让飞行控制器405speedybeev3使用Pythonmultiwii通过USB进行通信。我将接收器设置为msp_rx,但无法显示IMU数据。当我将USB插入计算机并使用multiwii.py时,它应该获取IMU数据,但飞控却没有不显示任何值。我理解你想通过Python的multiwii库读取......