• 2024-09-25阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
    前言阿里云函数计算(FunctionCompute,FC)是一种无服务器(Serverless)计算服务,允许用户在无需管理底层基础设施的情况下,直接运行代码。与传统的计算架构相比,函数计算具有高灵活性和弹性扩展的特点,用户只需专注于业务逻辑的开发,系统自动处理计算资源的分配、扩展和维护。同时,函数计算
  • 2024-09-24阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
    作者:付宇轩前言阿里云函数计算(FunctionCompute,FC)是一种无服务器(Serverless)计算服务,允许用户在无需管理底层基础设施的情况下,直接运行代码。与传统的计算架构相比,函数计算具有高灵活性和弹性扩展的特点,用户只需专注于业务逻辑的开发,系统自动处理计算资源的分配、扩展和维护。
  • 2024-09-18YOLOV8 det 多batch TensorRT 推理(python )
    由于我当前的项目需求是推理四张,所以,demo部分也是基于4张进行演示的,不过基于此套路,可以实现NCHW的任意尺度推理,推理代码如下:importnumpyasnpfromnumpyimportndarrayfromtypingimportList,Tuple,UnionfrommodelsimportTRTModule#isort:skipimportar
  • 2024-09-05TensorRT量化模型分析(耗时分布可视化等)
    文章目录TensorRT量化模型分析一背景二准备工作1.代码准备2.依赖环境三分析过程1.导出模型2.模型形态比对3.转tensorrt序列化文件4.tensorrt序列化文件(即tensorrt模型)分析四其他TIPSTensorRT量化模型分析一背景​在TensorRT模型量化
  • 2024-08-10以DenseNet为例进行AI算法部署集成
    以DenseNet为例进行AI算法部署集成AI越用越广,但落地使用的时候各种bug多多,这里提供一些离线集成的导引方便大家学习,后面也会尝试更新一些webapi的集成方式,请期待后续的博客简单性能表格下列表格为一些简单的部署数据搜集,通过部署器进行离线集成,可以看到可以大大降低资源
  • 2024-07-28解决yolo使用engine模型推理报错AttributeError: “NoneType’cbject has no attribute ‘create_execution_context‘
    目录起因分析两种解决方案方法一:卸载生产服务器的tensorrt,下载与训练服务器相同版本方法二:将训练服务器训练的pt模型下载出来到生产服务器导出起因在做yolo模型训练时使用了训练服务器,训练结束把模型转换成了.engine模型,在训练服务器上可以正常使用,但把模型放到生成服
  • 2024-07-25将 PyTorch ONNX 模型转换为 TensorRT 引擎 - Jetson Orin Nano
    我正在尝试从JetsonOrinNano上的ViT-B/32UNICOM存储库转换VisionTransformer模型。该模型的VisionTransformer类和源代码在此处我使用以下代码将模型转换为ONNX:importtorchimportonnximportonnxruntimefromunicom.vision_trans
  • 2024-07-16Win10+Docker配置TensorRT环境
    1.Docker下载和安装        Docker下载:InstallDockerDesktoponWindows          Docker安装:勾选直接下一步就行,安装完成后需要电脑重启。         重启后,选择Accept—>Continuewithoutsigningin—>skipsurvey.         可
  • 2024-07-15模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本 - 性能优化
                                                   
  • 2024-07-14模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本 - 高级话题
                                
  • 2024-07-14模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本 -Plugin
                          
  • 2024-07-14模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本 - 5种工具
                                          
  • 2024-07-14模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本
                                           
  • 2024-07-14Tensor-LLM简单介绍
    最近体验了一下英伟达的TensorRT-LLM的最新版本,写个简单介绍,给大家参考。TensorRT-LLM是专门用于大语言模型推理和部署的产品,同类型产品还有来自UC-Berkley的vLLM,上海人工实验室的LMDeploy,英特尔的OpenVINO。英特尔的OpenVINO,可以查看我另一篇文章:如何使用OpenVINO进行A
  • 2024-07-13模型部署 - TensorRT - C++版本与Python版本应如何选择
    从性能角度来看,TensorRTC++版本和Python版本之间确实存在一些差异:C++版本性能更优:TensorRTC++版本使用了更底层的API,可以更好地利用硬件特性,进行更深层的优化。C++版本在内存管理、CPU-GPU数据传输等方面更加高效,这些都可以带来更好的推理性能。Python版本更易
  • 2024-07-13模型部署 - TensorRT & Triton 学习
    先介绍TensorRT、Triton的关系和区别:TensorRT:为inference(推理)为生,是NVIDIA研发的一款针对深度学习模型在GPU上的计算,显著提高GPU上的模型推理性能。即一种专门针对高性能推理的模型框架,也可以解析其他框架的模型如tensorflow、torch。主要优化手段如下: Triton:类似于TensorFlo
  • 2024-07-13模型部署 - TensorRT 简介及人脸推理简单示例
       TensorRT是Nvidia开发的一个高性能深度学习推理引擎。它主要用于优化和部署已经训练好的深度学习模型,提高模型在NVIDIAGPU硬件上的推理性能。 TensorRT的主要功能和特点包括:  1.模型优化    TensorRT提供了一系列优化技术,包括层融合,张量格式化,kern
  • 2024-07-13模型部署 - TensorRT、OpenVINO 和 triton 之间的关系
    1.共同目标-深度学习模型部署优化   这三者都是用于优化和部署深度学习模型的工具和框架,目标是提高模型在服务端的推理性能。2.技术侧重点不同TensorRT侧重于针对NvidiaGPU硬件进行深度学习模型的优化与加速。OpenVINO则针对InterCPU和FPGA等硬件进行模拟优化。
  • 2024-07-11【ZhangQian AI模型部署】目标检测、SAM、3D目标检测、旋转目标检测、人脸检测、检测分割、关键点、分割、深度估计、车牌识别、车道线识别
    目标检测【yolov10部署rknn、地平线、tensorRT、C++】【yoloworld部署rknn、地平线、tensorRT、C++】【yolov9部署rknn、地平线、tensorRT、C++】【yolov8部署rknn、地平线、tensorRT、C++】【yolov7部署rknn、地平线、tensorRT】【yolov6部署rknn、地平
  • 2024-07-07autoware.universe源码略读(3.4)--perception:tensorrt_yolox
    autoware.universe源码略读3.4--perception:tensorrt_yoloxOverview结构体预定义TrtYoloXpreprocessdoInferencefeedforwardfeedforwardAndDecodedecodeOutputstensorrt_yolox_nodeyolox_single_image_inference_node总结Overview可以看到,其实在最新版本的autoware
  • 2024-06-23四. TensorRT模型部署优化-quantization(calibration)
    目录前言0.简述1.校准2.calibrationdataset3.calibrationalgorithm4.如何选择calibrationalgorithm5.calibrationdataset与batchsize的关系总结参考前言自动驾驶之心推出的《CUDA与TensorRT部署实战课程》,链接。记录下个人学习笔记,仅供自己参考本次课
  • 2024-06-20使用 TensorRT C++ API 调用GPU加速部署 YOLOv10 实现 500FPS 推理速度——快到飞起!!
    ​NVIDIA®TensorRT™是一款用于高性能深度学习推理的SDK,包含深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量。YOLOv10是清华大学研究人员近期提出的一种实时目标检测方法,通过消除NMS、优化模型架构和引入创新模块等策略,在保持高精度的同时显著降低了
  • 2024-06-16四. TensorRT模型部署优化-quantization(mapping-and-shift)
    目录前言0.简述1.近10年模型的变化与硬件的发展2.模型量化回顾3.什么是量化4.量化会出现什么问题5.量化的基本原理:映射和偏移6.量化的基本原理:基本术语6.1量化和反量化6.2对称量化和非对称量化6.3量化粒度6.4校准6.5PTQ和QAT7.其他:有关量化学习的激活函数
  • 2024-06-12yolov8分割法 C++部署
     使用的命令:condalist 参考资料https://github.com/triple-Mu/YOLOv8-TensorRT/blob/main/docs/Segment.md1.python3export-seg.py--weight./0.0.0/yolov8s-seg.pt--opset11--sim--input-shape13640640--devicecuda:0报错:ModuleNotFoundError:Nomodule
  • 2024-06-03TensorRT c++部署onnx模型
    在了解一些概念之前一直看不懂上交22年开源的TRTModule.cpp和.hpp,好在交爷写的足够模块化,可以配好环境开箱即用,移植很简单。最近稍微了解了神经网络的一些概念,又看了TensorRT的一些api,遂试着部署一下自己在MNIST手写数字数据集上训练的一个LeNet模型,识别率大概有98.9%,实现用pytor