tensorrt

2025-01-14京东广告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速实践
作者：京东零售陈航0000生成式推荐系统优势介绍推荐系统的主要任务是根据用户的历史行为预测其兴趣点，并向其推荐相应的商品。传统的推荐系统在处理用户请求时，会触发多个召回模块（包括热门商品召回、个性化召回、深度召回等），以召回大量候选商品。随后，系统通过相对简单的粗排模型对
2024-12-27TensorRT-YOLO：灵活易用的 YOLO 部署工具
2024-12-23[vLLM vs TensorRT-LLM] ：系统调度schedule比较
来源：oldpan原文：https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-4-which-scheduler-wins-2dc15283522a前言Transformer和LLMs的时代正在蓬勃发展。除了模型架构的演变之外，工作负载变得愈发动态化，使得系统级优化与模型级优化同等重要（类似于单一的视觉模型
2024-12-21[vLLM vs TensorRT-LLM]：采样方法对两者性能的影响
来源：oldpan来自：https://medium.com/squeezebits-team-blog/vllm-vs-tensorrt-llm-3-understanding-sampling-methods-and-their-performance-impact-a8ffa5ee0245我们都知道，大型语言模型（LLMs）通过“根据上下文预测下一个token的概率分布”来生成文本。最简单的采样方法是贪
2024-12-18TensorRT-LLM 调整和部署 LoRA
TensorRT-LLM调整和部署LoRANVIDIA开发者计划想要了解有关NIM的更多信息？加入NVIDIA开发者计划，即可免费访问任何基础设施云、数据中心或个人工作站上最多16个GPU上的自托管NVIDIANIM和微服务。加入免费的NVIDIA开发者计划后，您可以随时通过NVIDIAAPI目
2024-12-09Torch-TensorRT针对 NVIDIA GPU 的 PyTorch 推理代码的框架内编译In-framework compilation
Torch-TensorRT针对NVIDIAGPU的PyTorch推理代码的框架内编译Torch-TensorRT是PyTorch的推理编译器，通过NVIDIA的TensorRT深度学习优化器和运行时针对NVIDIAGPU。它通过接口支持即时(JIT)编译工作流程torch.compile，也支持提前(AOT)工作流程。Torch-TensorRT
2024-12-0451c~TensorRT~合集1
我自己的原文哦~ https://blog.51cto.com/whaosoft/11744302一、TensorRT-LLM~最佳部署实践TensorRT-LLM（LargeLanguageModel）部署实践的详细介绍TRT-LLM简单再介绍TensorRT-LLM的介绍前几篇中已提到，就不过多赘述了。这里列一个TensorRT-LLM的功能和定位：trt-llm功能
2024-11-27【大模型实战篇】利用TensorRT LLM部署及推理大模型实战（bloom560m、chatglm-6b等大模型）
1. TensorRT-LLM基础介绍 TensorRT-LLM是NVIDIA用于做LLM（LargeLanguageModel）的可扩展推理方案。基于TensorRT深度学习编译框架来构建、编译并执行计算图，并借鉴了许多FastTransformer中高效的Kernels实现，然后利用NCCL完成设备之间的通讯。Tenso
2024-11-2451c~TensorRT~合集1
我自己的原文哦~ https://blog.51cto.com/whaosoft/11744302一、TensorRT-LLM~最佳部署实践TensorRT-LLM（LargeLanguageModel）部署实践的详细介绍TRT-LLM简单再介绍TensorRT-LLM的介绍前几篇中已提到，就不过多赘述了。这里列一个TensorRT-LLM的功能和定位：trt-llm功
2024-12-11删除排序链表中的重复元素 II
题解：/***Definitionforsingly-linkedlist.*structListNode{*intval;*structListNode*next;*};*/structListNode*deleteDuplicates(structListNode*head){intflag;//标记是否需要删除structListNode*dummy=(structList
2024-12-04【Java面试题 | 解答】Dubbo面试八连问，这些你都能答上来吗？
Dubbo是什么？Dubbo能做什么？Dubbo内置了哪几种服务容器？Dubbo核心的配置有哪些？Dubbo有哪几种集群容错方案，默认是哪种？Dubbo有哪几种负载均衡策略，默认是哪种？Dubbo默认使用的是什么通信框架，还有别的选择吗？你觉得用Dubbo好还是SpringCloud好？1.Dubbo是什么？Dubbo是
2024-12-01消息中间件面试题之RocketMQ
为什么使用消息队列？解耦、异步、削峰消息队列有什么优点和缺点?优点：解耦、异步、削峰缺点：系统的可用性降低、系统的复杂性提高了、一致性问题。RabbitMQ上的一个queue中存放的message是否有数量限制？限制是多少默认情况下一般是无限制，因为限制取决于机器的内存，但是消息过多会
2024-11-30函数与嵌套函数基本概念
只要不输入中文，那么所有的参数以及标点都必须是英文输入法1、在单元格里直接输入=sum(sum大小写混搭都可以)，双击下面弹出的SUM，会显示=SUM()，然后拖动要求和的单元格，看到公式=SUM(C2:E2)，点击回车就能看到结果，可以往下拖动，也可以把鼠标放到第一个求和的单元格上，看到+，双击即可求出所有
2024-09-25阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
前言阿里云函数计算（FunctionCompute,FC）是一种无服务器（Serverless）计算服务，允许用户在无需管理底层基础设施的情况下，直接运行代码。与传统的计算架构相比，函数计算具有高灵活性和弹性扩展的特点，用户只需专注于业务逻辑的开发，系统自动处理计算资源的分配、扩展和维护。同时，函数计算
2024-09-05TensorRT量化模型分析（耗时分布可视化等）
文章目录TensorRT量化模型分析一背景二准备工作1.代码准备2.依赖环境三分析过程1.导出模型2.模型形态比对3.转tensorrt序列化文件4.tensorrt序列化文件（即tensorrt模型）分析四其他TIPSTensorRT量化模型分析一背景在TensorRT模型量化
2024-08-10以DenseNet为例进行AI算法部署集成
以DenseNet为例进行AI算法部署集成AI越用越广，但落地使用的时候各种bug多多，这里提供一些离线集成的导引方便大家学习，后面也会尝试更新一些webapi的集成方式，请期待后续的博客简单性能表格下列表格为一些简单的部署数据搜集，通过部署器进行离线集成，可以看到可以大大降低资源
2024-07-28解决yolo使用engine模型推理报错AttributeError: “NoneType’cbject has no attribute ‘create_execution_context‘
目录起因分析两种解决方案方法一：卸载生产服务器的tensorrt，下载与训练服务器相同版本方法二：将训练服务器训练的pt模型下载出来到生产服务器导出起因在做yolo模型训练时使用了训练服务器，训练结束把模型转换成了.engine模型，在训练服务器上可以正常使用，但把模型放到生成服
2024-07-25将 PyTorch ONNX 模型转换为 TensorRT 引擎 - Jetson Orin Nano
我正在尝试从JetsonOrinNano上的ViT-B/32UNICOM存储库转换VisionTransformer模型。该模型的VisionTransformer类和源代码在此处我使用以下代码将模型转换为ONNX：importtorchimportonnximportonnxruntimefromunicom.vision_trans
2024-07-16Win10+Docker配置TensorRT环境
1.Docker下载和安装 Docker下载：InstallDockerDesktoponWindows Docker安装：勾选直接下一步就行，安装完成后需要电脑重启。重启后，选择Accept—>Continuewithoutsigningin—>skipsurvey. 可
2024-07-15模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本 - 性能优化
2024-07-14模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本 - 高级话题
2024-07-14模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本 -Plugin
2024-07-14模型部署 - TensorRT - NVIDIA 讲 TensorRT - 8.6.1版本 - 5种工具