首页 > 其他分享 >pyTorch模型调优NPU

pyTorch模型调优NPU

时间:2024-07-24 15:43:04浏览次数:14  
标签:Profiling tensor pyTorch 调优 算子 NPU

性能分析工具pyTorch Profiling

 CANN Profiling

看task duration

调优手段1:使用亲和的数据类型

用AMP训练

 

 AICore不支持torch.long.Tensor类型,会自动切换AICPU,影响训练。

调优手段2:优化调度耗时(融合tensor)

 融合算子

 昇腾要求输入tensor连续,所以进行非连续内存转连续内存

 使用自动调优工具AOE

 绑核,提升cpu性能(对于ARM服务器提升较大,对于x86一般)

 具体算子调优

roll算子运行时间过长

了解其功能用相同语义替换。

具体模块优化

PATCH 

 NPU可以理解为c++全部一起编译

GPU来一行编译一行

标签:Profiling,tensor,pyTorch,调优,算子,NPU
From: https://www.cnblogs.com/guoziheng/p/18321008

相关文章

  • 尝试在 Windows 上将 PyTorch 与 CUDA 结合使用时出现问题
    我正在编写使用Whisper的代码,我需要带有CUDA的PyTorch来提高模型执行速度,我安装了CUDA(使用nvidia-smi命令进行验证,显示我有CUDA12.6)并且我安装了PyTorch使用命令pipinstalltorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl......
  • pytorch模型迁移介绍
    迁移的基本流程 第一步:算子满足度分析方法一 在pytorchprofiler在GPU上提取算子方法二使用CANN分析迁移工具 第二步:配置相关硬件环境,在pytorch的基础上安装pytorchadapt;模型迁移-手工迁移(单Device代码迁移)导入NPU相关库(pyTORCH1.8)将device类型修改为npu将训......
  • 使用 RNN 生成 PyTorch 路径 - 与输入、输出、隐藏和批量大小混淆
    我遵循了关于使用RNN生成句子的教程,并且尝试修改它以生成位置序列,但是我在定义正确的模型参数(例如input_size、output_size、hidden_​​dim、batch_size)时遇到了麻烦。背景:我有596个x,y位置序列,每个序列看起来像[[x1,y1],[x2,y2],...,[xn,yn]]。每个序列代表车......
  • 大规模Java应用程序的性能调优策略
    大规模Java应用程序的性能调优策略大家好,我是微赚淘客系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿!今天我们将深入探讨大规模Java应用程序的性能调优策略。随着应用程序的规模增大,性能瓶颈可能会显现出来,因此对性能的优化是保证应用系统高效运行的关键。一、JVM参数调优......
  • PyTorch-1-x-自然语言处理实用指南-全-
    PyTorch1.x自然语言处理实用指南(全)原文:zh.annas-archive.org/md5/da825e03093e3d0e5022fb90bb0f3499译者:飞龙协议:CCBY-NC-SA4.0前言在互联网时代,每天从社交媒体和其他平台生成大量文本数据,理解和利用这些数据是一项至关重要的技能。本书将帮助您构建用于自然语言处理(NL......
  • PyTorch-1-x-深度学习指南第二版-全-
    PyTorch1.x深度学习指南第二版(全)原文:zh.annas-archive.org/md5/3913e248efb5ce909089bb46b2125c26译者:飞龙协议:CCBY-NC-SA4.0前言PyTorch因其易用性、高效性以及更符合Python开发方式而吸引了深度学习研究人员和数据科学专业人员的关注。本书将帮助您快速掌握PyTor......
  • PyTorch-现代计算机视觉第二版-二-
    PyTorch现代计算机视觉第二版(二)原文:zh.annas-archive.org/md5/355d709877e6e04dc1540c8ccd0b447d译者:飞龙协议:CCBY-NC-SA4.0第十七章:稳定扩散的应用在前一章中,我们学习了扩散模型的工作原理、稳定扩散的架构以及扩散器-这个库。虽然我们已经了解了生成图像(无条件和条......
  • PyTorch-1-x-强化学习秘籍-全-
    PyTorch1.x强化学习秘籍(全)原文:zh.annas-archive.org/md5/863e6116b9dfbed5ea6521a90f2b5732译者:飞龙协议:CCBY-NC-SA4.0前言强化学习兴起的原因在于它通过学习在环境中采取最优行动来最大化累积奖励的概念,从而革新了自动化。PyTorch1.x强化学习菜谱向您介绍了重要的......
  • PyTorch-1-x-模型训练加速指南-全-
    PyTorch1.x模型训练加速指南(全)原文:zh.annas-archive.org/md5/787ca80dbbc0168b14234d14375188ba译者:飞龙协议:CCBY-NC-SA4.0前言你好!我是一名专注于高性能计算(HPC)的系统分析师和学术教授。是的,你没看错!我不是数据科学家。那么,你可能会想知道我为什么决定写一本关于机器......
  • python-input键盘输入
     str=input("请输入:")#用户键盘输入#str表示一个字符串类型的变量,input会将读取到的字符串放入str中print(str) aa='请输入:'str=input(aa)#用户键盘输入#str表示一个字符串类型的变量,input会将读取到的字符串放入str中print(str)      ......