NPU
  • 2025-01-07开源flux适配昇腾NPU分享,体验120亿参数AI文生图模型
    这一期我们分享一位开源开发者参与flux适配昇腾NPU的实践经验,欢迎广大开发者对华为技术栈适配进行讨论。开源适配实践flux是一个AI图像生成模型,有120亿参数量,具有大量的用户基础,可以根据命令行输入的文字去生成对应的图片。本次适配使用的flux模型权重文件是schnell版本。下面
  • 2025-01-02【新教程】华为昇腾NPU的pytorch环境搭建
    1硬件配置使用学校的集群,相关配置如下:CPU:鲲鹏920NPU:昇腾910B2安装版本根据昇腾官方gitee上的信息,Pytoch2.1.0是长期支持版本,因此选择安装这一版本,从而最大限度避坑。本教程选择的版本如下:Python:3.9Pytorch:2.1.0选择依据:参考链接:https://gitee.com/ascend/pytorch3
  • 2024-12-242.3T算力,真的强!1分钟学会NPU开发,基于NXP i.MX 8MP平台!
    科技飞速发展,人工智能与工业领域的融合日益深入。NXP旗下的i.MX8MPlus作为一款高端工业处理器,NPU算力高达2.3TOPS,正引领着工业智能化的浪潮,为众多工业场景带来了前所未有的变革潜力。图1 i.MX8MPlusNPU特性i.MX8MPlus的NPU支持INT16/INT32/FP16/FP32等多种数据类型,
  • 2024-12-20智能工厂的设计软件 三种处理单元(NPU/GPU/CPU)及其在深度学习框架中的作用 之3(百度文库答问 之1)
    Q&A(百度文库)Q1、今天聊聊“智能工厂的设计软件”中的三种处理单元(NPU/GPU/CPU)。一般来说提起这三者就不得不说“深度学习”。那我们就从这里开始。请先给出一个程序例子来说明NPU如何协作CPU和GPU来完成深度学习任务在深度学习任务中,NPU(神经网络处理单元)、GPU(图形处理单元)
  • 2024-12-20智能工厂的设计软件 三种处理单元(NPU/GPU/CPU)及其在深度学习框架中的作用 之4(百度文库答问 之2)
    Q10、前面的所有编程都是利用三种处理单元(NPU/GPU/CPU)来建造深度学习模型的例子,并且细节度和复杂度,即难度逐步增加,可以分别视为在软件架构、程序框架和编码实现三个不同的阶段要考虑的不同问题(以不同的视角在不同的立场上)。下面我们来看看深度学习本身。本人认为,深度学习
  • 2024-12-15Windows NPU(Network Processing Unit)管理优化技巧和策略,并附带相关的 .reg 文件,以帮助进一步提升系统网络性能和响应速度。NPU 管理优化策略 和相应的 .re
    WindowsNPU(NetworkProcessingUnit)管理优化技巧和策略,并附带相关的.reg文件,以帮助进一步提升系统网络性能和响应速度。540.启用NPU加速优化启用NPU加速优化可以加速数据包的处理速度,尤其在高负载环境中,能够有效提升网络处理性能。.reg文件内容:CopyCode[HKEY_LOCA
  • 2024-12-14转载自:【AI系统】数据并行
    数据并行是一种广泛应用于分布式AI系统中的技术,旨在通过将数据集划分为多个子集并在不同计算节点上并行处理这些子集,以提高计算效率和速度。在大规模机器学习和深度学习训练过程中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。大部分的数据并行模型中,每个计算节
  • 2024-12-14转载:【AI系统】数据并行
    数据并行是一种广泛应用于分布式AI系统中的技术,旨在通过将数据集划分为多个子集并在不同计算节点上并行处理这些子集,以提高计算效率和速度。在大规模机器学习和深度学习训练过程中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。大部分的数据并行模型中,每个计算节
  • 2024-12-13转载:【AI系统】内存分配算法
    本文将介绍AI编译器前端优化部分的内存分配相关内容。在AI编译器的前端优化中,内存分配是指基于计算图进行分析和内存的管理,而实际上内存分配的实际执行是在AI编译器的后端部分完成的。本文将包括三部分内容,分别介绍模型和硬件的内存演进,内存的划分与复用好处,节省内存的算法
  • 2024-12-13转载:【AI系统】NPU 基础
    近年来,随着AI技术的飞速发展,AI专用处理器如NPU(NeuralProcessingUnit)和TPU(TensorProcessingUnit)也应运而生。这些处理器旨在加速深度学习和机器学习任务,相比传统的CPU和GPU,它们在处理AI任务时表现出更高的效率和性能。在接下来的内容中,我们将首先简单介绍引入什么是
  • 2024-12-12转载:【AI系统】完全分片数据并行 FSDP
    上一篇文章内容介绍了通用的数据并行和分布式数据并行,主要是对神经网络模型的输入数据mini-batch进行分布式处理。并且讨论了同步数据并行和异步数据并行的差异点,深入到PyTorchAI框架的弹性数据并行是如何实现与处理的。在本文内容中,将会重点关注AI框架中如何实现针对权重
  • 2024-12-12转载:【AI系统】数据并行
    数据并行是一种广泛应用于分布式AI系统中的技术,旨在通过将数据集划分为多个子集并在不同计算节点上并行处理这些子集,以提高计算效率和速度。在大规模机器学习和深度学习训练过程中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。大部分的数据并行模型中,每个计算节
  • 2024-12-12转载:【AI系统】数据并行
    数据并行是一种广泛应用于分布式AI系统中的技术,旨在通过将数据集划分为多个子集并在不同计算节点上并行处理这些子集,以提高计算效率和速度。在大规模机器学习和深度学习训练过程中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。大部分的数据并行模型中,每个计算节
  • 2024-12-12转载:【AI系统】内存分配算法
    本文将介绍AI编译器前端优化部分的内存分配相关内容。在AI编译器的前端优化中,内存分配是指基于计算图进行分析和内存的管理,而实际上内存分配的实际执行是在AI编译器的后端部分完成的。本文将包括三部分内容,分别介绍模型和硬件的内存演进,内存的划分与复用好处,节省内存的算法
  • 2024-12-11转载:【AI系统】内存分配算法
    本文将介绍AI编译器前端优化部分的内存分配相关内容。在AI编译器的前端优化中,内存分配是指基于计算图进行分析和内存的管理,而实际上内存分配的实际执行是在AI编译器的后端部分完成的。本文将包括三部分内容,分别介绍模型和硬件的内存演进,内存的划分与复用好处,节省内存的算法
  • 2024-12-11转载:【AI系统】NPU 基础
    近年来,随着AI技术的飞速发展,AI专用处理器如NPU(NeuralProcessingUnit)和TPU(TensorProcessingUnit)也应运而生。这些处理器旨在加速深度学习和机器学习任务,相比传统的CPU和GPU,它们在处理AI任务时表现出更高的效率和性能。在接下来的内容中,我们将首先简单介绍引入什么是
  • 2024-12-11转载:【AI系统】内存分配算法
    本文将介绍AI编译器前端优化部分的内存分配相关内容。在AI编译器的前端优化中,内存分配是指基于计算图进行分析和内存的管理,而实际上内存分配的实际执行是在AI编译器的后端部分完成的。本文将包括三部分内容,分别介绍模型和硬件的内存演进,内存的划分与复用好处,节省内存的算法
  • 2024-12-11转载:【AI系统】NPU 基础
    近年来,随着AI技术的飞速发展,AI专用处理器如NPU(NeuralProcessingUnit)和TPU(TensorProcessingUnit)也应运而生。这些处理器旨在加速深度学习和机器学习任务,相比传统的CPU和GPU,它们在处理AI任务时表现出更高的效率和性能。在接下来的内容中,我们将首先简单介绍引入什么是
  • 2024-12-11转载:【AI系统】NPU 基础
    近年来,随着AI技术的飞速发展,AI专用处理器如NPU(NeuralProcessingUnit)和TPU(TensorProcessingUnit)也应运而生。这些处理器旨在加速深度学习和机器学习任务,相比传统的CPU和GPU,它们在处理AI任务时表现出更高的效率和性能。在接下来的内容中,我们将首先简单介绍引入什么是
  • 2024-12-07AI语音模型PaddleSpeech部署到昇腾NPU详细步骤
    PaddleSpeech是飞桨推出的一个开源语音处理工具包,提供了完整的端到端语音处理解决方案,包括语音识别(ASR)、语音合成(TTS)、语音增强和语音翻译等功能。https://github.com/PaddlePaddle/PaddleSpeech一、华为鲲鹏CPU验证1.购买华为云虚拟私有云VPC和弹性云服务器ECS详细流程参
  • 2024-11-29RK3562J正式支持NPU,性价比再提升!
    RK3562J是瑞芯微最新推出的一款超高性价比工业处理器,四核Cortex-A53@1.8GHz+Cortex-M0@200MHz异构多核架构,并支持十路UART、两路CAN、两路网口、三种显示、双路Camera等,外设接口资源十分丰富,是RK3568J处理器降成本、降功耗的首选平台,在工商业储能EMS、通讯管理机、运动控制器、A
  • 2024-11-25【北京迅为】itop-3562开发板在Linux系统中使用NPU
     3.1在Linux系统中使用NPU下载rknpu2并拷贝到虚拟机Ubuntu,如下图所示,RKNPU2提供了访问RK3562芯片NPU的高级接口。   下载地址为“iTOP-RK3562开发板\02_【iTOP-RK3562开发板】开发资料\12_NPU使用配套资料\01_rknpu2工具”对于RK3562来说,Linux平
  • 2024-12-05zerotier 组网+moon+dns服务器
    zerotier组网+moon+dns服务器zerotier搭建虚拟局域网整体可以分成三步:zerotier创建网络,各个客户端加入网络。国内公网服务器,搭建moon节点。教程:打洞不成功?来试试ZeroTier自建Moon中转吧~|Lufs'sBlog搭建dns服务器(zeronsd)教程:ZeroTier组网:使用zeronsd作为其私
  • 2024-11-26k8s容器中的Java进程经常自动被杀
    故事背景主角:低代码项目时间:2023-08-29背景:项目通过jenkins部署k8s容器到虚拟机,在一次部署之后,服务发生无限重启的现象,springboot项目起来后没多久(甚至有几次还没启动)就会被杀掉进程,服务宕机了一个晚上。排查过程查看日志通过 kubeletlogs 命令查看服务运行日志,未发现任