首页 > 其他分享 >NPU 与 GPU 相比,有什么差别?| 技术速览

NPU 与 GPU 相比,有什么差别?| 技术速览

时间:2024-09-13 10:52:48浏览次数:12  
标签:AI 任务 处理 神经网络 速览 NPU GPU

编者按: 随着2024年被业界誉为“AI PC元年”,各大笔记本电脑厂商纷纷推出搭载NPU的全新AI PC,而在介绍产品性能时,“NPU”一词频频被提及。但NPU和我们所熟知的GPU之间的区别究竟是什么?

我们今天为大家分享的这篇文章将和大家一起初探NPU vs GPU。简而言之,NPU专为加速AI任务而设计,包括深度学习和推理,能够高效地处理大量数据,并利用专用存储器快速执行复杂的AI算法。与GPU相比,NPU体积更小、成本更低、能耗更小,且在特定AI任务中表现更优。

作者 | Pure Storage

编译 | 岳扬

NPU 与 GPU 相比,有什么差别?| 技术速览_NPU

如今,人工智能领域的软硬件很多都是专门为人工智能及神经网络操作的优化而定制的。这其中就包括神经网络处理单元(NPU),大家通常会将这种硬件与图形处理器(GPU)进行对比,因为两者都能加快人工智能任务的处理速度。NPU 这种硬件已经越来越常见了,它们专门为高效完成AI/ML任务而设计。但它们之间究竟有何不同呢?

接下来,我们将简要探讨 NPU 和 GPU 的区别,并考察、分析每种处理器的优势和不足。

01 NPU 是什么?

NPU 是神经网络处理单元(Neural Processing Unit)的缩写,这是一种用于提升人工智能和神经网络相关任务性能的专用硬件组件。

乍听之下,NPUs 可能会被误认为是仅限于科研实验室或军事基地的高科技产品,但实际上,虽然 NPUs 是一项较新的技术,但它们正变得越来越常见。不久之后,我们就能在台式机和笔记本电脑中见到 NPUs 的身影。目前,大多数现代智能手机,如近几年的 iPhone、Google Pixel 和三星 Galaxy,都已经在其主 CPU 中集成了 NPUs。

NPU 与 GPU 相比,有什么差别?| 技术速览_AI_02

信不信由你,这张幻灯片是从 2013 年高通的 SoC(System-on-a-Chip)展示会上截取的。而“NPU”这一术语直到十年后才开始受到广泛关注。

NPU(神经网络处理单元)支持神经网络引擎和网络算法,正如其名称所示,这些算法不仅可用于已高度成熟的应用场景,比如自动驾驶(autonomous driving)和自然语言处理(NLP),也应用于人脸识别、语音识别和图像处理等日常生活场景。

02 GPU 是什么?

GPU 是图形处理单元(Graphics Processing Unit)的缩写。最初是为电子游戏和多媒体应用程序中的图形渲染场景而设计开发的,但现在 GPU 的用途已经被大大扩展,被广泛应用于各种需要并行处理复杂计算的应用场景。

GPU 的独特优势在于能够快速高效地并行处理数千个小任务,非常适合处理需要大量并行计算的复杂任务,比如图形渲染(rendering graphics)、物理模拟(simulating physics),甚至训练神经网络(training neural networks)。

03 NPU 与 GPU 的架构差异

从硬件架构上看,NPU 比 GPU 更适合进行并行计算。NPU 拥有更多的小型处理单元(smaller processing units),与 GPU 相比,还配备有专门的内存体系结构(memory hierarchies)和数据流优化策略(data flow optimizations),使得它们对深度学习任务的处理特别高效。相比之下,GPU 具有更多的多功能内核(versatile cores),这些内核通常可并行处理多种计算任务,但 NPU 对神经网络算法进行了针对性的优化设计。

NPU 特别擅长处理短期且重复性的任务。集成到现代计算机系统中后,NPU 可以减轻 GPU 处理神经网络时固有矩阵运算的负担,使 GPU 能够专注于图形渲染或通用计算任务。

与 GPU 相比,NPU 在密集型深度学习计算任务中表现更佳。自然语言处理(NLP)、语音识别和计算机视觉等应用场景均是 NPU 相对于 GPU 表现更佳的领域。GPU 的架构更为通用,但在处理大语言模型或边缘计算应用时可能难以与 NPU 相匹敌。

04 NPU 与 GPU 的性能差异

将它们直接进行比较时,NPU 与 GPU 最大的性能差异体现在功耗和移动设备的电池续航时间上。由于 NPU 是专门为神经网络操作而设计的,因此 NPU 能够以与 GPU 相近的处理速度完成同样的计算任务,但是消耗的电量要少得多。

NPU 和 GPU 在处理神经网络任务时表现出的不同性能,主要是因为神经网络本身的特点和应用需求,而不是简单地归因于这两种硬件架构上的不同。NPU 在硬件架构上针对 AI/ML 计算任务进行了优化,因此在处理最复杂的计算任务(如深度学习模型的推理和训练)时超越 GPU。

NPU 与 GPU 相比,有什么差别?| 技术速览_GPU_03

NPU 与 GPU 相比,有什么差别?| 技术速览_AI_04

NPU内置的专门用于矩阵乘法(matrix multiplications)和激活函数(activation functions)的硬件,使得在实时语言翻译、自动驾驶汽车

标签:AI,任务,处理,神经网络,速览,NPU,GPU
From: https://blog.51cto.com/u_15525866/11999604

相关文章

  • PbootCMS网站转移后无法打开报错提示“No input file specifed”
    当PBootCMS网站在转移服务器后出现“Noinputfilespecified”的错误提示时,这通常是由于某些配置或文件问题导致的。以下是可能导致此错误的一些原因及解决方法:检查.user.ini文件:检查根目录是否含有.user.ini文件,如果有,请尝试删除该文件,然后重新访问站点。重启Web服务器......
  • 单选和多选在table里的报错问题Blocked aria-hidden on a <input> element because the
    单选在main.js里//table单选报错问题Vue.directive('removeAriaHidden',{bind(el,binding){constariaEls=el.querySelectorAll('.el-radio__original')ariaEls.forEach((item)=>{item.removeAttribute('aria-hidden')......
  • 关于RTX 4090 微调llama2模型时出现nvcc fatal : Unsupported gpu architecture 'comp
    RTX4090是现在普通人可以轻松获取的最好的显卡了。运算速度仅次于专业图形卡TeslaA100,A800,H100RTX4090显卡是可以单卡推理llama27b和13b模型的,7b模型占用缓存14G左右,13b模型单卡推理显存占用在23G多点(只是运行一段时间容易爆显存),所以普通人都是可以使用llama2大语言模型。......
  • 什么是CPU、GPU、NPU?(包懂+会)
    目录举例子CPU:主厨GPU:大量的厨房助理NPU:面包机总结讲理论CPU(中央处理器)GPU(图形处理单元)NPU(神经网络处理单元)对比分析举例子CPU:主厨CPU就像是厨房中的主厨。主厨非常灵活,可以处理各种不同的任务——洗菜、切菜、炒菜、做汤等。虽然主厨做任何事情都很擅长,但他......
  • 【Azure Service Bus】创建 ServiceBus 的Terraform脚本报错GetAuthorizationRule: In
    问题描述在使用Terraform部署ServiceBus时候,遇见了如下报错:Error:ErrormakingReadrequestonAzureServiceBusTopicAuthorizationRule:servicebus.TopicsClient#GetAuthorizationRule:Invalidinput:autorest/validation:validationfailed:parameter=authorization......
  • 【Azure Service Bus】创建 ServiceBus 的Terraform脚本报错GetAuthorizationRule: In
    问题描述在使用Terraform部署ServiceBus时候,遇见了如下报错:Error:ErrormakingReadrequestonAzureServiceBusTopicAuthorizationRule:servicebus.TopicsClient#GetAuthorizationRule:Invalidinput:autorest/validation:validationfailed:parameter=authorizat......
  • 用 SQL 写的俄罗斯方块游戏「GitHub 热点速览」
    在开始介绍上周热门开源项目之前,要插播一条开源新闻:Nginx已正式迁移至GitHub。近日,Nginx官方宣布将Nginx开源项目,从Mercurial迁移至GitHub代码托管平台,并开始接受PR形式的贡献、Issues问题反馈和功能请求等,GitHub上的Nginx项目终于“活”了!GitHub地址→github......
  • Numba最近邻插值(CPU+ GPU + Z轴切块 + XYZ轴切块 + 多线程)
    文章目录最近邻插值(加速方法)(1)scipy.ndimage.zoom(2)Numba-CPU加速(3)Numba-GPU加速(4)Numba-CPU加速(Z轴切块)(5)Numba-CPU加速(XYZ轴切块)(6)Numba-CPU加速(XYZ轴切块)+多线程输入数据插值倍数时耗scipy.ndimage.zoom(1024,1024,512)4172.16sNumba-CPU(1024,1024,512)456.58sN......
  • AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX
    上个月,FLUX席卷了互联网,这并非没有原因。他们声称优于DALLE3、Ideogram和StableDiffusion3等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如StableDiffusionWebUIForge和ComyUI)开始支持这些模型,FLUX在StableDiffusion领域的扩展将会持......
  • 【高级编程】Java流(上)字节流 InputStream OutputStream
    文章目录文件操作流输入流InputStream输出流OutputStream文件操作文件是指相关记录或放在一起的数据的集合。是一种用于存储数据的基本单位,它可以包含各种类型的信息,例如文本、图像、音频或视频。文件在计算机中通常存储在磁盘或其他存储介质上,并且每个文件都有一个......