首页 > 其他分享 >T-MAC: 突破边缘设备的算力瓶颈,让大语言模型飞入寻常百姓家

T-MAC: 突破边缘设备的算力瓶颈,让大语言模型飞入寻常百姓家

时间:2024-08-15 09:57:56浏览次数:6  
标签:比特 模型 边缘 MAC LLM 寻常百姓 算力 CPU

在人工智能浪潮席卷全球的今天,大语言模型(Large Language Models, LLMs)正在成为改变人机交互方式的关键技术。然而,这些模型动辄数十亿参数,对计算资源的需求令人望而生畏。如何将这些"庞然大物"部署到资源有限的边缘设备上,成为了学术界和产业界共同关注的焦点问题。微软研究院近日提出的T-MAC技术,或许为这一难题带来了突破性的解决方案。

边缘设备部署LLM:机遇与挑战并存

将大语言模型部署到边缘设备上,如智能手机、个人电脑和机器人等,有望为这些设备赋予前所未有的智能水平。这种本地部署方式具有诸多优势:

  1. 显著降低响应延迟,对自动驾驶和交互式机器人等时间敏感型应用至关重要。
  2. 增强用户隐私保护,敏感信息无需上传云端处理。
  3. 提高运行可靠性,摆脱网络连接的限制。

然而,将LLM部署到边缘设备面临着巨大挑战:

  1. 内存需求巨大。以LLAMA-2-7B模型为例,仅存储FP16精度的模型参数就需要14GB内存,远超大多数边缘设备的容量。
  2. 计算和内存带宽要求高。边缘设备通常以单实例方式处理数据,批处理大小为1,无法充分利用并行计算能力。特别是在解码阶段,生成每个后续token都需要加载和处理整个模型,这是一个极其内存密集的过程。
  3. 能耗效率问题。对于智能手机等电池供电的设备来说,能耗效率至关重要。

低比特量化:LLM瘦身的关键技术

为了降低LLM的内存占用,权重量化成为了一种关键技术。它通过降低模型参数的精度,不仅可以减少内存占用,还可能通过利用低精度算术加速计算。目前,4比特的LLM版本已经开始用于边缘部署,而研究人员正在探索2比特甚至1比特权重表示的可行性。

然而,低比特LLM的部署也带来了新的挑战:

  1. 混合精度运算。低精度权重与相对高精度激活的组合需要进行混合精度矩阵乘法(mpGEMM),而现有硬件架构并不原生支持这种操作。
  2. 比特宽度多样性。不同部署场景可能需要不同的比特宽度,这要求计算方法能够支持一系列低比特宽度。

T-MAC:表查找方法的创新应用

针对这些挑战,微软研究院提出了T-MAC(Table-based Multiplication and Accumulation)技术。T-MAC的核心思想是将传统的数据类型中心的乘法转换为基于位的表查找,从而实现了一种统一且可扩展的mpGEMM解决方案。

T-MAC的工作原理可以概括为以下步骤:

  1. 将n比特权重矩阵分解为n个1比特矩阵。
  2. 预计算激活向量与所有可能的位模式的乘积,并将结果存储在查找表中。
  3. 在推理时,使用权重的位模式作为索引查找表,获取预计算的结果。
  4. 累加查找结果得到最终的GEMM结果。

这种方法具有以下优势:

  1. 统一的数据布局。不同比特宽度的权重都可以简化为统一的1比特矩阵布局。
  2. 统一的计算内核。各种混合精度GEMM都可以归结为激活矩阵与1比特矩阵的乘法。
  3. 计算成本线性缩减。随着比特宽度的降低,计算成本呈线性下降。

T-MAC的创新设计

为了在实际硬件上高效实现基于查找表的mpGEMM,T-MAC引入了一系列创新设计:

  1. 以LUT为中心的数据布局

    • 通过轴重排和分块技术,确保查找表能够完全驻留在最快的片上内存(如寄存器)中。
    • 最大化每个表的重用,减少与片上内存竞争的临时结果。
  2. 表压缩方法

    • 表量化:降低表中数据的精度,减小表的大小。
    • 镜像合并:利用对称性,将多个表合并为一个,进一步节省内存空间。

这些技术的组合使得T-MAC能够在CPU上实现高效的并行查找,从而大幅提升推理性能。

性能评估:令人瞩目的加速效果

研究团队在多种典型的边缘设备上评估了T-MAC的性能,包括Apple M2 Ultra、Jetson AGX Orin、Surface Book 3和Raspberry Pi 5。结果令人振奋:

  1. 内核加速:与目前最先进的CPU方案llama.cpp相比,T-MAC内核加速可达6.6倍,平均加速3.6倍。
  2. 端到端推理加速:对于Llama-2-7B-2bit模型,实现了2.8倍的加速。
  3. 低端设备表现:即使在Raspberry Pi上,对于BitNet-b1.58-3B模型也能达到11.1 tokens/s的推理速度。
  4. 能效提升:与llama.cpp相比,能耗降低60-70%。

这些数据充分证明了T-MAC在边缘设备上部署低比特LLM的巨大潜力。特别值得一提的是,T-MAC使得在CPU上运行LLM的速度可以与同一设备上的GPU相媲美,甚至更快。这意味着,T-MAC为在广泛可用的CPU上部署LLM提供了一种实用的解决方案,无需依赖GPU。

展望:CPU的复兴与LLM的普及

T-MAC的出现无疑为边缘AI的发展注入了新的活力。它不仅解决了低比特LLM部署的关键技术难题,还为CPU在AI时代的"复兴"开辟了新的可能性。随着这项技术的进一步发展和优化,我们可以期待在不久的将来,大语言模型能够真正"飞入寻常百姓家",在各种日常使用的设备上为我们提供智能服务。

然而,要实现这一愿景,仍然存在一些挑战需要克服:

  1. 模型适配:需要进一步研究如何更好地将各种LLM模型适配到T-MAC的计算范式中。
  2. 硬件优化:虽然T-MAC已经在现有CPU上取得了显著性能,但针对这种计算模式的专门硬件优化仍有很大空间。
  3. 应用生态:需要建立完善的应用生态系统,以充分发挥边缘LLM的潜力。

尽管如此,T-MAC的出现无疑为边缘AI的发展指明了一个极具前景的方向。它不仅有望加速LLM在边缘设备上的普及,还可能推动整个计算机体系结构的创新。在不远的将来,我们或许将见证一个真正的"AI无处不在"的时代的到来。

参考文献:

  1. Wei, J., Cao, S., Cao, T., Ma, L., Wang, L., Zhang, Y., & Yang, M. (2024). T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge. arXiv:2407.00088.

标签:比特,模型,边缘,MAC,LLM,寻常百姓,算力,CPU
From: https://blog.csdn.net/weixin_36829761/article/details/141197273

相关文章

  • CF830E Perpetual Motion Machine
    一堆CornnerCase的大分讨,我们全队一边写一边补情况,WA了五发终于干过去了首先当图中存在某个环时,我们只要给环上的所有点赋值为\(1\)即可;又因为图连通所以只要考虑树的情况即可考虑如果存在一个度数\(\ge4\)的点,将其赋值为\(2\)并将其周围的四个点赋值为\(1\)即可......
  • 《DNK210使用指南 -CanMV版 V1.0》第十九章 machine.PWM类实验
    第十九章machine.PWM类实验1)实验平台:正点原子DNK210开发板2)章节摘自【正点原子】DNK210使用指南-CanMV版V1.03)购买链接:https://detail.tmall.com/item.htm?&id=7828013987504)全套实验源码+手册+视频下载地址:http://www.openedv.com/docs/boards/k210/ATK-DNK210.html5)正......
  • 【Python】MacOS安装ChromeDriver
    一、下载对应版本的chromedriver 二、解压后放到目录:/usr/local/bin目录 三、解决Mac无法验证Chromedriver开发者身份问题xattr-dcom.apple.quarantinechromedriver 四、验证安装结果#!/usr/bin/python3fromselenium.webdriverimportChromewebdriver=......
  • Mac下go安装
      https://go.dev/dl/查看是arm64,还是x86-64命令:-uname-a我的是DarwinokerdeMacBook-Pro.local23.5.0DarwinKernelVersion23.5.0:WedMay 120:13:18PDT2024;root:xnu-10063.121.3~5/RELEASE_ARM64_T6030arm64  安装后,重新打开终端  输入命令:go......
  • 【Emacs】使用全教程
    Emacs入门:使用全教程启动Emacs要进入Emacs,只需输入其名称:$emacs:-:-C-z挂起EmacsC-xC-c永久退出Emacs全局描述:-:-C-<key>表示按住控件,然后按<key>M-<key>表示按Esc一次,然后按<key>移动返回向前要移动的实体C-bC-fHaract......
  • 如何购买并激活CleanMyMac X?2025最新终极购买指南!
    在数字时代,保持你的Mac电脑运行速度和效率至关重要。CleanMyMacX是市面上一款非常受欢迎的Mac优化和清洁工具,针对近期特别多Mac圈好友在咨询如何正规途径购买CleanmymacX?如何激活CleanmymacX?如何获取CleanmymacX激活码等问题。特制作这个2024CleanmymacX终极购买指南,详......
  • macOS Sequoia 15 beta 6 (24A5320a) ISO、IPSW、PKG 下载
    macOSSequoia15beta6(24A5320a)ISO、IPSW、PKG下载iPhone镜像、Safari浏览器重大更新、备受瞩目的游戏和AppleIntelligence等众多全新功能令Mac使用体验再升级请访问原文链接:https://sysin.org/blog/macOS-Sequoia/,查看最新版。原创作品,转载请保留出处。作者主页......
  • macOS Sequoia 15.1 beta 2 (24B5024e) ISO、IPSW、PKG 下载
    macOSSequoia15.1beta2(24B5024e)ISO、IPSW、PKG下载iPhone镜像、Safari浏览器重大更新、备受瞩目的游戏和AppleIntelligence等众多全新功能令Mac使用体验再升级请访问原文链接:https://sysin.org/blog/macOS-Sequoia/,查看最新版。原创作品,转载请保留出处。作者主......
  • macOS Sequoia 15 beta 6 (24A5320a) Boot ISO 原版可引导镜像下载
    macOSSequoia15beta6(24A5320a)BootISO原版可引导镜像下载iPhone镜像、Safari浏览器重大更新、备受瞩目的游戏和AppleIntelligence等众多全新功能令Mac使用体验再升级请访问原文链接:https://sysin.org/blog/macOS-Sequoia-boot-iso/,查看最新版。原创作品,转载请保......
  • SciTech-BigDataAIML-Machine Learning Tutorials
    MachineLearningTutorialsMachineLearningTutorialsThispagelistsallofthemachinelearningtutorialsavailableonStatology.IntroductiontoMachineLearningSupervisedvs.UnsupervisedLearningRegressionvs.ClassificationAlgorithmsTheBias-Var......