首页 > 编程语言 >大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显

大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显

时间:2023-09-27 16:35:19浏览次数:45  
标签:存储 深挖 AI 数据 模型 算法 华为 价值 算力

文 | 智能相对论

作者 | 叶远风

18.8万亿美元,这是市场预计2030年AI推动智能经济可产生的价值总和,其中大模型带来的AI能力质变无疑成为重要的推动力量。

大模型浪潮下,业界对AI发展的三驾马车——算力、算法、数据任何一个维度的关注都到了全新的高度,避免“木桶效应”成为大模型发展首要考虑的问题。

而在这个过程中,业界对“数据”的关注,往往集中在“量”+“质”上,更庞大的数据量与更高的数据质量能推动大模型有更好的训练与应用效果,已经成为共识。

但是,随着大模型创新对数据需求越来越复杂,单单关注数据的“量”+“质”已经不够,能够承载数据、满足大模型需要的存储,同样值得大模型领域从业者关注。

在刚刚举办的华为全联接大会2023(HC 2023)上,华为方面系统介绍了其存储解决方案如何解决大模型训练与应用痛点、支撑大模型创新进程。

大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显_调优

华为的动作,从数据维度全景展示了大模型发展的本质——“数据要素”大开发,以及存储创新如何为这种本质提供力量,帮助大模型从业者更好地掘金智能经济时代。

大模型时代即是数据要素时代,存储作为载体的价值彰显

毫无疑问,大模型对算力、算法、数据的需求都在急速提高。

市场研究统计,过去五年,大模型参数增加2000倍,所需计算能力增加5万倍,对数据存储需求增加10万倍,连带网络带宽需求增加8000倍。

大开大合大需求,需要大设施、大投入。

但是,如果从创新的视角来看,实际上无论是算法还是算力的提供,其难度都在下降或者说收敛。

在很多企业都头疼的算力上,虽然需要的量很大,但无非都来自于英伟达、昇腾等GPU硬件资源,是一件主要依赖成本投入的事。换句话说,只要有足够多的预算,算力资源就能供给上来。

在算法端,虽然各大厂商不断调优迭代,但总体上都在采用Transformer模型基础架构,基于Pytorch、TensorFlow、MindSpore等主流开发框架开发,是逐渐收敛的。

这时候,压力来到了数据这里。

随着大模型深入发展,在总量上,数据需求早已从TB级跃升到PB级,需要的“池子”越来越大;而同时,对数据类型的需求又极大丰富,单一文本的模态之外,图片、视频、语音等多模态数据爆发,数据需求越来越复杂,这些都考验着存储的承载力,以及如何在训练、应用过程中更好地与算力、算法协同工作。

这期间,诸多难题出现,等待存储攻克,主要包括:

小文件读取性能。大模型在数据需求上以图片文本等海量小文件为主,单台AI服务器每秒能够读取2万多张图片,这往往会导致数据加载效率低(类似于个人PC上的复制动作,同等空间下,内含大量小文件文件夹会比单一大文件要慢很多),影响大模型的训练效率。此时,海量小文件性能就成为瓶颈,万亿参数大模型的基础要求已经达到1000万IOPS。

CheckPoint断点续训。大模型训练过程中出于参数调优等各种需求,会在不特定时间点中断形成CheckPoint,后续再启动继续训练(需要时间,形成GPU资源利用的空档)。这是一种对长时间训练的模型非常友好的能力,但企业频繁参数调优往往会造成GPU利用率降低(目前业界通常平均每二天就会中断一次,GPU利用率只有40%),需要存储具备很强的大文件读写性能,才能减少GPU等待时间、提升昂贵资源利用效率。

“AI幻觉”问题。大模型输出结果“胡编乱造”,与事实明显冲突的现象是业界十分头疼的问题,这种大模型自以为是的现象称作“AI幻觉”。看起来这是算法上的问题,但实际上,业界在探索中逐渐发现,它的解决需要的是在数据层面不断“求证”(主要是参考上下文信息),本质上要求存储能够提供一个类似于“百科词典”的知识体系,来作为大模型的“海马体”提供准确的行业知识。

大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显_解决方案_02

可以看到,在创新层面,解决大模型在存储上面临的挑战,可能要优先于算力和算法。

这一点,其实也让大模型进一步回归到本质上,即以参数量更大的AI模型进一步挖掘数据要素的价值,推动千行百业实现转型升级。

现在,数据要素已经作为数字经济和信息社会的核心资源,被认为是继土地、劳动力、资本、技术之后的又一重要生产要素,包括大模型在内的无数创新,都是在围绕数据要素进行价值深度开发。

大模型的发展过程,可以看作是数据要素不断从原始走向价值输出的过程。

这一过程中,算法在前方引导方向、走向通用或具体行业,澎湃的算力带来强劲的推动力,而存储则提供支撑与协同能力。当算力主要依赖成本投入、算法逐步收敛,存储作为数据要素载体的创新价值就越来越凸显。

让数据要素价值落地,华为存储多维度出击解决痛点问题

如何解决存储面临的挑战,华为高性能知识库存储OceanStor A800产品与对应解决方案在面向行业模型训推场景拥有全面领先的训推效率,总体而言有四大特点:

1、极高的整体性能,匹配大模型训练需要

华为存储首要解决的是在整体性能上满足大模型对训练数据的庞大需求,尤其是对小文件读取性能的需求。

OceanStor A800基于创新数控分离架构,单框IOPS能够达到2400万,训练集加载效率是业界的4倍,而且可以根据客户需求实现性能线性扩展。此外,OceanFS分布式文件系统实现全局均衡打散,消除了CPU瓶颈,能带来海量小文件性能的极致提升体验,满足大量小文件读取需求。

只要有性能需要,尽管“往上加”,华为存储都“扛得住”。

2、特殊能力优化,满足断点续训等特定需要

断点续训等特殊情况下如何更好地提供支撑,是华为存储在大模型训练阶段要同步应对的挑战。

通过盘控协同、NFS+并行文件系统,华为存储实现了单框500GB/s超高带宽,能够做到CheckPoint的超快恢复,断点续训恢复速度是业界3倍,TB级CheckPoint读写实现从小时级到分钟级的跨越(即万亿参数大模型平均恢复时间小时级提速到分钟级),减少昂贵的GPU等待。

只要是优化大模型需要的,客户都能够更加大胆地进行参数调优等操作。

除此之外,其管控面拥有资源分区+统一调度能力,还能够让存储适合不同的业务模型。

不管客户面向什么业务模型进行开发,不管客户在过程中选择在什么时候暂停,华为存储都能更好地应对。

大模型深挖数据要素价值:算法、算力之后,存储载体价值凸显_解决方案_03

3、响应能力强化,满足大模型应用的实时需求

训练阶段完成后,华为存储要做的,是在应用阶段满足严苛的数据响应需要。

目前,在大模型应用阶段,得益于内置了向量知识库(以向量的形式储存行业知识),华为存储的QPS达到了25万+,已经能够实现毫秒级响应,一方面能够加速推理,使得应用过程中的GPU资源消耗大大减少,有效节约了落地成本——当前很多大模型在开放应用阶段的资源消耗十分巨大,有些企业已经不堪重负;另一方面“百科词典”使得大模型更具准确的行业知识,对减少AI幻觉产生起到重要的支撑作用,能大大提升推理的精度。

4、架构创新,保障整体系统的稳定可靠

对存储最后一个也是最基本的要求是,无论具备什么样的特性,都要保证稳定可靠的整体结构,不发生安全问题、不“掉链子”。

华为存储解决一系列大模型数据痛点需求的过程,某种程度上也增加了存储方案与体系的复杂性,但与此同时,华为并没有牺牲系统的可靠性,其创新的全互联AA架构,能够实现5层全方位保护与6个9的超高可靠。

由此,大模型的数据可靠性及训练稳定性实现了端到端的保障。

造轮者,先行久远路途

华为存储能够解决大模型数据痛点问题,根源在于其长期以来在存储上的创新探索。

OceanStor A800的数控分离架构,就利用了业界前沿的数据读写直通到盘的技术创新,让数据面直通到盘,与控制面分离,实现IO直通,从而减少数据读写时CPU的运算,大大提升存储性能。

实际上,华为长期以来在存储上进行技术耕耘,已经取得了颇多类似的前沿创新成果。

目前,华为OceanStor存储在全球拥有12个研发中心、4000+研发人员、3000+专利,产品涉足高性能NAS存储解决方案、存储防勒索解决方案、容器存储解决方案、数据中心虚拟化等多个领域,获得了广泛好评。

在全球150多个国家,华为存储已经服务了包括运营商、金融、政府、能源、医疗、制造、交通等行业在内的25000+客户。

可以说,为数据要素价值开发、为大模型创新需求量身定制的存储能力,是华为长期以来在存储赛道上深耕的必然结果——华为存储早已做好了为众多领域数据需求(不只有大模型)提供强大承载力与协同力的准备。

*本文图片均来源于网络

#智能相对论 Focusing on智能新产业新服务,这是智能的服务NO.240深度解读

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

标签:存储,深挖,AI,数据,模型,算法,华为,价值,算力
From: https://blog.51cto.com/u_15675268/7626336

相关文章

  • 农牧业认养系统有没有价值
    农牧业认养系统是一种新型的农业经营模式,通过提前认养的方式,帮助农民更好地利用土地资源、提高经济效益和社会效益。对于农户来说,使用认养农业经营模式可以节约成本,同时也有利于提高产品的质量和安全性。对于消费者而言,认养农业提供了一种更加环保、健康、舒适的生活方式。农牧......
  • 低功耗引擎 Cliptrix 有什么价值
    在万物互联的时代,现代人已普遍接受电视、音箱等电器设备具备智能化能力,也是在这个趋势下,我们身边越来越多的iOT设备联网和交互成为刚需。但iot设备也面临到一些非常显著的痛点,例如iot设备的内存、处理器等核心元件无法与手机、电脑等高端的智能化设备相比,很难直接运行一些大型......
  • 剖析华为云Astro Platform技术价值与使用体验
    面对企业IT专业人员紧缺的挑战,华为云Astro低代码平台提供创新解决方案。让非编程专业人士能快速构建、部署应用,缓解开发资源压力,并高度整合技术架构,强化项目沟通协作。使每个参与其中的角色都找到自己的位置,携手全民开发者推动项目向前运行。华为云AstroPlatform统一低代码平台基......
  • 科技云报道:青云科技打出“AI算力牌”,抢跑“云+AI”新增市场
    近三年,中国云计算市场在多个维度同时发生着剧烈变化——疫情极大加速了全社会对于数字化的认知和接受程度;一系列云原生技术依托着开源和蓬勃的市场而迅速发展演变,更多产品和技术名词同时涌向市场;国际关系复杂化下的信创云浪潮扑面而来…在这样一个技术和需求都在快速演变的供需环境......
  • PHP手机购物商场源码 麦淘商城 互站价值过万
    这东西打开看一眼看上去搭建不简单,据说价值五位数有兴趣的可以拿去试一下:内有压缩包,提取码:4a6d......
  • 浪潮信息面向全行业公布设计指南,以开放规范促进生成式AI多元算力发展
    随着生成式AI快速发展,人工智能在各行各业广泛应用,AI算力需求剧增,AI芯片多元化趋势凸显,带来了芯片开发成本高、多元芯片使用难等挑战。近日,浪潮信息面向全行业公布了《开放加速规范AI服务器设计指南》(以下简称《指南》)。《指南》基于浪潮信息在开放加速计算领域丰富的产品研发和工程......
  • openGauss学习笔记-77 openGauss 数据库管理-内存优化表MOT管理-内存表特性-MOT特性及
    openGauss学习笔记-77openGauss数据库管理-内存优化表MOT管理-内存表特性-MOT特性及价值本节介绍了openGauss内存优化表(Memory-OptimizedTable,MOT)的特性及价值。77MOT特性及价值MOT在高性能(查询和事务延迟)、高可扩展性(吞吐量和并发量)以及高资源利用率(某些程度上节约成本)方面......
  • BANI时代下,项目如何实现价值交付?
    随着时代的变化,继VUCA时代后、新的语言出现:BANI一词逐渐流行起来。BANI,取自四个英文单词Brittle(脆弱的)、Anxious(焦虑的)、Nonlionear(非线性的)、Incomprehensible(费解的)首字母的大写。l Brittleness(脆弱性):在BANI时代,系统和组织可能会突然、且无预警地崩溃。l Anxiety(焦虑感):......
  • Lnton羚通算法算力云平台员工工作服穿戴算法检测 智能监控工作服算法识别
    员工工作服穿戴的AI识别算法基于YOLOv8和Python网络模型的人工智能技术。该算法通过实时监控现场人员的工作服穿戴情况,并在发现违规情况时自动发出警报。我们选择了当前最新的YOLO卷积神经网络模型YOLOv8来进行火焰识别检测。YOLOv8的每个图像推理时间最快为0.007秒,即每秒可处理140......
  • R语言风险价值:ARIMA,GARCH模型,Delta-normal法滚动估计,预测VaR(Value at Risk)和回测分析
    原文链接:http://tecdat.cn/?p=24492原文出处:拓端数据部落公众号介绍此分析的目的是帮助客户构建一个过程,以在给定时变波动性的情况下正确估计风险价值。风险价值被广泛用于衡量金融机构的市场风险。我们的时间序列数据包括1258天的股票收益。为了解释每日收益率方差的一小部......