首页 > 其他分享 >大模型冷思考:企业“可控”价值创造空间还有多少?

大模型冷思考:企业“可控”价值创造空间还有多少?

时间:2023-11-01 18:02:22浏览次数:32  
标签:训练 冷思考 数据 模型 可控 算法 企业 算力

文 | 智能相对论

作者 | 叶远风

毫无疑问,大模型热潮正一浪高过一浪。

在发展进程上,从最开始的技术比拼到现在已开始全面强调商业价值变现,百度、科大讯飞等厂商都喊出类似“不能落地的大模型没有意义”等口号。

在模型类型上,除了百度文心大模型、讯飞星火认知大模型、阿里通义千问大模型等通用大模型,医药研发、金融等垂直大模型正积极涌现。几个月前,新华三集团在业内首提“私域大模型”概念,并发布融合了行业属性及地域属性的私域大模型——“百业灵犀”LinSeer,为行业增添了企业落地大模型的创新类型。

大模型冷思考:企业“可控”价值创造空间还有多少?_基础设施

而在更直接的数字上,截止到2023年10月初,国内仅公开的大模型数量已达238个,百模大战正在升级千模大战。

……接近一年的热潮后大模型没有冷却的迹象,行业普遍的共识形成,这不是风口,而是技术革命。

然而,历史一次次证明,赛道越是热闹,参赛者越需要冷静的思考。

种种迹象显示,虽然看起来百花齐放,但事实上AI三大要素(算力、数据、算法),以及大模型发展的行业规则中,当下以及未来很多因素已经既定,一头热扎进去的企业们,更应该寻找的是那些不由既成的客观因素所限制、能够进行自我价值发挥的地方,才能尽可能获得相对竞争优势。

算力“积木化”,可控价值创造集中到“调度”环节

算力常常被视为大模型发展的瓶颈问题,但是,如果从是否“可控”的视角看,在业务层面企业能自己做出决定从而影响算力获取的地方,其实越来越少。

IT时代Windows+Intel构建起WinTel体,演变为移动互联网时代安卓+ARM(以高通为代表),到了大模型时代,又进一步演化为AI大模型+GPU——在当前,Nvidia已经成为大模型趋同的算力来源。

2021的Ampere(对应A100等)、2022年的Hopper(对应H100等)、2023的Ada架构……性价比高不高,要看Nvidia架构发展有多快。

算力不再是瓶颈,或者说,其“总体基本面”的提升并没有什么操作空间——要多少算力就需要多少资本投入,反过来有多少资本投入基本也能买来多少算力。

当算力“口子”被外部技术、内部预算等限定,通过调度提升既有资源利用效率,就成为企业“可控”的价值创造过程。特别是私域大模型,对于企业来说,AI大模型的大小需要平衡算力和能耗的开支,应选择适合行业特点和业务特点的大模型进行私域部署。

此时,如何榨取硬件资源提供的每一滴能力,加速模型的训练速度成为首要考虑的问题,而这方面术业有专攻,往往依赖基础设施服务厂商——针对算力等底层基础设施提供支撑成为考验各个服务厂商最基本的能力,其中尤以算力调度能力是其重点。

大模型冷思考:企业“可控”价值创造空间还有多少?_基础设施_02

算力调度往往需要多维能力协同,所以,作为业内首倡私域大模型的新华三给出了自己的回答:依托通过傲飞算力平台实现算力调度的“最优解”,让算力可以最大化的按需调度。另一方面以绿洲平台实现大模型所需的数据支撑,同时在分布式训练等需求下以智能无损网络支持AI集群训练,配备高性能存储带来更好的底层存储支撑,甚至还建设有液冷数据中心来维持算力输出的稳定性,以此构成一套完整的智算解决方案。

而新华三算力调度的“主脑”傲飞算力平台则具备异构计算资源统一管理、多元算力资源智能调度的能力,提供包含智能标注、智能训练、智能调优、智能部署、智能推理的全流程算力智能调度能力。

按官方数据,该平台能够将算力利用率提高至70%以上。同时,还支持8000节点的算力调度,并发训练时间缩短至50%,且断点自动接续无感知训练更稳定,在既有GPU资源下能全方面提升大模型训练性能。

说白了,就是通过一系列算力流程环节的衔接优化(尤其是面对并行计算与分布式计算需求),在充分保障训练与应用需求的同时降低GPU的空闲时间,让巨大成本获取来的算力资源工作尽可能饱和。

总体而言,这一整套高性能算力集群及调度让客户能够实现算力、存力、运力协同感知,实现算力资源充分供给、灵活部署、异构算力最优调度——虽然有多少算力资源很难控制,但用好这些资源企业却能够做到完全可控。

当然,除了提升算力利用效率,行业中一些做法还在试图通过其他方式直接降低模型训练对GPU资源的要求,例如数据存储层面进行算子优化等,未来或也存在较大的价值开发空间。

数据“断面化”,以数据质量建设带来“护城河”成为企业的必然选择

目前,企业能够获得的数据量来源主要包括公开的数据集与自身沉淀。

在当下时间断面,这两种都只能被动等待或由时间积累,数据“量”其实很难有突破,优势有就是有,没有就是没有,并不可控。

当然,也有一些企业试图主动出击,例如国外公司Inflection AI以大规模提问的方式来主动提升数据沉淀速度,但这显然这并不会是主流。

大模型冷思考:企业“可控”价值创造空间还有多少?_数据_03

“量”上不可控,则可控的价值创造空间必须更聚焦于“质”上。

中信智库《人工智能十大发展趋势》认为,“未来一个模型的好坏,80%由数据质量决定。”

从长远视角看,大模型的竞争并不是要比谁跑得更快,而是比谁走得更远,这就需要大模型真实的应用效果,也就需要通过各种方式提升数据质量,来锻造大模型发展的“内功”。

在数据的计划、获取、存储、共享、维护、应用等环节,都需要针对性的数据管理、治理,最终提升数据质量。这是一个系统性工程,也为市面上的基础设施服务商们带来了机会。

例如新华三的绿洲平台就以场景需求为导向,打造了一个围绕数据采集、存储、管理和应用的全栈数据平台。

通过内置AI算法,绿洲平台大大提升了数据标记能力,让数据治理、数据开发等过去很繁杂的流程工作变得极为简单,而知识图谱构建能力则帮助数据跃升为知识,从而能够更好地被业务场景所使用。

事实上,数据深加工带来高质量数据训练一直是前沿大模型的核心竞争力所在,OpenAI一贯公开其训练过程及算法,但对数据如何处理缄口不言。

回过头来看,数据的“要素化”与“资产化”正在让百行百业再次审视数据的价值,在数据越来越作为一种新型生产力要素的时代,大模型的本质可以视作一种挖掘数据要素价值的工具,而工具不决定价值,只决定效率。

大模型终将走入底层成为一种普遍的后端能力,技术本身越来越无法成为护城河,而数据则代表了企业在前端与客户/用户的连接程度,数据要素的价值释放将成为企业真正的“护城河”。

所有的数据类平台提升数据质量的过程,就是在帮助企业进一步挖掘数据要素价值、沉淀数据资产,真正打造企业的“护城河”。

算法“收敛化”,殊途同归下企业需聚焦训练效率提升

算法是大模型的能力核心,但长期来看,算法能力却终将“收敛”。

目前的大模型算法基本上都基于Transformer架构,该架构解决了过去RNN架构难以并行化等核心缺陷,是基因“优胜劣汰”的结果,BERT、GPT、T5、GLM等都其“衍生品”。

所以,算法生来都几乎有着相同的“基因”。

而在开发框架层面,伴随着开源生态建设,国外的TensorFlow、Pytorch,国内的MindSpore等几个主流框架逐步成为共同的选择。

这意味着,算法的后天的“成长环境”也逐步趋同。

大模型冷思考:企业“可控”价值创造空间还有多少?_数据_04

先天+后天,算法创新当下看起来百花齐放,但在未来其价值创新的空间将逐步收窄,企业能够通过努力获得的相对优势将越来越少。

甚至,在Llama 2掀起的开源浪潮下,算法创新的价值被进一步压缩。

因此,从长期来看,企业最“可控”的价值创造将侧重到训练效率而非算法创新上——同样的能力与潜力,PK更快速地训练迭代。

很多厂商提供的开发工具链都在直接推进训练效率,而一些原本旨在提供算力服务的平台也实现了等价的功能。

例如,傲飞算力平台支持断点自动接续无感知训练,其原本目的在于降低参数迭代期间的GPU资源等待、提升资源利用效率,但客观上也直接带来训练效率的提升,让算法加速迭代,先把潜力跑出来。

毕竟,加速算法训练,就是在提升算力资源利用效率。

行业规则“沉淀化”:长期主义仍需回归到正确的价值观

大模型热潮中,人人都会不自觉追求技术与商业价值“上限”,但大模型“下限”问题也日益突出,例如数据隐私、数据安全、知识产权、技术滥用等。

从企业的视角看,行业规则建立迫在眉睫,但其形成过程同样存在着不由企业决定的“客观因素”。

关于行业发展的一些法律法规,监管部门在逐步沉淀,例如国家网信办联合多部门公布的《生成式人工智能服务管理暂行办法》,企业要做的是等待并尽力配合与落实。

关于行业统一共识,也需要一个个沉淀,例如,目前已经有从业者提议行业协作开发统一、可信的框架,在隐私保护、模型效用和训练效率之间取得平衡,企业要做的是积极响应、积极参与。

但在一些规则上,企业能够、也必须充分发挥“可控”的价值创造能力。

例如,大模型数据安全“容错率低”,企业必须加大投入。

大模型冷思考:企业“可控”价值创造空间还有多少?_数据质量_05

很多基础设施厂商都提供了相关的服务,例如新华三的私域大模型百业灵犀以内置安全限制提示词和出入内容过滤拦截对所有场景下大模型生成内容进行安全性限制,针对所有出入流量和内容进行安全审计和敏感信息拦截。

当然,最直观反应大模型伦理、体现“下限”的是场景应用的选择问题。

科研、制造、医药、法律……大模型已经走向诸多能带来社会正向价值的场景。但是,诸如伪造视频进行诈骗等“场景应用”也已经出现,基于强力的大模型技术有着更强的欺骗性。

技术是刀,大模型是一把更锋利的刀,它的作用和价值由使用的人决定。

说到底,企业需要构建正确的价值观,将大模型能力导向数字经济的正向价值上,才能守住“下限”、实现大模型的长期健康发展。

结语

大模型赛道上,企业必须在“可控”的价值创造空间上发力,才能不断在各个维度获得更多相对竞争优势与发展可能性。

企业也必须以此为标准选择基础设施服务、大模型服务的厂商,尤其是在多个维度都能满足需要的厂商。

可以说,大模型给了这个时代全新的增量价值方向,只有帮助企业实现对“可控”价值创造的把握,才能让企业在这个全新方向更有着力点。

*本文图片均来源于网络


标签:训练,冷思考,数据,模型,可控,算法,企业,算力
From: https://blog.51cto.com/u_15675268/8130553

相关文章

  • Git分支模型
    REFhttps://www.sohu.com/a/234659269_575744 版本管理工具项目开发过程中大家可能使用比较多的版本管理工具有:VisualSVN、TortoiseSVN、Bazzar、Mercurial、Git、Bitkeeper等等。其中VisualSVN、TortoiseSVN、Bazzar为集中式版本控制系统。Mercurial、Git、Bitkeeper为分布式版......
  • 知识图谱与大模型相结合的3种方法,1+1>2
    本文分享自华为云社区《知识图谱与大模型结合方法概述》,作者:DevAI。《UnifyingLargeLanguageModelsandKnowledgeGraphs:ARoadmap》总结了大语言模型和知识图谱融合的三种路线:1)KG增强的LLM,可在LLMs的预训练和推理阶段引入KGs;2)LLM增强KG,LLM可用于KG构建、KGembedding、K......
  • 知识图谱与大模型结合方法概述
    《UnifyingLargeLanguageModelsandKnowledgeGraphs:ARoadmap》总结了大语言模型和知识图谱融合的三种路线:1)KG增强的LLM,可在LLMs的预训练和推理阶段引入KGs;2)LLM增强KG,LLM可用于KG构建、KGembedding、KG补全、基于KG的文本生成、KBQA(基于图谱的问答)等多种场景;3)LLM+KG协同使......
  • 【MME编写入门】光照模型
    float4x4WorldViewMatrix:WORLDVIEW;float4x4WorldViewProjMatrix:WORLDVIEWPROJECTION;float4x4WorldMatrix:WORLD;//需要用到的矩阵//需要用到光的位置、相机位置float3LightDirection:DIRECTION<stringObject="Light";>;fl......
  • Python用PyMC3贝叶斯模型平均BMA:采样、信息准则比较和预测可视化灵长类动物的乳汁成分
    当面对多个模型时,我们有多种选择。模型选择因其简单性而具有吸引力,但我们正在丢弃有关模型中不确定性的信息。  print(f"Runing模型平均一种替代方法是执行模型选择,但讨论所有不同的模型以及给定信息准则的计算值。重要的是要将所有这些数字和测试放在我们问题的背景下,以便我们和......
  • R语言有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申
    最近我们被客户要求撰写关于有限混合模型聚类FMM的研究报告,包括一些图形和统计输出。摘要有限混合模型是对未观察到的异质性建模或近似一般分布函数的流行方法。它们应用于许多不同的领域,例如天文学、生物学、医学或营销。本文给出了这些模型的概述以及许多应用示例。介绍有限混合......
  • R语言VAR模型的不同类型的脉冲响应分析|附代码数据
     最近我们被客户要求撰写关于VAR模型的研究报告,包括一些图形和统计输出。目录模型与数据估算值预测误差脉冲响应识别问题正交脉冲响应结构脉冲反应广义脉冲响应参考文献脉冲响应分析是采用向量自回归模型的计量经济学分析中的重要一步。它们的主要目的是描述模型变量对一个或多个......
  • Python用PyMC贝叶斯GLM广义线性模型、NUTS采样器拟合、后验分布可视化
    尽管贝叶斯方法相对于频率主义方法的理论优势已经在其他地方进行了详细讨论,但其更广泛采用的主要障碍是“可用性”。而使用贝叶斯方法,客户可以按照自己认为合适的方式定义模型。线性回归在此示例中,我们将帮助客户从最简单的GLM–线性回归开始。一般来说,频率论者对线性回归的看......
  • 马尔可夫转换模型研究交通伤亡人数事故时间序列预测|附代码数据
    最近我们被客户要求撰写关于马尔可夫转换模型的研究报告,包括一些图形和统计输出。本文描述了R语言中马尔克夫转换模型的分析过程首先,对模拟数据集进行详细建模。接下来,将马尔可夫转换模型拟合到具有离散响应变量的真实数据集。用于验证对这些数据集建模的不同方法。模拟实例示例数......
  • 阿里大模型之通义听悟使用体验
    阿里大模型之通义听悟使用体验通义听悟口令见文末~上传音频文件或者直接从阿里云盘选择文件实时记录模式:效果:测试的内容是一场圣经讲道的录音:发言总结内容导出支持情况整体效果还行;部分内容识别错误;可能所选内容分词不是太过常用,是宗教用语;总体效果还是可以的;体验地址:https......