首页 > 其他分享 >科技云报道:AI大模型终于走到了数据争夺战

科技云报道:AI大模型终于走到了数据争夺战

时间:2023-10-02 12:05:26浏览次数:40  
标签:需求 AI 模型 RLHF 争夺战 数据 标注


当前,大模型正处在产业落地前期,高质量的数据,是大模型实现产业化的关键要素。

最近,一项来自Epoch AI Research团队的研究抛出了一个残酷的事实:模型还要继续做大,数据却不够用了。

科技云报道:AI大模型终于走到了数据争夺战_科技

研究人员预测了2022年至2100年间可用的图像和语言数据总量,并据此估计了未来大模型训练数据集规模的增长趋势。

结果表明:高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量将分别在2030年至2050年、2030年至2060年枯竭。

这意味着,如果数据效率没有显著提高或有新的数据源可用,那么到2040年,模型的规模增长将放缓。

对数据端的建设该重视起来了。

高质量数据成“抢手货”

随着全球新一轮AI热潮来临,大量训练数据已成为AI算法模型发展和演进的“燃料”。

从GPT的实验发现,随着模型参数量的增加,模型性能均得到不同程度的提高。

但值得注意的是,通过来自人类反馈的强化学习(RLHF)生成的InstructGPT模型,比100倍参数规模无监督的GPT-3模型效果更好,也说明了有监督的标注数据是大模型应用成功的关键之一。

如果以上预测是正确的,那么毫无疑问数据将成为做模型继续做大的主要制约因素,AI的进展也会随着数据量的耗尽而放缓。

阿里巴巴达摩院基础视觉团队负责人赵德丽博士曾在采访中表示,数据侧的建设将会成为每一个做大模型工作的机构必须要考虑的问题,大模型有多少能力,往往取决于有什么样的数据。

据赵德丽博士介绍,与文生图大模型相比,做文生视频大模型要难得多,原因就在于视频数据的数量远比不上文本和图像,更不要谈数据的质量了。相应地,目前已有的文生视频模型的效果都不尽如人意。

结合上述研究结果,如果当下的趋势继续下去,人类现有的数据库存一定会耗尽,而且高质量的数据会更少。

正因如此,一场数据争夺战正在拉开序幕。

目前,Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件,名为Firefly。自3月份发布以来,Firefly已被用于创建超过10亿张图像,而Adobe股价已因此上涨了36%。

一些初创公司也正在蜂拥至这个新领域。今年4月,专注于人工智能的数据库公司Weaviate融资5000万美元,估值达到2亿美元。

仅仅一周后,其竞争对手PineCone就以7.5亿美元的估值筹集了1亿美元资金。

本月早些时候,另一家数据库初创公司Neon也获得了4600万美元的融资。

在国内,百度智能云近期也升级了大模型数据服务能力,建设了国内首个专业大模型数据标注基地。百度智能云方面表示,目前已经在全国与各地政府合作,共建了10多个数据标注基地。

显然,对数据的争夺才刚刚开始。

数据标注再次迎来爆发

AI大模型带来了大量需求,与之相伴的是中国数据标注行业的迅速发展。

招商证券认为,一方面,进入大数据时代后,人们各种行为的电子化、网络化带来海量数据,但产生的数据只有1%能被收集和保存,并且收集的数据中90%是非结构化的数据;另一方面,人工智能的兴起带来模型训练所用结构化数据的巨大需求,数据标注的重要性逐渐突显。

有业内人士认为,预计今年10月国内会迎来一波大的类chatGPT大模型的数据需求,而且这是一个海量的需求,以目前国内几家头部数据标注公司来看,目前产能还不足以满足需求。

艾瑞咨询数据显示,包括数据采集、数据处理(标注)、数据存储、数据挖掘等模块在内的AI基础数据服务市场,将在未来数年内持续增长。

到2025年,国内AI基础数据服务市场的整体规模预计将达到101.1亿元,整体市场增速将达到31.8%(2024-2025年)。

据iResearch数据,2019年我国数据标注市场规模为30.9亿元,预计2025年市场规模突破100亿元,年复合增长率达到14.6%。

随着数据量的不断增长和数据结构的不断变化,数据标注行业涉及的领域也越来越广泛,特别是在自动驾驶、AIGC等领域内,数据标注需求量极大。

作为AI大语言模型高质量回答的基础,数据标注的生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。

其中,数据标注需要识别图像、文本、视频等原始数据,并添加一个或多个标签为机器学习模型指定上下文,帮助其做出准确的预测。

当前,大部分数据标注任务仍然需要人工完成,而且各种数据类型和应用领域都需要相应领域的专业标注员来完成标注任务。

随着技术的发展,数据标准行业正在成为半人工智能、半人工化的行业。

面对大语言模型动辄上百亿参数的数据质量控制,需要通过标注平台将一个个复杂RLHF需求拆成很多个简单的工作流,让机器去做预处理,人去做深层的基于理解的反馈,以减少人在简单问题上的精力消耗,专注在专业问题上的标注。

业内一般采用主动质检加被动质检的方式,前者靠人为去做质检,后者是靠算法去做一些预识别。

但目前数据标注工具的准确率部分仅百分之几,部分准确率则可以达到80%、90%。机器标注的识别率越高,人工需求就会越少,成本、利润、速度、质量都能更加可控。

随着技术不断发展,未来数据标注行业可能会实现更高的自动化程度,不过应用领域不同,仍然需要一定数量的标注人员来进行标注任务。

传统数据标注亟待升级

值得注意的是,在如今火爆的大模型训练浪潮中,传统的数据标注需求,很可能是下降的。

让ChatGPT更具有“人味”的关键——强人工反馈RLHF,带来的是另一种更高要求的数据标注需求。

相关分析显示,在RLHF环节,模型首先在大数据集上进行预训练,再与专业的人工智能训练师进行交互,专业的标注人员会对ChatGPT生成的回答进行标注、评估和反馈,给出一个针对回答的分数或者标签。

这些标注数据可以作为强化学习过程中的“奖励函数”来指导ChatGPT的参数调整,最终帮助模型进行强化学习和不断优化。

也就是说,让ChatGPT“更具人味儿”的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型,实现更合乎人类思维逻辑的表达。

但传统数据标注模式很难满足RLHF的需求。

在过去,数据标注公司的主流商业模式以销售工具系统和标注服务为主。一方面,缺少自有数据很少有出售精准数据集的服务。另一方面,人才升级作为一个系统工程,对数据标注公司的考验更高。

在完成这一步后,RLHF训练还涉及到不少事实判断和价值判断。其中,价值判断涉及到公认的"公序良俗",理论上是更容易拉齐AI认知的部分,事实判断则涉及各行业Know-How。

这往往需要行业专业人士出手,不是传统数据标注员,简单针对词性、图片细节进行标注就能实现的。

也就是说,要跟上新一代AI浪潮,数据标注公司不仅需要在数据层面进行升级,人才的更新换代同样重要。

目前的确已有标注公司开始在内部撰写《人员提升教程》,他们将在接下来重点培训标注人员对“升级后”的标注需求理解,以及回答方式的合规性等。

但是,在专业壁垒非常高的医疗等领域,数据标注仍面临着人才困境。

某数据标注公司运营负责人曾表示,“特别是医疗,有些是普通人经过培训可以标的,有的必须要医疗从业者,这背后的人才招聘难度可想而知。”

但即便困难重重,也不意味着数据标注公司会立马进行一波洗牌——至少,在大模型训练的几个阶段内,初始阶段的半监督学习同样对传统数据标注存在需求。

面对大模型和RLHF的机遇,重现大规模投入似乎在所难免。

有业内人士认为,如果数据标注公司期望在垂直领域做更高层级的数据服务,可能要成立一个全新的产品线。甚至,具备AI研发背景的创始人会是更合适的数据标注创业者。

面对新一代AI浪潮,没有人可以躺着挣钱——这是每一次技术迭代冲击背后,暗中标注好的“价格”。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。


标签:需求,AI,模型,RLHF,争夺战,数据,标注
From: https://blog.51cto.com/u_16125291/7682542

相关文章

  • vscode 配置 python 中快捷输入 if __name__ == '__main__':
    vscode不会像pycharm可以代码自动联想出 if__name__=='__main__': 操作点击左下角齿轮按钮——用户代码片段  然后输入python搜索出现python.json 然后将一下代码输入后重启就可以了 代码如下:"Printtoconsole":{"prefix":"main","body":[......
  • Llama2-Chinese项目:3.2-LoRA微调和模型量化
      提供LoRA微调和全量参数微调代码,训练数据为data/train_sft.csv,验证数据为data/dev_sft.csv,数据格式为"<s>Human:"+问题+"\n</s><s>Assistant:"+答案。本文主要介绍Llama-2-7b模型LoRA微调以及4bit量化的实践过程。1.LoRA微调脚本  LoRA微调脚本train/sft/finetune_lora......
  • 「闲话随笔」Yubai 数数
    「闲话随笔」Yubai数数点击查看目录目录「闲话随笔」Yubai数数AmazingCountingproblem!国庆快乐!可是已经开学了,奥赛生只配放7+3=2-.衡实初中部为啥没有集训啊?可能是因为以前机房在衡实只能去衡实集训,所以就把初中带上了吧,本来不会集训的.诶不对好像是不是初......
  • A Certain Forbidden Index
    不错的交互题。实际上这题是构造。理性分析,询问次数的下界是\(\frac{n}{2}\)的,因为每个叶子都一定要问到,而一个线段树区间询问至多包含\(2\)个叶子显然\([1,n],[1,1],[n,n]\)必须单独问为了尽量节省次数,我们考虑对叶子和非叶子结点匹配,这样找到之后就可以仅用一次询问找......
  • 2022 China Collegiate Programming Contest (CCPC) Weihai Site
    PrefaceVP到自己学校出的题了可海星,不得不说学长们出的题比起昨天VP的CCPC2022广州做起来要舒服地多这场前面写题都很顺基本都是一发过,中期的medium也没怎么卡思路和卡机子,一道一道地慢慢出最后一个小时徐神RushF可惜没Rush出来,然后我和祁神坐在下面把B的做法给搞出来了,但不知......
  • Java 21 新特性:Unnamed Classes and Instance Main Methods
    Java21引入了两个语言核心功能:未命名的Java类你说新的启动协议:该协议允许更简单地运行Java类,并且无需太多样板下面一起来看个例子。通常,我们初学Java的时候,都会写类似下面这样的HelloWorld程序:publicclassHelloWorld{publicstaticvoidmain(String[]args){......
  • pyqt5-QMainWindow主窗口组件
    1、介绍QMainWindow,主窗口组件。该类型组件相比于QWidget作为窗口而言,主要是增加了菜单栏、状态栏和工具栏2、基础使用setIconSize(self,iconSize:QSize)设置图片大小iconSize(self)->QSize获取图片大小setMenuBar(self,menubar:QMenuBar)设置菜单栏men......
  • 视频融合/监控汇聚平台EasyCVR助力AI算法智能防溺水,实现水域监管
    防溺水已经成为青少年安全教育的重要内容,同时也是社会各界共同承担的安全管理责任。特别是在夏季,随着天气逐渐转热,溺水事故也进入了危险期、易发期和高发期。传统的预防和管理方法主要通过日常宣传演讲和人工巡逻来提醒人们溺水的危害,但存在一些问题:1)缺乏有效的安全预警设施:当人......
  • 视频融合/监控汇聚平台EasyCVR如何推送本地录像视频文件进行AI视频智能分析?
    安防视频监控平台EasyCVR是一个具有强大拓展性、灵活的视频能力和轻便部署的平台。它支持多种主流标准协议,包括国标GB28181、RTSP/Onvif、RTMP等,还可以支持厂家的私有协议和SDK接入,例如海康Ehome、海大宇等设备的SDK。该平台不仅拥有传统安防视频监控的功能,还具备接入AI智能分析的......
  • CLIP模型代码
    近期看到了一篇用CLIP在我这个方向应用的文章,所以玩了一下CLIP,感觉效果还是很好的。 首先,github上的zero-shot代码importosimportclipimporttorchfromtorchvision.datasetsimportCIFAR100#Loadthemodeldevice="cuda"iftorch.cuda.is_available()else"cp......