首页 > 其他分享 >【AI学习】对LLM训练中数据处理的再认识

【AI学习】对LLM训练中数据处理的再认识

时间:2024-05-24 22:54:13浏览次数:25  
标签:答案 训练 AI 模型 实际上 LLM 数据处理 数据

最近读了几篇文章,对于LLM模型中的数据处理,有了一些再认识。
这几篇文章分别是《世界顶级风投a16z创始人对谈AI与创业》、《Ben Thompson对 Nat Friedman 和 Daniel Gross的采访》、《AI教父Hinton最新万字精彩访谈:直觉,AI创新的洞见和思考,未来》

有一些观点:
1、训练模型的数据集平均而言代表了普通人类。使用此类数据,我们只能训练出一个非常普通的模型。但是,这里有一个关键点:虽然平均数据可能来自普通人,但数据集也包含了所有聪明人所写和所想的一切,所有这些内容都在数据集中。因此,这引出了如何通过特定的提示来引导人工智能,让它能够使用数据集中“超级天才”的内容进行训练。如果以不同的方式构建提示词,实际上可以引导人工智能沿着数据集中的不同路径前进,从而得到不同类型的答案。

2、所谓的“过度训练”,即对同一模型使用相同数据进行更长时间的训练——实际上被证明是有效的。特别是,Meta和其他一些公司最近一直在讨论所谓的过度训练实际上是如何工作的,即基本上继续对同一个模型进行训练,对相同的数据进行更长时间的训练,投入更多的计算周期。一些领域的专家甚至认为这种方法效果非常好,且不担心增加训练会导致收益回报递减。在Meta最近发布的大语言模型Llama中,使用的主要技术就是过度训练。我们可能不需要更多的数据来提升这些模型的性能,我们需要的是更多的计算周期。通过大幅度增加训练次数,人工智能的性能就有望得到显著提升。

3、微软最近发布了该公司的小语言模型,有报道称它在性能上能与更大的模型一决高下。微软所做的关键工作之一是优化了训练集。具体来说,他们去除了训练集中的所有重复副本,专注于使用一小部分高质量数据进行训练,而不是依赖于大多数人所使用的大量低质量数据。

4、对于“数据是新石油”的观点,这种观点认为,数据是训练人工智能、推动其运作的关键输入。因此,数据成为了一种全新的、限制性的、极具价值的资源。但其实,在几乎所有情况下,这种看法并不成立。这实际上只是一种模仿现象。互联网上以及更广泛环境中可用的数据量是如此庞大,以至于尽管可能没有个人的具体医疗信息,但已经能够从互联网上获取到众多人在多种不同情况下的医疗信息,这些数据的海量足以压倒性地超越所谓的“个人数据”的价值。原始数据–那些未经任何处理的数据集–其价值往往被过分夸大。几乎每家公司都能够通过利用自身的数据来增强其市场竞争力。但是,认为公司只要收集了一些数据,就能像出售石油一样将其变现,或者认为这些数据就是新的石油资源,这种想法实际上是不切实际的。支持这种观点的证据是,至今并未看到一个丰富或成熟的数据市场。实际上,不存在大型的数据交易市场。相反,只看到的是一些规模较小的数据处理市场,如数据经纪人,他们向客户出售大量互联网用户的信息,但这些业务的规模相对较小。如果数据真的具有巨大价值,它就会有明确的市场价格,并且我们会看到它在市场上的交易。然而,我们并没有看到这种情况,这在某种程度上证明了数据的价值并不像人们想象的那么高。

5、transformer 架构的神奇之处在于即使数据质量很糟糕,它也能工作。……但我认为人们忘记了,如果数据是高质量的,它的效果只会更好。所以,真正的奇迹是,即使数据不好,它也勉强能工作,但如果数据好得多,它的效果要好得多。

6、MNIST的例子。你给它训练数据,其中一半的答案是错误的。问题是,它能学得多好?你把一半的答案弄错一次,然后保持这种状态。所以它不能通过只看同一个例子来平均化错误率,但有时答案正确,有时答案错误。当它看到那个例子时,一半的例子,当它看到这个例子时,答案总是错的。所以训练数据的误差为50%。但是如果你训练反向传播,误差会降到5%或更低。换句话说,从标记不良的数据中,它可以得到更好的结果。它可以看到训练数据是错误的。这就是聪明的学生能比他们的导师更聪明的原因。他们的导师告诉他们所有这些东西,而对于导师告诉他们的一半,他们认为,不,是胡说八道,他们听从另一半,然后他们最终比导师更聪明。因此,这些大型神经网络实际上具有超越训练数据的能力,这是大多数人未曾意识到的。

这些观点都非常有趣,总结来说,语言模型在普通的数据上也能训练得工作,但是通过高质量数据或者通过启发引导模型对数据进行区分,可以让模型工作的更好,而过度训练说明,之前的语言模型尚没有充分挖掘出语言中的天才成分。

标签:答案,训练,AI,模型,实际上,LLM,数据处理,数据
From: https://blog.csdn.net/bylander/article/details/139130808

相关文章

  • 【论文速读】LLM-Augmented Retrieval:EnhancingRetrievalModels Through LanguageMod
    论文链接:https://arxiv.org/html/2404.05825v1文章标题:LLM-AugmentedRetrieval:EnhancingRetrievalModelsThroughLanguageModelsandDoc-LevelEmbedding这篇文章提出了一种与检索模型无关的框架框架,通过大型语言模型来丰富文档的嵌入,显著提高了现有检索模型的性......
  • The configuration for MySQL Server 8.0.27 has failed You can find more informati
    遇见这种情况,作者当时也是痛苦万分,网上找了许许多多的方法试了好多次都不行。分析问题出现这种问题是因为我们之前安装过但是没有安装完全就取消了,电脑里面已经存储了。重新安装的时候把安装位置和数据存放的位置路径全部使用英文,例如:之前我的安装路径:D:\用户\app\mysql......
  • [自动驾驶技术]-7 Tesla自动驾驶方案之算法(AI Day 2022)
    特斯拉在2022年AIDay上更新了感知规控算法模型,核心引入了Occupancy技术。下图是特斯拉活动日展示的主题内容,本文主要解读Planning和NeuralNetwork部分。1规划决策Interactionsearch-交互搜索特斯拉在自动驾驶规划中使用了一种高度复杂和优化的搜索算法,结合了多种先进的......
  • 【源码翻译之交互式对象包 AIS-AIS_ColoredShape.hxx文件 多颜色交互式对象
    类AIS_ColoredShape形状的呈现具有可自定义的子形状属性。此类可以将topods的子拓扑分别设置不同的颜色然后作为一个整体显示成员类型定义文档◆DataMapOfDrawerCompdtypedefNCollection_IndexedDataMap<Handle<AIS_ColoredDrawer>,TopoDS_Compound,TColStd_MapT......
  • P10298 [CCC 2024 S4] Painting Roads
    原题链接题解由易到难,先不考虑交替的事情,既然要尽量少的涂色,那么我最少要涂几条颜色的边?(由于图不一定联通,这里先考虑连通图的情况)如果一条边处于一个环内,那么这个边就可以不涂色。所以只要有环我就可以选择一条边不涂色,那么到最后,涂色的边构成一棵树接下来考虑这颗树能否实现......
  • 5款超好用的AI换脸软件,一键视频直播换脸(附下载链接)
    随着AIGC的火爆,AI换脸技术也被广泛应用于娱乐、广告、电影制作等领域,本期文章系统介绍了市面上超火的5款AI软件换脸整合包收录了全部5款AI工具,请按照需要选择下载:百度网盘:https://pan.baidu.com/s/1-LeEVYHv0tra-AJlK9seJQ?pwd=j4at 1.Roop作为AI换脸领域的鼻祖,Roop的人气一......
  • AIGC基础教学:AI+建筑设计,一场划时代变革的序幕已经拉开
    2015年9月,美的集团本着把艺术融入民间的理念,邀请了安藤忠雄设计正在筹建中的美术馆。在历经长达近120天的设计工作之后,美术馆于同年12月动工。这座具有岭南建筑文化意境的美术馆,后来荣获2020年美国建筑大师奖(ArchitectureMasterPrize)「2020年世界十大博物馆建筑」之一、......
  • AI绘画基础:一件收藏!Midjourney五种优质关键词合集
    今天为大家分享5类高质量Midjourney提示词,包括野外产品场景图、卡通表情包、科技风芯片素材、可无缝拼接的图案等,一起来看看吧~MJ绘画提示词就像是那个及时雨,给你的创作之旅带来一丝清新的风!  自然类场景图 1提示词:Extremeclose-up,aflatmossystoneslab,......
  • 在AndroidStudio创建虚拟手机DUB-AI20
    1.DUB-AI20介绍        DUB-AL20是华为畅享9全网通机型。         华为畅享9采用基于Android8.1定制的EMUI8.2系统,最大的亮点是配置了1300万AI双摄、4000mAh大电池以及AI人脸识别功能,支持熄屏快拍、笑脸抓拍、声控拍照、手势拍照等特色的拍照功能,支持移......
  • 数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病|附代码
    全文链接:http://tecdat.cn/?p=23061最近我们被客户要求撰写关于预测心脏病的研究报告,包括一些图形和统计输出。这个数据集可以追溯到1988年,由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。"目标"字段是指病人是否有心脏病。它的数值为整数,0=无病,1=有病数据集信息:目标:主......