【AI学习】对LLM训练中数据处理的再认识

标签：答案训练 AI 模型实际上 LLM 数据处理数据

最近读了几篇文章，对于LLM模型中的数据处理，有了一些再认识。
这几篇文章分别是《世界顶级风投a16z创始人对谈AI与创业》、《Ben Thompson对 Nat Friedman 和 Daniel Gross的采访》、《AI教父Hinton最新万字精彩访谈：直觉，AI创新的洞见和思考，未来》

有一些观点：
1、训练模型的数据集平均而言代表了普通人类。使用此类数据，我们只能训练出一个非常普通的模型。但是，这里有一个关键点：虽然平均数据可能来自普通人，但数据集也包含了所有聪明人所写和所想的一切，所有这些内容都在数据集中。因此，这引出了如何通过特定的提示来引导人工智能，让它能够使用数据集中“超级天才”的内容进行训练。如果以不同的方式构建提示词，实际上可以引导人工智能沿着数据集中的不同路径前进，从而得到不同类型的答案。

2、所谓的“过度训练”，即对同一模型使用相同数据进行更长时间的训练——实际上被证明是有效的。特别是，Meta和其他一些公司最近一直在讨论所谓的过度训练实际上是如何工作的，即基本上继续对同一个模型进行训练，对相同的数据进行更长时间的训练，投入更多的计算周期。一些领域的专家甚至认为这种方法效果非常好，且不担心增加训练会导致收益回报递减。在Meta最近发布的大语言模型Llama中，使用的主要技术就是过度训练。我们可能不需要更多的数据来提升这些模型的性能，我们需要的是更多的计算周期。通过大幅度增加训练次数，人工智能的性能就有望得到显著提升。

3、微软最近发布了该公司的小语言模型，有报道称它在性能上能与更大的模型一决高下。微软所做的关键工作之一是优化了训练集。具体来说，他们去除了训练集中的所有重复副本，专注于使用一小部分高质量数据进行训练，而不是依赖于大多数人所使用的大量低质量数据。

4、对于“数据是新石油”的观点，这种观点认为，数据是训练人工智能、推动其运作的关键输入。因此，数据成为了一种全新的、限制性的、极具价值的资源。但其实，在几乎所有情况下，这种看法并不成立。这实际上只是一种模仿现象。互联网上以及更广泛环境中可用的数据量是如此庞大，以至于尽管可能没有个人的具体医疗信息，但已经能够从互联网上获取到众多人在多种不同情况下的医疗信息，这些数据的海量足以压倒性地超越所谓的“个人数据”的价值。原始数据–那些未经任何处理的数据集–其价值往往被过分夸大。几乎每家公司都能够通过利用自身的数据来增强其市场竞争力。但是，认为公司只要收集了一些数据，就能像出售石油一样将其变现，或者认为这些数据就是新的石油资源，这种想法实际上是不切实际的。支持这种观点的证据是，至今并未看到一个丰富或成熟的数据市场。实际上，不存在大型的数据交易市场。相反，只看到的是一些规模较小的数据处理市场，如数据经纪人，他们向客户出售大量互联网用户的信息，但这些业务的规模相对较小。如果数据真的具有巨大价值，它就会有明确的市场价格，并且我们会看到它在市场上的交易。然而，我们并没有看到这种情况，这在某种程度上证明了数据的价值并不像人们想象的那么高。

5、transformer 架构的神奇之处在于即使数据质量很糟糕，它也能工作。……但我认为人们忘记了，如果数据是高质量的，它的效果只会更好。所以，真正的奇迹是，即使数据不好，它也勉强能工作，但如果数据好得多，它的效果要好得多。

6、MNIST的例子。你给它训练数据，其中一半的答案是错误的。问题是，它能学得多好？你把一半的答案弄错一次，然后保持这种状态。所以它不能通过只看同一个例子来平均化错误率，但有时答案正确，有时答案错误。当它看到那个例子时，一半的例子，当它看到这个例子时，答案总是错的。所以训练数据的误差为50%。但是如果你训练反向传播，误差会降到5%或更低。换句话说，从标记不良的数据中，它可以得到更好的结果。它可以看到训练数据是错误的。这就是聪明的学生能比他们的导师更聪明的原因。他们的导师告诉他们所有这些东西，而对于导师告诉他们的一半，他们认为，不，是胡说八道，他们听从另一半，然后他们最终比导师更聪明。因此，这些大型神经网络实际上具有超越训练数据的能力，这是大多数人未曾意识到的。

这些观点都非常有趣，总结来说，语言模型在普通的数据上也能训练得工作，但是通过高质量数据或者通过启发引导模型对数据进行区分，可以让模型工作的更好，而过度训练说明，之前的语言模型尚没有充分挖掘出语言中的天才成分。

标签：答案,训练,AI,模型,实际上,LLM,数据处理,数据
From： https://blog.csdn.net/bylander/article/details/139130808

【AI学习】对LLM训练中数据处理的再认识

相关文章

赞助商

阅读排行