用于 LLM 的公开的数值数据

这个存储库包含了用于训练 OpenAI 的大型语言模型的一部分公开的数值数据。这些数据已经被处理成符合 OpenAI 的数据管道格式。此外，我们还提供了一个 Python 脚本，用于将原始的表格数据转换成适合训练的格式。

数据来源

这些数据来自于以下公开的来源：

数据格式

数据被存储为 JSON 文件，每个 JSON 文件包括一个名为 data 的数组。数组中的每个元素都是一个包含两个键的字典：

input: 用于训练模型的输入文本。输入文本通常包括一个问题或描述。
output: 模型的预期输出。这通常是一个简短的回答或数值。

{
    "data": [
        {
            "input": "What was the average price of a gallon of regular gasoline in the United States in 2019?",
            "output": "2.60"
        },
        {
            "input": "What is the distance from Earth to Mars in kilometers?",
            "output": "225,000,000"
        },
        ...
    ]
}

如何使用这些数据

要使用这些数据训练您的模型，您需要将它们处理成适合您的训练框架的格式。我们提供了一个 Python 脚本，用于将原始的表格数据转换成适合训练的格式。您可以参考这个脚本来了解如何处理数据，以及如何根据您的需求修改它。

LLM 开发者应知的数字

在谷歌，传奇工程师杰夫·迪恩（Jeff Dean）整理了一份名为“每位工程师都应该知道的数字”的文档。对于大型语言模型（LLM）开发者来说，拥有一套可用于粗略计算的类似数字非常有用。在这里，我们分享 Anyscale 使用的一些特定数字，说明这些数字的重要性以及如何将其用于您的优势。

内容列表

CPU 时钟周期
内存访问延迟
磁盘延迟
网络延迟
FLOPs 和 AI 训练

CPU 时钟周期

一个 CPU 时钟周期大约需要 0.4 纳秒（ns）。 CPU 时钟周期是衡量 CPU 性能的关键指标。了解 CPU 时钟周期的长度有助于在设计和优化算法时更好地理解性能瓶颈。

内存访问延迟

从 L1 缓存中读取数据大约需要 0.5 纳秒。
从 L2 缓存中读取数据大约需要 7 纳秒。
从 L3 缓存中读取数据大约需要 100 纳秒。
从主内存中读取数据大约需要 100 纳秒。当 CPU 需要访问数据时，它首先检查各级缓存（L1、L2 和 L3）。如果所需数据不在缓存中，CPU 则需要访问主内存。了解访问各级缓存和主内存的延迟对于识别和优化算法性能至关重要。

磁盘延迟

从固态硬盘（SSD）读取数据大约需要 20-100 微秒（µs）。
从传统硬盘驱动器（HDD）读取数据大约需要 1-10 毫秒（ms）。磁盘延迟是指从磁盘中读取或写入数据所需的时间。了解磁盘延迟有助于在处理大量数据时了解存储系统的性能瓶颈。

网络延迟

同一数据中心内的往返延迟（RTT）大约为 0.5 毫秒。
跨洲际光缆的往返延迟大约为 150 毫秒。网络延迟是指数据在网络中传输所需的时间。了解网络延迟有助于在开发分布式系统和优化网络通信时预测性能。

FLOPs 和 AI 训练

一个 NVIDIA A100 GPU（英伟达A100图形处理器）可以提供每秒约 312 万亿次浮点运算（TFLOPs）。
训练 GPT-3 模型需要约 3.14 * 10^23 次浮点运算。 FLOPs（每秒浮点运算次数）是衡量处理器性能的一个常用指标，特别是在 AI 训练和高性能计算领域。了解处理器的 FLOPs 数量和训练模型所需的 FLOPs 数量有助于评估训练时间和硬件需求。

许可

这些数据遵循 CC0 1.0 协议。您可以自由地复制、修改、发布和使用这些数据，无需获取许可或支付费用。然而，我们鼓励您在使用这些数据时，引用这个存储库以便其他人可以找到这些资源。

项目地址

https://github.com/ray-project/llm-numbers

标签：缓存,数值数据,公开,训练,读取数据,LLM,数据,CPU,延迟
From： https://blog.51cto.com/u_15349018/6315308

LLMs Fine-tuning 学习笔记（一）：trl+peft
目录1基本信息2实现步骤3代码分析1基本信息From：Fine-tuning20BLLMswithRLHFona24GBconsumerGPU(huggingface.co)Codes：trl/examples/sentiment/scripts/gpt-neox-20b_peftatmain·lvwerra/trl·GitHub相关工具：peft：用于微调大模型的python库官方文档：htt......
开源AI聊天机器人MLC LLM发布可用于多个平台
目前大多数AI聊天机器人都需要连接到云端进行处理，即使可以本地运行的也配置要求极高。那么是否有轻量化的、无需联网的聊天机器人呢？一个名为MLCLLM的全新开源项目已在GitHub上线，完全本地运行无需联网，甚至集显老电脑、苹果iPhone手机都能运行。MLCLLM项目介绍称......
开源AI聊天机器人MLC LLM发布可用于多个平台
目前大多数AI聊天机器人都需要连接到云端进行处理，即使可以本地运行的也配置要求极高。那么是否有轻量化的、无需联网的聊天机器人呢？一个名为MLCLLM的全新开源项目已在GitHub上线，完全本地运行无需联网，甚至集显老电脑、苹果iPhone手机都能运行。MLCLLM项目介绍称......
开源AI聊天机器人MLC LLM发布可用于多个平台
目前大多数AI聊天机器人都需要连接到云端进行处理，即使可以本地运行的也配置要求极高。那么是否有轻量化的、无需联网的聊天机器人呢？一个名为MLCLLM的全新开源项目已在GitHub上线，完全本地运行无需联网，甚至集显老电脑、苹果iPhone手机都能运行。MLCLLM项目介绍称......
AutoGPT与LLM Agent解析
前两周AutoGPT，BabyAGI等项目异常火爆，周末也正好花了点时间来看了下这些AIagent类项目的代码，写篇文章来总结一下对于当前这类项目进展的技术角度认识和思考，与大家一同交流。从语言理解到任务执行之前大多相关项目和产品都主要利用了GPT模型的语言理解方面的能力，例如生成文......
Stream流anyMatch，allMatch，noneMatch
publicclassActor{privateStringname;privateintage;privateList<Person>personList=newArrayList<Person>();publicStringgetName(){returnname;}publicvoidsetName(Stringname){this.na......
C#使用词嵌入向量与向量数据库为大语言模型(LLM)赋能长期记忆实现私域问答机器人落地
本文将探讨如何使用c#开发基于大语言模型的私域聊天机器人落地。大语言模型（LargeLanguageModel，LLM这里主要以chatgpt为代表的的文本生成式人工智能）是一种利用深度学习方法训练的能够生成人类语言的模型。这种模型可以处理大量的文本数据，并学习从中获得的模式，以预测在给定的......
LLM as Controller：AI操作系统之源
受到HuggingGPT、VisualChatGPT、AutoGPT等项目的启发，本文试图从LLMasController的统一视角来看LLM的能力边界。LLMasController我认为ChatGPT、GPT-4等LLM模型最强的能力其实是语言理解力，咱不需要让一个LLM做任何事情，只需要它能够准确无误的理解人类说的语言，再按照人类的......
公开需求题目小艺的英文名控制台程序
效果控制台程序1usingSystem;2usingSystem.Collections.Generic;3usingSystem.Linq;4usingSystem.Text;5usingSystem.Threading.Tasks;67namespaceConsoleBusinessTemplate20234ZQK8{9internalclassProgram10{......
jenkins 杀掉衍生进程解决办法。BUILD_ID=DontKillMe
jenkins杀掉衍生进程解决办法1.使用的场景在构建任务的同时，需要启动程序在构建任务运行的时候，exe程序正常运行，而构建任务完成后exe程序也同时关闭掉。 2.如果要解决构建任务后，exe程序还继续运行。需要在，设置的全局属性，添加BUILD_ID=DontKillMe后，再次构建的时候，就可以解......

用于 LLM 的公开的数值数据

用于 LLM 的公开的数值数据

数据来源

数据格式

如何使用这些数据

LLM 开发者应知的数字

内容列表

CPU 时钟周期

内存访问延迟

磁盘延迟

网络延迟

FLOPs 和 AI 训练

许可

项目地址

相关文章

赞助商

阅读排行