首页 > 其他分享 >LLAMA3.1数据处理

LLAMA3.1数据处理

时间:2024-07-25 23:50:41浏览次数:12  
标签:分数 基于 示例 LLAMA3.1 Llama 数据处理 数据 我们

4.2.3数据处理和质量控制
鉴于我们的大部分训练数据都是模型生成的,因此需要仔细清理和质量控制。
数据清理。在早期阶段,我们观察到数据中常见的一些不良模式,例如过度使用表情符号或感叹号。因此,我们实施了一系列基于规则的数据删除和修改策略来过滤或清理有问题的数据。例如,为了减轻过度道歉的语气问题,我们识别了过度使用的短语(如“对不起”或“我道歉”),并仔细平衡了数据集中此类样本的比例。
数据修剪。我们还应用了一系列基于模型的技术来删除低质量的训练样本,并提高整体模型性能:
•主题分类:我们首先将Llama 3 8B微调为主题分类器,并对所有数据进行推理,将其分为粗粒度桶(“数学推理”)和细粒度桶(“几何和三角学”)。
•质量评分:我们使用奖励模型和基于Llama的信号来获得每个样本的质量评分。对于基于RM的分数,我们认为RM分数前四分之一的数据质量很高。
对于基于Llama的分数,我们提示Llama 3检查点对每个样本进行三分制评分,用于一般英语数据(准确性、指令遵循和音调/表达)和两点制评分
对于编码数据(Bug识别和用户意图),并将获得最高分数的样本视为高质量。基于RM和Llama的分数有很高的不一致率,我们发现将这些信号组合在一起,可以在我们的内部测试集上获得最佳的召回率。最终,我们选择被RM或基于Llama的过滤器标记为高质量的示例。
•难度评分:因为我们也有兴趣对模型中更复杂的例子进行优先级排序,所以我们使用两种难度指标对数据进行评分:Instag(Lu等人,2023)和基于Llama的;对于Instag,我们提示Llama 3 70B对SFT提示进行意图标记,其中更多的意图意味着更复杂。我们还提示Llama 3用三分制来衡量对话的难度(Liu等人,2024c)。
•语义去重:最后,我们执行语义去重(Abbas等人,2023;Liu等人,2024c)。我们首先使用RoBERTa(Liu等人,2019b)在每个集群内完成对话
按质量分数×难度分数进行排序。然后,我们通过迭代所有排序的示例来进行贪婪选择,并且只保留与集群中迄今为止看到的示例具有最大余弦相似性的示例小于阈值的示例。

标签:分数,基于,示例,LLAMA3.1,Llama,数据处理,数据,我们
From: https://www.cnblogs.com/end/p/18324376

相关文章

  • 只需3步:教你如何在本地环境运行llama3.1
    今天,跟大家分享一下,如何在自己电脑上使用到最新的llama3.1大模型。直接上教程:1,访问这个地址:https://ollama.com/点击“Download”,进入下载页面。此时,你会看到下面这个页面,根据实际情况选择下载版本,我这里是选择的windows版本。安装包下载好之后,进行安装。2,下载安装......
  • 教你轻松本地电脑部署最新Llama3.1,搭建免费本地大模型助手
    ......
  • Llama3.1以405B参数领先GPT-4o
    Llama3.1以405B参数规模领先GPT-4o,并在多项基准测试中展现出强大的性能,尤其是在通用常识、可操纵性、数学、工具使用和多语言翻译等方面。Llama3.1的参数规模和性能参数规模Llama3.1系列模型包括8B、70B和405B三种参数规模,其中405B模型包含4050亿个参数,是近年来规模最大LLM......
  • pandas数据处理几个数据合并方法的区别
     以下是在Python中的Pandas中进行合并、连接和连接的不同方式和方法:PythonPandas中的DataFrameconcat()concat() 函数负责执行沿轴的连接操作的所有繁重工作,同时对其他轴上的索引(如果有)执行可选的集合逻辑(并集或交集)。在此示例中,创建了三个具有相同的列但不同索引的DataFr......
  • 重测序数据处理得到vcf文件
    重测序数据处理得到vcf文件文章目录重测序数据处理前言1.数据是rawdata,需用fastp对数据进行质控和过滤2.利用getorganelle软件组装叶绿体基因组3.检查基因组大小,确认是否完整,然后和已知的红毛菜科叶绿体基因组一起构树4.根据树形结果挑选坛紫菜个体,为了后续分析方......
  • AI - 数据处理 - fit、transform、fit_transform 区别
    总结fit_transform=fit+transform的组合,整个过程既包括了训练又包含了转换。fit_transform对数据先拟合fit,找到数据的整体指标,如均值、方差、最大值最小值等,然后对数据集进行转换transform,从而实现数据的标准化、归一化操作。如果要想在fit_transform的过程中查看数......
  • 数据处理
    数据处理:主要利用的库importnumpyasnpimportpandasaspd函数的使用:1.读取:path="路径"c=pd.read_csv(path,sep="")参数sep是数据的分割符号,如果不输入在读取csv文件中将默认为“,”返回的内容是属于pandas库的特殊数据类型DataFrame。在读取过程中,该函数会根据......
  • 激光雷达数据处理
    激光雷达技术以其高精度、高效率的特点,已经成为地表特征获取、地形建模、环境监测等领域的重要工具。掌握激光雷达数据处理技能,不仅可以提升工作效率,还能够有效提高数据的质量和准确性,为决策提供可靠的数据支持。随着激光雷达技术在地理信息系统(GIS)、遥感和测绘领域的广泛应用......
  • 学习数据处理的三要点
    (只是用MapReduce举例,只要是数据处理任何工具都可以从这三点去学习 ) 用MapReduce做数据分析处理或统计等这类和数据进行交互处理的编程计算可简单归纳出几个要点:1.弄清要处理的数据进行程序的结构首先第一个要弄清楚的就是你的程序读取进来的数据是什么样子的,是什么......
  • Java中的流式数据处理与Apache Flink应用
    Java中的流式数据处理与ApacheFlink应用大家好,我是微赚淘客系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿!今天,我们将探讨如何使用Java与ApacheFlink进行流式数据处理。ApacheFlink是一个开源的流处理框架,支持大规模数据流的实时处理和分析。它以其高性能、低延迟和强大......