4.2.3数据处理和质量控制
鉴于我们的大部分训练数据都是模型生成的,因此需要仔细清理和质量控制。
数据清理。在早期阶段,我们观察到数据中常见的一些不良模式,例如过度使用表情符号或感叹号。因此,我们实施了一系列基于规则的数据删除和修改策略来过滤或清理有问题的数据。例如,为了减轻过度道歉的语气问题,我们识别了过度使用的短语(如“对不起”或“我道歉”),并仔细平衡了数据集中此类样本的比例。
数据修剪。我们还应用了一系列基于模型的技术来删除低质量的训练样本,并提高整体模型性能:
•主题分类:我们首先将Llama 3 8B微调为主题分类器,并对所有数据进行推理,将其分为粗粒度桶(“数学推理”)和细粒度桶(“几何和三角学”)。
•质量评分:我们使用奖励模型和基于Llama的信号来获得每个样本的质量评分。对于基于RM的分数,我们认为RM分数前四分之一的数据质量很高。
对于基于Llama的分数,我们提示Llama 3检查点对每个样本进行三分制评分,用于一般英语数据(准确性、指令遵循和音调/表达)和两点制评分
对于编码数据(Bug识别和用户意图),并将获得最高分数的样本视为高质量。基于RM和Llama的分数有很高的不一致率,我们发现将这些信号组合在一起,可以在我们的内部测试集上获得最佳的召回率。最终,我们选择被RM或基于Llama的过滤器标记为高质量的示例。
•难度评分:因为我们也有兴趣对模型中更复杂的例子进行优先级排序,所以我们使用两种难度指标对数据进行评分:Instag(Lu等人,2023)和基于Llama的;对于Instag,我们提示Llama 3 70B对SFT提示进行意图标记,其中更多的意图意味着更复杂。我们还提示Llama 3用三分制来衡量对话的难度(Liu等人,2024c)。
•语义去重:最后,我们执行语义去重(Abbas等人,2023;Liu等人,2024c)。我们首先使用RoBERTa(Liu等人,2019b)在每个集群内完成对话
按质量分数×难度分数进行排序。然后,我们通过迭代所有排序的示例来进行贪婪选择,并且只保留与集群中迄今为止看到的示例具有最大余弦相似性的示例小于阈值的示例。