首页 > 其他分享 >A Taxonomy for Data Contamination in Large Language Models

A Taxonomy for Data Contamination in Large Language Models

时间:2024-10-10 10:53:06浏览次数:9  
标签:Language Models Taxonomy 语料库 摘要 案例 污染 问答 模型

本文是LLM系列文章,针对《A Taxonomy for Data Contamination in Large Language Models》的翻译。

大型语言模型中数据污染的分类法

摘要

在广泛的 Web 语料库上预训练的大型语言模型在各种下游任务中表现出卓越的性能。然而,人们越来越担心数据污染,其中评估数据集可能包含在预训练语料库中,从而夸大了模型性能。去污,即检测和删除此类数据的过程,是一种潜在的解决方案;然而,这些污染物可能来自测试集的更改版本,在净化过程中逃避检测。不同类型的污染如何影响语言模型在下游任务上的性能尚不完全清楚。我们提出了一个分类法,对 LLM 在预训练阶段遇到的各种类型的污染进行分类,并确定哪些类型构成最高风险。我们分析了污染对两个关键 NLP 任务(总结和问答)的影响,揭示了不同类型的污染如何影响评估过程中的任务性能。

1 引言

2 分类

3 方法

4 案例研究:摘要

5 案例研究:问答

6 分析

7 结论

我们的分析强调了数据格式的重要性,当预训练数据

标签:Language,Models,Taxonomy,语料库,摘要,案例,污染,问答,模型
From: https://blog.csdn.net/c_cpp_csharp/article/details/142779355

相关文章

  • 【FPGA开发】Modelsim仿真精度的坑
    问题所在    最近在使用黑金的AXU3EG板卡对着正点原子ZYNQ7020的例程进行移植学习。但在编写tb代码以及使用modelsim进行仿真时出了问题,发现我的实际波形与正点的对不上,仔细测量一下波形发现,我的系统时钟是6ns周期,而不是理想中的5ns周期,这才想到,正点的板子用的是50M......
  • Long-Sequence Recommendation Models Need Decoupled Embeddings
    目录概DecoupledAttentionandRepresentationEmbeddings(DARE)modelFengN.,PangJ.,WuJ.,ChenB.,WangX.,LiQ.,HuX.,JiangJ.andLongM.Long-sequencerecommendationmodelsneeddecoupledembeddings.2024.概通过embedding选择短序列,最好从一个......
  • 自然语言处理之话题建模:Neural Topic Models:神经主题模型的未来趋势与研究方向_
    自然语言处理之话题建模:NeuralTopicModels:神经主题模型的未来趋势与研究方向引言话题建模的定义与重要性话题建模是一种统计建模技术,用于发现文档集合或语料库中隐藏的主题结构。在自然语言处理(NLP)领域,话题建模被广泛应用于文本挖掘、信息检索、文本分类和推荐系统等......
  • CS 839: FOUNDATION MODELS
    CS839:FOUNDATIONMODELSHOMEWORK1Instructions:Readthetwoproblemsbelow.TypeupyourresultsandincludeyourplotsinLaTeX.Submityouranswersintwoweeks(i.e.,Oct.32024,endofday).Youwillneedamachineforthisassignment,butalapto......
  • 论文解读《MASTERKEY: Automated Jailbreaking of Large Language Model Chatbots》
    导言​ 在参加东南大学网络安全学院夏令营的契机下,我第一次接触大模型安全领域。L老师是网络安全领域的一位大牛,在和L老师交流期间,被告知需要准备一次paperpresentation介绍四大会中感兴趣的一篇文章,我选择了汇报这篇来自NDSS2024的《MASTERKEY:AutomatedJailbreakingofLarg......
  • 【FPGA开发】一文轻松入门Modelsim的简单操作
    Modelsim仿真的步骤    (1)创建新的工程。    (2)在弹出的窗口中,确定项目名和工作路径,库保持为work不变。    (3)添加已经存在的文件(rtl代码和tb代码)。    如果这里关闭后,还想继续添加,也可以直接在界面空白处右键进行添加。    加错......
  • Explicit Inductive Inference using Large Language Models
    本文是LLM系列文章,针对《ExplicitInductiveInferenceusingLargeLanguageModels》的翻译。使用大型语言模型进行显式归纳推理摘要1引言2相关工作3显示归纳推理4实验设置5结果和讨论6结论局限性摘要据报道,大型语言模型(LLM)在推理任务上存在不......
  • A Closer Look into Mixture-of-Experts in Large Language Models
    本文是LLM系列文章,针对《ACloserLookintoMixture-of-ExpertsinLargeLanguageModels》的翻译。仔细研究大型语言模型中的专家混合摘要1引言2前言:混合专家3概述4静态参数分析5动态行为分析6讨论7相关工作8结论9局限性摘要专家混合(MoE)因其......
  • LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models
    本文是LLM系列文章,针对《LogParser-LLM:AdvancingEfficientLogParsingwithLargeLanguageModels》的翻译。LogParser-LLM:利用大型语言模型推进高效日志解析摘要1引言2相关工作和动机3日志解析粒度4方法5实验6结论摘要日志是无处不在的数字足迹......
  • Pruning Large Language Models with Semi-Structural Adaptive Sparse Training
    本文是LLM系列文章,针对《PruningLargeLanguageModelswithSemi-StructuralAdaptiveSparseTraining》的翻译。通过半结构化自适应稀疏训练修剪大型语言模型摘要1引言2相关工作3方法4实验5结论摘要大型语言模型(LLM)在各种复杂任务中的巨大成功在很......