首页 > 其他分享 >如何利用1%的数据优化特定领域LLM预训练? | EMNLP'24

如何利用1%的数据优化特定领域LLM预训练? | EMNLP'24

时间:2024-11-15 09:19:22浏览次数:1  
标签:24 词汇 示例 text 目标 1% gram LLM feat

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Target-Aware Language Modeling via Granular Data Sampling

创新点


  • 提出了一种将预先训练好的标记符与多粒度标记符合并的算法,生成高效的n-gram特征,而且与下游任务的性能有很高的相关性。
  • 利用上述研究成果,改进了基于重要性的数据采样技术,将通用词汇集调整为目标词汇集。这样就能更好地代表数据,提高模型在目标任务中的性能,同时在非目标任务中保持良好的性能。

内容概述


语言模型的预训练通常针对广泛的使用场景,并结合来自多种来源的数据。然而,有时模型需要在特定领域中表现良好,同时又不影响其他领域的性能。这就需要使用数据选择方法来确定潜在核心数据,以及如何有效地对这些选定数据进行抽样训练。

论文使用由多粒度标记组成的n-gram特征进行重要性抽样,这在句子压缩和表征能力之间取得了良好的平衡。抽样得到的数据与目标下游任务性能之间有很高的相关性,同时保留了其在其他任务上的有效性,使得语言模型可以在选定文档上更高效地进行预训练。

在八个基准测试中,在使用约1%的数据时,预训练模型的表现与完整的RefinedWeb数据相当,并且在模型规模范围为125M1.5B时,超越了随机选择的样本。

方法


从大规模数据集(如RefinedWeb)中选择样本是缓慢且昂贵的,一个可行的解决方案是使用容易计算的n-gram特征将每个文档编码为向量。

假设从目标分布 \(p\) 中获取了一小部分目标文本示例 \(D_{task}\) ,以及从分布 \(q\) 中获取的大量原始数据集 \(D_{raw}\) ,其中包含 \(N\) 个示例,目标是从原始数据集中选择 \(k\) 个示例( \(k \ll N\) ),这些示例与目标相似。

重要性采样

重要性采样技术选择与目标分布对齐的示例,为每个文本提供可处理的重要性估计,并在提供必要结构的特征空间 \({\mathbb{Z}}\) 上应用重要性采样。

特征提取器 \(h: {\mathbb{X}} \rightarrow {\mathbb{Z}}\) 用于转换输入为特征,得到的原始特征分布 \(q_{\text{feat}}\) 和目标特征分布 \(p_{\text{feat}}\) ,目标是选择特征与目标特征分布 \(p_{\text{feat}}\) 对齐的数据。

为了提取特征 \(q_{\text{feat}}\) 和 \(p_{\text{feat}}\),从每个分词文档中提取n-grams。每个n-gram被映射到哈希表中的一个键,每个键映射到n-gram计数。将从 \(N\) 个原始示例中获得的每个特征 \(z_i = h(x_i)\) 计算重要性权重,权重为 \(w_i = \frac{\hat{p}_{\text{feat}}(z_i)}{\hat{q}_{\text{feat}}(z_i)}\) 。

最后进行采样,从一个分布中选择 \(k\) 个示例,且不进行替换,其概率由 \(\frac{w_i}{\sum_{i=1}^N w_i}\) 给出。

分词器适配

为了推导目标词汇 \(V(t)\) ,使用Llama-3分词器的词汇 \(V_{start}\) 作为起点,并将 \(V_{start}\) 与从任务数据 \(D_{task}\) 中学习到的 \(V_{task}\) 合并。在构建 \(V_{task}\) 时,确保包含多粒度的标记(即单词和多词组合),然后将 \(V_{task}\) 与 \(V_{start}\) 合并形成 \(v(t - 1)\) 。

接下来,逐步从 \(v(t - 1)\) 中移除标记,以获得 \(v(t)\) ,在此过程中,最小化与原始词汇集的距离,以便提取更少偏倚的文档特征作为n-gram向量。

首先定义一个度量来衡量语料库中词汇集的质量,然后通过最大化词汇效用度量 ( \(\mathcal{H}_{v}\) ) 来学习最佳词汇,该度量的计算公式为:

\[\begin{equation} \mathcal{H}_{v} = - \frac{1}{l_{v}}\sum_{j \in v } P(j)\log P(j), \end{equation} \]

其中, \(P(j)\) 是来自目标数据的标记 \(j\) 的相对频率,而 \(l_{v}\) 是词汇 \(v\) 中标记的平均长度。对于任何词汇,其熵得分 \(\mathcal{H}_{v}\) 基于其前一步的词汇进行计算,优化问题可以表述为:

\[\begin{equation} \text{arg\ min}_{v(t-1), v(t)} \big [ \mathcal{H}{v(t)} - \mathcal{H}{v(t-1)} \big ] \end{equation} \]

其中, \(v(t)\) 和 \(v(t - 1)\) 是包含所有词汇的两个集合,大小的上限分别为 \(|v(t)|\) 和 \(|v(t - 1)|\) 。设置 \(|v(t)| = 10k\) ,其中 \(t=10\) ,而 \(|v(0)|\) 是默认的Llama-3 tokenizer的词汇大小。

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

标签:24,词汇,示例,text,目标,1%,gram,LLM,feat
From: https://www.cnblogs.com/VincentLee/p/18547334

相关文章

  • Brave127编译指南 Windows篇:部署Node.js(五)
    1.概述在Brave浏览器的编译过程中,Node.js扮演着关键角色。作为一个建立在ChromeV8引擎之上的JavaScript运行时环境,Node.js为开发者提供了在服务器端执行JavaScript代码的能力。它的非阻塞、事件驱动架构使其特别适合构建高性能、可扩展的网络应用。对于Brave浏览器的开发而......
  • [oeasy]python0041_输出ASCII码表_英文字符编码_键盘字符_ISO_646
    输出ASCII码表_英文字符编码_键盘字符_ISO_646回忆上次内容上次输出了从0到122序号对应的所有字符 fornuminrange(123):print(num,chr(num),sep=":")字符类型包括数字大小写字母符号   添加图片注释,不超过14......
  • GB 9706.1-2020医疗器械安规测试项目有哪些?
    医疗器械安规测试项目包括以下几项:1、结构检查与测试:测试设备的结构是否符合标准要求,包括各个部件的连接、固定、防护等。2、电源电压适应性:测试设备在规定范围内的电源电压下是否能正常工作。3、绝缘电阻:测试设备的绝缘材料电阻值是否符合标准要求,以避免电流泄漏和电击......
  • 1day未公开EyouCMS文件包含RCE漏洞 新接口
     0x01产品概述    1day未公开EyouCMS文件包含RCE漏洞 新接口用描述管理和发布于一体的智能化平台,广泛应用于新闻、媒体和各类内容创作机构。该平台支持多终端、多渠道的内容分发,具备素材管理、编辑加工、智能审核等功能,通过AI技术辅助内容创作与数据分析,提升内容......
  • LCR 016. 无重复字符的最长子串(中等)(主站3)
    https://leetcode.cn/problems/wtcaE1/https://leetcode.cn/problems/longest-substring-without-repeating-characters/难度:☆☆☆题目:给定一个字符串s,请你找出其中不含有重复字符的最长连续子字符串的长度。示例:输入:s=“abcabcbb”输出:3输入:s=“b......
  • ArkUI进阶-1
    文章目录ArkUI(方舟UI框架)1.简介2.基本概念3.概述4.布局1.概述2.通用布局属性1.盒子属性2.背景属性3.定位属性4.通用属性3.线性布局(Row,Column)4.弹性布局(Flex)5.层叠布局(Stack)6.轮播(Swiper)......
  • 惊爆!72.1K star 的 Netdata:实时监控与可视化的超炫神器!
    在当今复杂的IT环境中,实时监控与可视化对于保障系统的稳定运行和性能优化至关重要。无论是服务器、应用程序,还是网络设备,及时获取性能数据能够帮助我们快速定位问题、优化资源配置。Netdata,作为一个开源的实时监控工具,正是为此而生。Netdata不仅是一个轻量级的监控与可视化平......
  • 题解:P11277 世界沉睡童话
    比较简单的构造。注意到题面给出\(a_i\le2n-1\)的条件,考虑这个有什么用,你会发现从\(n\)到\(2n-1\)这\(n\)个数都是两两互不为约数,所以当我们构造出序列后,这些数可以用来填补空位。\(k\)的上界是\(\frac{n(n-1)}{2}\),显然在全部都为同一个数的时候取到,显然有\(x\)个......
  • 【全网最全】2024年亚太赛数学建模C题论文分享(点赞收藏下,后续会更新)
     您的点赞收藏是我继续更新的最大动力!一定要点击文末的卡片,那是获取资料的入口!针对中国新能源汽车发展趋势的分析摘 要中国新能源电动汽车在近年来取得了快速发展,并成为中国的标志性产业之一。本文围绕新能源电动汽车的发展,提出了六个问题,并提供了对应的分析和数学建模......
  • 光伏场地建设规划 E100
    题目描述祖国西北部有一片大片荒地,其中零星的分布着一些湖泊,保护区,矿区;整体上常年光照良好,但是也有一些地区光照不太好。某电力公司希望在这里建设多个光伏电站,生产清洁能源,对每平方公里的土地进行了发电评估,其中不能建设的区域发电量为0kw,可以发电的区域根据光照,地形等......