论文速读记录 - 202410

时间：2024-10-31 22:19:36浏览次数：4

标签：检索速读模型论文 202410 Epoch 拟合上下文

坚持看论文不容易啊，十月也是多事之秋。看的论文有点少，也有点散，还是要专注一些具体的方向，梳理脉络，整理方案，才是看论文找解决方案的正确思路。

以后的每篇论文解读的后面，会附带一点个人看法/评论，如有冒犯还请见谅。

LATE CHUNKING: CONTEXTUAL CHUNK EMBEDDINGS USING LONG-CONTEXT EMBEDDING MODELS

【RAG中生成文本块向量的“迟分”策略】
Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction
【CTR模型训练时的One-Epoch过拟合现象】
DIFFERENTIAL TRANSFORMER
【改造注意力模块使模型更关注关键信息！】
Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection
【通过稀疏上下文选择加速RAG】

LATE CHUNKING: CONTEXTUAL CHUNK EMBEDDINGS USING LONG-CONTEXT EMBEDDING MODELS

https://arxiv.org/pdf/2409.04701，2024 Jina AI.

论文的思路很简单。

构建RAG系统时，通常会对文本进行分块，检索时也以文本块为粒度进行检索和利用，因此也会对文本块进行向量化处理。按块进行向量化也能避免信息被过度压缩。在传统的“naive chunking”方法中，文本被预先分割成小块，然后分别进行向量化，这可能导致上下文信息的丢失。关于先对长文本分块再逐个向量化的一个缺点：

论文介绍了一种名为“late chunking”的新方法，用于改善长文本的文本块嵌入。late chunking利用长上下文嵌入模型先获取长文本中所有token的向量，然后在token向量的基础上进行分块并池化得到分块的向量。

传统分块后向量化和迟分策略向量化的对比：

浅评：

整体想法还是比较直接、可行的，但是可能对Embedding Model要求更高了，需要能处理更长的输入。

Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction

https://arxiv.org/pdf/2407.01607，2024 Kuaishou

这篇论文探讨了在CTR模型中普遍存在的“One-Epoch”现象（可以参考阿里发表的论文《Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models》），即模型在第二个epoch开始时性能显著下降（发生过拟合），泛化能力变差。

论文分析了One-Epoch中的过拟合问题，发现主要由于数据的稀疏性导致的，主要有两个方面：

Embedging-Data之间的依赖。数据稀疏通常指离散特征存在长尾问题。由于数据的稀疏性，嵌入向量更容易过拟合，更容易拟合高频而欠拟合低频数据，导致模型在新数据上的泛化能力下降。
Embedding-MLP之间的依赖。由于数据的高维稀疏性，嵌入层生成的向量作为MLP的输入时，可能无法充分表达原始数据的所有信息，这导致MLP层在学习时可能过度依赖嵌入层的输出。

为了解决One-Epoch问题，论文提出了Multi-Epoch learning with Data Augmentation（MDEA）方法。MEDA通过减少嵌入层对训练数据或MLP层的依赖，以及通过在不同的嵌入空间中训练MLP来实现数据增强。MEDA的做法看起来很简单：每个epoch开始时重新初始化嵌入层的参数。

浅评。

训练CTR模型或者打分模型时这种One-Epoch现象还是比较常见的（当然不一定只是一个epoch），很多时候可能两三个epoch以内就收敛或者出现过拟合现象了。有必要审视一下什么是过拟合。简单的讲，当训练时在训练集损失持续下降而测试集损失开始上升时可以认为出现了过拟合。从模型参数的角度出发又该怎么理解过拟合呢？这篇论文分析One-Epoch现象时的观点挺好的：模型参数过度拟合了训练数据。当然，过度拟合训练数据的原因可能是多样的，比如数据单一、任务简单、模型参数过多。以数据稀疏性为例，这是普遍存在的一个问题。离散特征通常存在长尾问题，一个离散特征的某个取值占据了大头，其他很多取值的样本数量过少。这种情况下模型主要在学习高频类别的嵌入，中低频的嵌入学习的不太充分，也就导致了：高频类别的嵌入更新较多，但也过度拟合了训练数据，中低频的更新较少出现了欠拟合的现象。看来，数据稀疏导致的过拟合问题中不仅有过拟合还伴随着某些参数的欠拟合。过拟合虽然是很常见的一个问题，但是实际中导致该问题的原因还是挺多的，实践中还是要好好分析啊（有时间一定好好分析！
标签：检索,速读,模型,论文,202410,Epoch,拟合,上下文
From： https://www.cnblogs.com/gzyatcnblogs/p/18519035

论文阅读Nature：Detecting hallucinations in large language models using semantic e
论文阅读-Nature：Detectinghallucinationsinlargelanguagemodelsusingsemanticentropy（使用语义熵来检测大模型中的幻觉）作者：SebastianFarquhar,JannikKossen,LorenzKuhn&YarinGal单位：牛津大学，计算机科学学院，OATML实验室期刊：Nature时间线：2023年7月提交→......
(开题报告)django+vue高校OA系统论文+源码
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容一、选题背景关于高校OA系统的研究，现有研究主要集中在传统开发技术或单一功能模块的优化上。在国内外，虽然OA系统已广泛应用于企业等领域，但专门针对......
python+flask计算机毕业设计共享汽车租赁系统的设计与实现（程序+开题+论文）
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容一、选题背景关于共享汽车租赁系统的研究，现有研究多侧重于传统汽车租赁业务的数字化转型，主要以提升租车流程的效率和便捷性为主。专门针对共享汽车......
(开题报告)django+vuejavaweb学生宿舍管理系统论文+源码
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容一、选题背景关于学生宿舍管理系统的研究，现有研究多集中于传统管理模式或单一功能模块的实现。在国内外，传统的学生宿舍管理方式主要依赖人工操作，效......
java+vue计算机毕设高校党建管理平台设计与现实-以西藏民族大学为例【开题+程序+论文+
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展，高校党建工作面临着新的机遇与挑战。特别是在西藏民族大学这样的特殊地域环境中，如何有效管理和推进党建工作，成为了一个亟待解......
【郑州轻工业大学毕业论文】基于Spring Boot的乡村公益助老平台开发
注：仅展示部分文档内容和系统截图，需要完整的视频、代码、文章和安装调试环境请私信up主。基于SpringBoot的乡村公益助老平台开发摘要随着中国改革开放近四十年的卓越发展，人们越来越重视自身步入老年阶段的社会福利问题。但是我国在大众养老服务阶段尚处于起步开发......
国际“论”剑！天翼云数据库论文被EDBT收录！
近日，由天翼云数据库团队、中国电信云计算研究院和深圳北理莫斯科大学合作完成的《Taste:TowardsPracticalDeepLearning-basedApproachesforSemanticTypeDetectionintheCloud》（构建云上基于深度学习的大规模语义类型识别系统）论文被28thInternationalConferenceonEx......
20241031模拟赛题解
T1题目描述给定一个圆形蛋糕，被\(n\)条切割线分成\(n\)个扇形蛋糕块，按照顺时针编号，第\(i\)块上有\(a_i\)个草莓，第\(i\)条切割线到第\(i+1\)条切割线之间的部分是第\(i\)块蛋糕。Alice和Bob流选择切割线，假设Alice选择了第\(i\)条切割线，Bob选择了第\(j\)条......
java+vue计算机毕设冬季供热有限公司网站建设【开题+程序+论文+源码】
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着冬季气温的逐渐降低，供热服务成为了城市居民生活中不可或缺的一部分。冬季供热有限公司作为城市供热的主要提供者，承担着保障居民温暖过冬的重要职......
java+vue计算机毕设第二课堂学分认定系统【开题+程序+论文+源码】
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景在高等教育日益重视综合素质培养的今天，第二课堂作为第一课堂的有效补充，其在拓宽学生知识面、提升实践能力、增强综合素质等方面发挥着不可替代的作用......

论文速读记录 - 202410

LATE CHUNKING: CONTEXTUAL CHUNK EMBEDDINGS USING LONG-CONTEXT EMBEDDING MODELS

Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction

相关文章

赞助商

阅读排行