首页 > 其他分享 >NoteLLM论文阅读笔记

NoteLLM论文阅读笔记

时间:2024-08-27 20:16:09浏览次数:10  
标签:标签 论文 笔记 生成 I2I LLM NoteLLM

NoteLLM: A Retrievable Large Language Model for Note Recommendation论文阅读笔记

Abstract

存在的问题:

​ 现有的在线方法只是将笔记输入基于 BERT 的模型,生成用于评估相似性的笔记嵌入。然而,它们可能没有充分利用一些重要的线索,例如代表笔记关键概念的标签或类别。事实上,学习生成标签/类别有可能增强笔记嵌入,这两种方法都能将关键笔记信息压缩到有限的内容中。此外,大型语言模型(LLM)在理解自然语言方面的表现明显优于 BERT。在笔记推荐中引入 LLM 是大有可为的。

提出方法:

​ 在本文中,我们提出了一个新颖的统一框架,称为笔记语言模型(NoteLLM),它利用 LLMs 来解决项对项(I2I)笔记推荐问题。具体来说,我们利用 “笔记压缩提示”(Note Compression Prompt)将笔记压缩成一个特殊标记,并通过对比学习法进一步学习潜在相关笔记的嵌入。此外,我们还利用 NoteLLM 对笔记进行总结,并通过指令调整自动生成标签/类别。

Introduction

​ 项对项(I2I)笔记推荐是从数百万级笔记库中检索用户可能感兴趣的笔记的经典方法。给定目标笔记后,I2I 方法会根据内容或协作信号选择相关笔记

​ 现有的在线 I2I 笔记推荐方法通常是将整个笔记内容输入基于 BERT 的模型以生成笔记的嵌入,并根据嵌入的相似性推荐相关笔记。然而,这些方法只是将标签/分类作为笔记内容的一个组成部分,没有充分利用其潜力。如图 1 所示,标签/类别(如 # 新加坡)代表了笔记的中心思想,是判断两篇笔记是否包含相关内容的关键。事实上,我们发现生成标签/分类与生成笔记嵌入相似。两者都是将关键笔记信息压缩到有限的内容中。因此,学习生成标签/类别有可能提高嵌入的质量。此外,大型语言模型(LLM)最近在自然语言和推荐方面展现出了强大的能力。然而,目前还很少有研究调查 LLM 在 I2I 推荐中的应用。利用 LLMs 改进 I2I 注释推荐具有相当大的前景。

​ 受上述启发,我们在本文中提出了一种名为 NoteLLM 的统一多任务方法。基于 LLM,NoteLLM 从 I2I 笔记推荐任务和标签/分类生成任务中学习,旨在通过学习提取浓缩概念来增强 I2I 笔记推荐能力。具体来说,我们首先为每个笔记样本构建统一的笔记压缩提示,然后通过预先训练好的 LLM(如 LLaMA 2 )进行解码,LLM 利用特殊标记来压缩笔记内容,并同时生成标签/分类。为了构建相关的笔记对,我们从用户行为中统计所有笔记对的共现分数,并形成每个笔记的共现分数集。我们选择集合中共现分数最高的笔记作为给定笔记的相关笔记

​ 此外,为了推荐每个样本的相关注释,生成对比学习(GCL)利用压缩标记作为每个注释的嵌入,然后训练 LLM 从批内负样本中识别相关注释。同时,我们采用协作监督微调(CSFT)方法来训练模型,为每个笔记生成标签/类别。由于 I2I 笔记推荐任务和标签/分类生成任务所学习的压缩标记都旨在提取笔记内容的关键概念,因此 CSFT 可以有效增强笔记嵌入。

​ 本文的主要贡献如下:

  • 据我们所知,我们的 NoteLLM 框架是第一个利用 LLM 解决 I2I 推荐任务的框架。它揭示了引入 LLMs 是增强 I2I 推荐系统的一种实用而有前途的策略。
  • 我们提出了一个多任务框架,用于学习 I2I 推荐任务和标签/类别生成任务,以增强笔记嵌入。我们证明,学习生成压缩概念有利于 I2I 推荐任务。

Method

NoteLLM的框架

​ 在本小节中,我们将介绍 NoteLLM 的框架,它由三个关键部分组成: 如图 2 所示,它由三个关键部分组成:笔记压缩提示构建、GCL 和 CSFT。我们采用笔记压缩提示来灵活管理 I2I 推荐和标签/分类生成任务。然后将这些提示标记化,并输入到 LLM 中。NoteLLM 将协作信号和语义信息整合到隐藏状态中。GCL 利用生成的压缩词的隐藏状态进行对比学习,从而获取协作信号。此外,CSFT 利用笔记的语义和协作信息生成标签和类别。

pAkf2qJ.png

​ NoteLLM 框架使用统一的提示进行 I2I 笔记推荐和标签/类别生成。笔记通过 “笔记压缩提示 ”进行压缩,并由预先训练好的 LLM 进行处理。我们利用共现机制构建相关的笔记对,并使用生成对比学习(Generative-Contrasting Learning)训练 I2I 推荐任务。NoteLLM 还能提取笔记的关键概念,用于生成标签/类别,从而增强 I2I 推荐任务。

笔记压缩提示

​ 我们采用统一的注释压缩提示来促进 I2I 推荐和生成任务。为了在 I2I 推荐任务中利用自回归 LLM 的生成能力,我们的目标是将笔记内容压缩成一个特殊标记。浓缩后的特殊标记通过 GCL 获取协作知识。随后,我们通过 CSFT 利用这些知识生成标签/类别。

​ 具体来说,我们建议以下提示模板用于一般注释压缩和生成标签/类别:

pAkfhI1.png

​ 在此模板中,[BOS]、[EMB] 和 [EOS] 是特殊标记,而 则是由特定内容替换的占位符。类别生成的具体内容定义如下:

pAkfoRK.png

​ 生成标签的模板如下:

pAkfTxO.png

​ 鉴于用户生成的标签数量不可预测,我们随机选择原始标签的一个子集作为标签生成的输出目标,以尽量减少对 LLM 的潜在误导。随机选择的标签数量(以 表示)被纳入<指令>和<输出指导>中。

​ 提示完成后,它们将被标记化并输入 LLM。然后,LLM 将协作信号和关键语义信息提炼成压缩字,并根据笔记的中心思想生成标签/类别。

生成对比学习

​ 预训练 LLM 通常通过指令调整或从人类反馈强化学习 (RLHF) 学习新知识。这些方法主要侧重于利用语义信息来提高 LLM 的有效性和安全性。然而,仅依靠 LLM 中的语义信息不足以完成推荐任务。LLMs 中缺少的协作信号在识别用户特别感兴趣的笔记方面发挥着至关重要的作用。因此,我们提出了 GCL,使 LLM 能够捕捉到更强的协作信号。与从特定答案或奖励模型中学习不同,GCL 采用对比学习法,从整体角度学习笔记之间的关系接近性。

​ 为了将协作信号整合到 LLM 中,我们采用了共现机制,根据用户行为构建相关的笔记对。该机制基于这样一个假设:经常一起阅读的笔记很可能是相关的。因此,我们收集一周内的用户行为数据来进行共现计数。我们计算用户浏览笔记

标签:标签,论文,笔记,生成,I2I,LLM,NoteLLM
From: https://www.cnblogs.com/anewpro-techshare/p/18383426

相关文章

  • 笔记——字符串
    蓝月の笔记——字符串篇摘要一些串串\(\quad\qquad\)——某yl新高一学长字串\(\quad\qquad\)——某yl新高一学长のpptWarning本文中字符串的下标有时从\(1\)开始有时从\(0\)开始,请自行分辨无特殊说明从\(1\)开始字符串长度无特殊说明为\(n\)字符串无特殊说明表示......
  • CMake构建学习笔记8-OpenSceneGraph库的构建
    1.概论在连续构建了zlib、libpng、libjpeg、libtiff、giflib以及freetype这几个库之后,接下来我们就要来一个大的,构建OpenSceneGraph这样大型库。OpenSceneGraph(简称OSG)是一个高性能、跨平台的三维图形应用程序框架,广泛应用于科学可视化、模拟仿真、游戏开发等领域。理论上来说,......
  • 读书笔记(7)语录收集
    序言1.Onepictureisworthathousandwords.千言不如一画2.Ifyougivesomeoneaprogram,youwillfrustratethemforaday;ifyouteachthemhowtoprogram,youwillfrustratethemforalifetime.(如果你交给某人一个程序,你将折磨他一整天;如果你教某人如何编写......
  • 基于nodejs+vue北京冬奥会志愿者管理系统[程序+论文+开题]-计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着2022年北京冬奥会的日益临近,志愿者作为赛事成功举办不可或缺的重要力量,其管理效率与服务质量直接关系到冬奥会的整体形象与国际影响力。传统的人工管理......
  • 基于nodejs+vue北朝艺术博物馆文物在线观赏系统[程序+论文+开题]-计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着数字时代的到来,互联网技术的飞速发展正深刻改变着人们的生活方式与文化体验。北朝艺术,作为中国古代文化艺术的重要组成部分,其丰富的历史底蕴与艺术价值......
  • 基于nodejs+vue报刊杂志订阅系统[程序+论文+开题]-计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展,数字化阅读逐渐普及,但传统报刊杂志作为信息传播的重要载体,其订阅服务依然占据不可或缺的地位。特别是在学术、专业领域及特定兴趣群......
  • 基于nodejs+vue北京冬奥会志愿者管理系统[程序+论文+开题]-计算机毕业设计
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容研究背景随着北京冬奥会的日益临近,作为全球瞩目的体育盛事,其成功举办不仅依赖于高水平的竞技比赛,更离不开一支高效、专业、热忱的志愿者队伍。志愿者作为连接赛事与......
  • 基于python+flask框架的摄影论坛(开题+程序+论文) 计算机毕设
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展,摄影作为一种艺术形式与记录生活的方式,在大众中普及度日益提升。摄影爱好者们渴望一个能够交流心得、分享作品、......
  • 基于python+flask框架的校园疫情防控管理系统(开题+程序+论文) 计算机毕设
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景近年来,全球范围内疫情的反复出现对教育行业带来了前所未有的挑战,尤其是校园作为人群密集场所,其疫情防控工作显得尤为重要。随着科技的进步......
  • [Jsprit]Jsprit学习笔记-一个简单的示例
    学习官网提供的例子示例代码publicclassSimpleExample{publicstaticvoidmain(String[]args){/**somepreparation-createoutputfolder */Filedir=newFile("output");//ifthedirectorydoesnotexist,......