论文研读：有效调整大型语言模型提升基础化和引文生成质量

Effective Large Language Model Adaptation for Improved Grounding and Citation Generation 2311.09533 (arxiv.org)

有效调整大型语言模型提升基础化和引文生成质量

Xi Ye ♢∗ Ruoxi Sun ♠ Sercan Ö. Arık ♠ Tomas Pfister ♠

♢The University of Texas at Austin ♠Google Cloud AI

♠ {ruoxis,soarik,tpfister}@google.com

摘要

大型语言模型（LLMs）在自然语言理解和生成方面取得了显著进展。然而，在现实世界中广泛应用的一个主要问题是，它们可能会生成非事实的“虚幻”答案。为此，本文重点研究通过检索段落和提供引用来改善LLMs的基础，从而提高其准确性。我们提出了一个新的框架AGREE，即适应增强基础（Adaptation for GRounding EnhancEment），从整体角度改进基础。我们的框架调整了LLMs，使其在响应中自我基础化声明，并为检索到的文档提供准确的引用。这种在预训练LLMs基础上的调整需要为配对查询提供有根据的响应（带有引用），为此我们引入了一种方法，可以从未标记查询中自动构建此类数据。调整后的LLMs的自我基础化能力进一步赋予了它们测试时适应（TTA: test-time adaptation）能力，可以积极检索支持未基础化声明的段落，从而迭代改进LLMs的响应。在五个数据集和两个LLMs上，我们的结果表明，与基于提示的方法和基于后验引用的方法相比，我们提出的基于调整的AGREE框架生成了具有更准确引用的优质基础响应。

1. 引言

近年来，大型语言模型（LLMs）的进步在自然语言处理（NLP）领域展现出了显著的能力。这些模型以前所未有的规模和深度理解、生成和操纵文本的能力，使它们成为人工智能领域蓬勃发展中的一股变革力量，并有望对我们日益数据驱动的世界产生重大影响。尽管LLMs被广泛采用，但一个突出问题是在某些情况下它们会产生虚幻信息：即生成听起来合理但非事实的信息，这限制了它们在现实世界设置中的应用。为了减轻这种虚幻性，解决方案通常依赖于将LLM生成的响应中的声明与支持的段落相结合，通过提供归因报告或向声明中添加引文。

使LLM生成的响应更加可信，通过提供支持和添加引文，已经引起了越来越多的兴趣。一方面的工作是使用指令调整或上下文学习来指导LLMs生成有根据的响应，并引用检索到的段落，遵循检索增强的生成框架。由于LLMs需要从仅有的指令和少量样本演示中执行这项具有挑战性的任务，这样的方向往往导致平庸的基础质量。另一方面的工作是后验引用，它使用自然语言推理（NLI）模型将支持段落与响应中的声明联系起来。这种范式严重依赖于LLMs的参数知识，并且可能无法很好地扩展到较少为人所知的知识。

我们提出了一个新的基于学习的框架，AGREE，即大型语言模型（LLMs）的适应性基础增强。如图1所示，我们的框架对LLMs进行了微调，以生成引文，而不是依赖于提示或外部自然语言推理（NLI）模型的后验方式。在训练阶段，AGREE借助NLI模型从基础LLM中自动为未标记的查询收集有根据的响应。接下来，使用收集到的数据来监督LLMs基于检索到的段落生成有根据的响应，并在其响应中包含引文。作为一种测试时方法，我们提出了一种迭代推理策略，允许LLMs基于自我基础评估来寻求额外信息，以细化其响应。微调和测试时适应共同使LLMs能够有效且高效地将它们的响应建立在语料库中。我们将AGREE框架应用于适应基于API的LLM（text-bison）和开放LLM（llama-2-13b），并使用从三个数据集中的未标记查询收集的训练数据。我们在域内和域外数据集上进行评估，将提出的AGREE框架与有竞争力的上下文学习和后验引用基线进行比较。实验结果表明，与基线相比，AGREE框架在引文召回率和精确度方面成功地提高了基础，幅度很大（通常超过20%）。我们发现，通过我们精心设计的调整机制，LLMs可以学习在其响应中添加准确的引文。此外，使用某些数据集进行微调所实现的基础质量改进可以很好地跨领域推广。总之，我们的主要贡献包括：.

一种基于学习的方法，利用自动创建的数据，将基础LLM适应为在其响应中包含准确的引文；
一种测试时适应（TTA）方法，基于引文信息迭代改进LLMs的响应；
在五个数据集上对两个LLMs进行了大量实验，证明了所提出的AGREE框架在提高基础和引文生成方面的有效性。

2 相关工作

幻觉在许多任务中是生成语言模型普遍存在的问题。已经通过不同的方式对其进行了评估，调查了生成响应的基础。已经提出了各种方法来减轻幻觉并改善LLM生成响应的事实性。其中，我们的工作特别关注为可归因的信息源提供引文。与现有的主要依赖零样本提示或少量样本提示或使用额外的NLI模型来添加引文的工作不同，我们提出了一种基于学习的方法来调整LLMs，以生成由引文支持的、基础更好的响应。

更广泛地说，最近的工作还研究了在不使用外部知识的情况下提高大型语言模型事实性的方法，包括推理时间干预、交叉检查、自我验证或强化学习。我们的工作与他们不同，我们在回复中提供了外部知识的引用。此外，过去的工作也使用了外部知识（如知识库）来减少通过向提示中注入知识而产生的幻觉。虽然用于生成响应的外部知识可以作为粗略和一般的参考，但这些方法也没有像我们的工作那样提供细粒度的、句子级别的引用。最后，所提出的框架是一种检索增强的生成方法。虽然过去的工作已经探索了使用检索来提高大型语言模型的生成质量或事实性，但我们的方法进一步使大型语言模型能够生成引用和自我生成的引用来指导检索。

3 问题与背景

我们提出的框架旨在将一个预先训练好的大型语言模型M_B调整为M_A，该模型能够提供带引用的基础回复。给定一个文本查询Q和一个由文本段落组成的语料库D = {d_i}，经过调整的大型语言模型M_A需要根据语料库D生成一个事实上基于该语料库的回复A，并同时提供引用C。

遵循过去的工作，我们将大型语言模型的输出按句子分割成陈述，并要求每个句子引用语料库中的一组段落。具体来说，设s_1,...,s_n为答案A = s_1,...,s_n中的陈述。引用C = {E_1,...,E_n}将每个陈述s_i链接到一组证据段落E_i ⊂ D。

回想一下，我们的调整旨在提供更好的基础回复。通过引用C，我们可以通过一个基础分数G来量化回复A的基础质量：

G(A,C) = 1/n * Σ_i ϕ(concat(E_i), s_i)，

其中，ϕ是一个自然语言推理模型，用于评估串联段落concat(E_i)是否支持s_i。基础分数G实质上平均了每个句子由其引用支持的程度。

4 AGREE框架

提出的AGREE框架从整体的角度看待基础问题，提出了一种模型调整方法，该方法使基础大型语言模型能够在其回复中包含引用，并引入了一种测试时适配（TTA）机制，该机制利用引用信息主动从语料库中检索并迭代优化回复。

4.1 调整大型语言模型

我们通过提供对检索到的文档的引用来调整大型语言模型，使其自我确认回复中的声明。我们的方法仅使用一组未标记的查询{Q}和自然语言推理模型ϕ，就能够赋予大型语言模型这样的能力。由于我们使用的是没有参考回复的未标记查询，因此我们将适配任务制定为调整大型语言模型，以在不大幅偏离原始生成的情况下实现更好的基础（这种保留方法在最近的工作中也得到了采用）。从概念上讲，我们将M_B适配为M_A，以便由适配后的大型语言模型M_A生成的答案应满足基础约束（基础分数> τ_G），同时相对于基础大型语言模型M_B最大化分数：

max_(E (A,C)∼M_A (·|Q,D)) M_B (A | Q,D)1{G(A,C) ≥ τ_G }.(1)

在实践中，我们采用以数据为中心的方法来优化M_A。对于给定的问题，我们选择使用从基础大型语言模型中采样的最大基础回复来构建调整数据。我们将在本节的后面部分详细介绍该过程。

数据生成

如图2所示，给定查询，我们首先使用指令跟踪从基础大型语言模型M_B (· | Q,D)中采样回复{A}（详见附录A）。对于每个A = s_1,...,s_n，我们使用自然语言推理模型ϕ来创建引用C = {E_i}，将句子s_i链接到最大支持的段落e_i = max_(d ∈ D) ϕ(d,s_i)，如果段落e_i实际上支持s_i（即，ϕ(e_i,s_i) > τ）。否则，我们不给s_i添加引用，并且s_i是一个不受支持的声明。即：

E_i = {e_i} if ϕ(e_i,s_i) > τ else {}。

我们使用U来表示无法找到引用的不支持声明的集合。这允许我们如第3节所述评估A的基础。现在，我们可以根据基础分数从{A}中选择最佳回复A*，以形成基础回复，即A* = argmax_A G(A,C)。

监督微调

我们已经介绍了如何构建监督来指导大型语言模型在回复中添加引用并声明不受支持的语句。为了有效地调整大型语言模型，我们用自然语言描述了整个过程。我们将自然语言形式的描述表示为VERB(A*, C*, U*)（具体示例见图2）。自然语言形式化也使我们能够方便地使用标准语言建模目标来调整大型语言模型：

M_A = argmax_M ∑_Q log M(VERB(A*, C*, U*) | Q, D). (2)

我们注意到，实际的优化目标，即公式（2），旨在最大化生成从基础模型生成中选择的最佳基础答案A的对数概率。由于A是从基础模型中采样的，因此这样的目标能够避免与原始生成的显著差异，这与概念目标（公式（1））是一致的。

多数据集训练

我们使用了多个现有的数据集来构建用于调整预训练大型语言模型的适应数据，包括Natural Questions (NQ)、FEVER和StrategyQA。我们选择这些数据集是因为它们包含多样化的文本，并且对应查询的答案需要不同类型的推理过程：NQ提供了由真实用户自然提出的多样化查询；FEVER特别强调事实核查；而StrategyQA则需要具有隐含策略的多跳推理。值得注意的是，AGREE仅使用查询，而忽略了真实答案，以提升大型语言模型。

4.2 测试时适配

我们引入了一种新颖的测试时适配（Test-Time Adaptation, TTA）方法，用于推理过程，如图3所示。我们的框架是一种检索增强的生成框架——该方法的核心是适应后的大型语言模型，它能够基于从语料库中检索到的一组给定段落来回答查询，更重要的是，它能够自我基础化其响应，为段落添加引文，并找到需要进一步调查的不受支持的陈述。通过这些能力，适应后的大型语言模型可以从大型语料库D中迭代地构建一组相关段落，并完善其对查询的响应。

TTA的详细步骤如算法（1）所示。给定查询Q和语料库D，我们首先基于查询进行检索，以获得一组初始的工作段落。接下来，我们反复执行以下步骤，直到消耗完所有调用大型语言模型（LLM）的预算B。在每次迭代中，LLM都会基于工作段落对查询生成响应，为其响应添加引文，并找出没有引文支持的不受支持的陈述（第9行）。然后，我们将引用的段落添加到相关段落列表中。最后，在每次迭代中，我们都会更新工作段落——如果存在不受支持的陈述，我们会包含基于这些不受支持的陈述检索到的额外信息（第15行），否则，我们会包含更多基于查询检索到的段落，以获得更完整的信息（第17行）。我们只包含新的、尚未呈现给LLM的段落（第19行）。请注意，在每次迭代中，我们都让LLM基于当前的工作段落重新生成响应，而不是从之前的响应中进行编辑，我们发现这样做可以提高流畅性。我们提出的TTA设计能够实现高效且灵活的推理。我们依靠LLM自己生成引文，这减少了以事后方式调用额外的自然语言推理（NLI）模型的开销。此外，由于我们迭代地完善答案，因此可以通过设置部署预算来流式传输并灵活控制此过程。

算法1 迭代式测试时间增强（Iterative Test-Time Augmentation, TTA）

1: 过程 ITERATIVE_INFERENCE(Q, D, M_A, k, B)

输入：一个查询Q，文本语料库D，经过适应的大型语言模型M_A，M_A可以作为输入的段落数量k，大型语言模型调用预算B

2: relevant_psgs = []

初始化一个空列表，用于存储与查询相关的段落。

3-4: working_psgs := RETRIEVE(Q, D)[:k]

使用查询Q从语料库D中检索相关段落，并取前k个作为工作段落。

5: seen_psgs := []

初始化一个空列表，用于跟踪已经呈现给大型语言模型的段落，以避免重复。

6-22: while iter = 1:B do

开始一个最多进行B次迭代的循环。

7-9: 使用大型语言模型M_A基于工作段落为查询Q生成答案A，并同时获得引用的段落和不受支持的句子。

10-11: 将引用的段落添加到相关段落列表中，并去重。

12: 更新已看过的段落列表，包括此次迭代的工作段落。

13-19: 如果存在不受支持的句子，则检索与这些句子相关的信息；否则，检索更多与查询相关的段落。

20-21: 更新工作段落，包括之前未呈现给大型语言模型的补充段落，并确保段落数量不超过k。

22: 返回生成的答案A和引用的段落。

5 实验

5.1 设置

评估数据集 我们在5个数据集上进行了全面的评估。回想一下，我们在多个数据集上训练了AGREE，包括NQ、StrategyQA和Fever。除了两个领域内测试集NQ和StrategyQA（我们排除了非问答数据集FEVER）之外，我们还在3个领域外数据集上进一步测试了适应后的大型语言模型（LLM）的泛化能力，包括ASQA、QAMPARI和一个企业数据集。特别是，ASQA和QAMPARI包含的问题具有模糊答案和多个答案。企业数据集是一个专有数据集，要求提供的答案以客户服务段落为基础。这样的评估套件可以评估适应后的LLM对于领域外问题类型（ASQA和QAMPARI）以及完全不同的语料库（企业数据集）的泛化能力。

模型我们使用两个大型语言模型（LLM）text-bison和LlaMA-2-13B来展示AGREE框架。我们使用GTR-large作为我们的检索器，并使用TRUE作为自然语言推理（NLI）模型。

基线我们在两种设置下评估AGREE的有效性：一是不使用TTA，只调用一次LLM；二是使用提出的TTA，多次调用LLM。我们将与最近工作中的三个基线进行比较，包括一种基于提示的方法和两种事后引用方法，具体如下所述。

小样本情境学习（ICLC ITE） 遵循Gao等人的方法，我们用少量样本示例来提示LLM，每个示例都包含一个查询、一组检索到的段落和一个带有内联引文的答案。因此，LLM可以从情境示例和响应中生成的引文中学习。值得注意的是，ICLC ITE是一个也使用检索到的段落的RAG基线。

事后搜索（POST SEARCH） 遵循Gao等人的方法，给定一个查询，我们首先指示LLM在没有段落的情况下回答查询，然后通过搜索以事后方式添加引文。我们将响应中的每个声明链接到从一组与查询相关的段落中检索到的最相关段落。此基线仅使用检索器，而不使用NLI模型。

事后归因（POST ATTR） 遵循Gao等人的方法，我们不是引用最相关的段落，而是对于每个声明，我们从语料库中检索一组k个段落，然后使用NLI模型φ来链接到最大程度支持该声明的段落。我们注意到，在事后引用范式中的两个基线都仅依赖于LLM的参数化知识。

指标我们主要关注提高生成响应的落地质量，这通过引文的质量来反映。根据过去的工作，我们报告了所有评估数据集上的引文召回率（rec）和引文精确率（pre）。我们注意到，引文召回率汇总了每个句子被语料库中的引文支持的程度，这本质上是落地分数G。因此，我们优先考虑引文召回率的评估。

我们还报告了生成输出的正确性。对于NQ，我们报告了精确匹配召回率（em-rec；短答案是否是响应中的子字符串）。对于StrategyQA，我们报告了准确率（acc）。对于ASQA和QAMPARI，我们使用了Gao等人的子集，并报告了ASQA的精确匹配召回率（em-rec）和QAMPARI的recall-5（rec-5，如果预测包含至少5个正确答案，则认为召回率为100%）。对于企业数据集，由于此数据集没有真实答案，我们只报告引文质量，引文质量反映了模型是否能提供准确的信息。

5.2 结果与分析：

调整对于实现优质落地是有效的 表2总结了使用我们的AGREE框架获得的结果，并与基线进行了比较。结果表明，在5个数据集上，AGREE可以生成在文本语料库中更好地落地的响应，并为响应提供准确的引文，大大优于所有基线。当使用高质量数据进行调整时，LLM可以有效地学习自我落地其响应，而不需要额外的NLI模型。另一方面，仅依赖情境学习的ICLC ITE无法像调整后的LLM那样准确地生成引文，如ICLC ITE和A GREE之间引文精确度的巨大差距所示。我们还观察到了Gao等人（2023b）所建议的类似发现：POST CITE往往导致引文质量较差——在没有条件限制段落的情况下，POST CITE的响应往往无法与段落配对，从而导致对生成的声明具有高引文召回率。

性能提升具有泛化能力 回想一下，我们仅使用领域内的训练集（NQ、StrategyQA和FEVER）来调整基础LLM，并直接在分布外（OOD）的测试集（ASQA、QAMPARI、Enterprise）上测试模型。结果表明，从领域内数据集训练中获得的性能提升可以有效地推广到包含不同类型问题或使用不同类型语料库的OOD数据集。这是所提出方法的一个基本优势——A GREE可以在零样本设置下推广到目标领域，而无需目标领域的任何样本，这是ICLC ITE方法所需要的。

TTA提高了落地和答案的正确性 有无TTA的AGREE之间的比较突显了所提出的迭代TTA策略的有效性。我们观察到，在更好的落地和准确性方面都有所改进。例如，TTA在NQ和ASQA上分别将llama-2答案的正确性提高了3.1和3.7。这种改进可以归因于我们的TTA允许LLM根据自我落地的指导，主动收集相关段落以构建更好的答案。

关于答案正确性的讨论 总体而言，与ICLC ITE相比，A GREE w/ TTA能够实现更好的正确性。A GREE w/o TTA与ICLC ITE的答案正确性相似，因为这两种方法都受相同一组段落的影响。因此，段落的质量对答案的正确性有很大影响。与AGREE和ICLC ITE不同，POST ATTR完全依赖于LLM的参数化知识来回答查询。因此，与AGREE和ICLC ITE相比，POST ATTR通常在这两个LLM上实现较差的答案正确性，特别是在能力较低的LLM（如llama-2-13b）上，与bison相比，其知识准确性较低。此外，在包含更多领域特定信息的Enterprise数据集上，POST ATTR完全无法从LLM的参数化知识中回忆起可归属的信息。

使用不同LLM的结果 我们的方法成功地适应了text-bison-001和llama-2-13b。与bison相比，llama的能力普遍较差，在答案正确性和引用质量方面表现不如bison。尽管如此，AGREE仍然始终优于基线，生成了更有根据的答案，并提供了更精确的引用。这突显了所提出的基于调优的适应方法是模型无关的，并且在不同能力的LLM上都是有效的。

计算效率 AGREE框架对基础LLM进行微调，以实现自我落地，而无需额外的上下文示例或NLI模型。因此，我们的框架能够在不增加昂贵推理成本的情况下实现强大的引用性能。表4显示了我们的方法和基线方法在处理一个查询时所需的计算成本比较，该成本是通过LLM和NLI模型处理的标记数量来衡量的。与ICLC ITE相比，由于不使用额外的上下文示例，A GREE w/o TTA使用的标记要少得多，但实现了显著更好的引用质量（见表2）。POST ATTR在提示中不使用检索到的段落，因此与我们的框架相比，LLM上的计算需求更少，但它需要额外的大量调用NLI模型（具有11B参数——详见附录A）来验证基于每个检索到的段落的每个声明。POST ATTR的引用性能也大大落后于ICLC ITE和AGREE。与AGREE w/o TTA相比，A GREE w/ TTA需要更多的计算，但能够实现更好的引用质量和答案正确性的改进。

使用多个数据集训练的影响 AGREE使用涵盖事实问答、多跳推理和事实核查的多个数据集来构建用于适应基础模型的数据。我们预计，这样的组合可以使适应后的模型更好地泛化到不同类型的问题和不同的文本分布。我们进行了分析，以研究使用多个数据集进行调整的好处。表3显示了我们的方法使用多个数据集训练的性能，以及仅使用NQ数据集训练的性能（AGREE NQ-only）。结果表明，与在所有数据集上使用三个数据集的组合进行训练相比，仅使用NQ进行训练会导致较低的引用质量。在非NQ数据集上，性能差距尤为显著。此外，仅在NQ上进行训练也会导致所有数据集上的答案正确性较低。然而，与仅依赖上下文学习（ICLC ITE）相比，仅在NQ上进行训练仍然可以提高性能。

AGREE作为一种提炼方法 我们的工作主要集中在以自我提升的方式提高基础LLM的落地能力。也就是说，我们使用基础LLM本身生成的样本来适应基础LLM，而不是从可能对适应模型的部署施加限制的专有模型中进行提炼。尽管如此，我们还是以数据为中心的方式进行了一项分析，以研究使用从更有能力的模型生成的数据来增强较弱模型的基础数据作为一种提炼方法的有效性。我们使用text-bison-001生成的数据来调整llama-2-13b。如表3的最后一行所示，与llama-2-13b上的AGREE相比，AGREE Distill实现了更好的引用质量，因为它是在由更有能力的模型产生的更好基础响应上训练的。然而，受这两个LLM能力差距的限制，经过bison生成数据微调的llama-2仍然无法达到bison的性能水平。

定性分析 我们定性地分析了所提出的AGREE框架与基线中最强的ICLC ITE相比的优势。我们观察到，在text-bison-001和llama-2-13b上，ICLC ITE的引用质量较差，原因是未能遵循引用格式（例如，在句号后添加引用，违反了指令），将陈述与相关但不可归属的段落相关联（如引用精度低所示），以及引入了更多检索段落中未提及的辅助信息（如引用召回率所示）。我们的AGREE框架通过调整由NLI模型认证的良好基础响应来缓解这些问题。我们还在图4中提供了示例输出，比较了使用和不使用提出的TTA的AGREE的输出，并观察到TTA可以通过使用不支持的语句主动重新检索来帮助找到更多的支持段落，或者迭代地找到更多的段落来构建更完整的响应。

6 结论

我们介绍了一个新颖的框架，即AGREE，用于调整大型语言模型（LLM）以提高其基础能力。所提出的框架使用自动收集的数据来调整预训练的LLM，使其在检索到的段落中自我基础化其响应。这种集成的基础化响应能力进一步使LLM能够在测试时改进响应。我们在五个数据集上的评估表明，与仅依赖提示或LLM的参数知识的方法相比，所提出的基于学习的方法具有优势。

7 局限性和未来工作

AGREE采用了一种依赖于自然语言推理（NLI）模型的自动化数据创建方式，而非依赖于人工。因此，引用质量取决于NLI模型的性能。如Gao等人（2023b）和Honovich等人（2022）所指出的，一个可能的问题是模型可能偏向于“完全支持”的判断，而无法有效地检测出“部分支持”的情况。因此，经过调整的LLM可能会倾向于添加“完全支持”的引用。解决这个问题的一种方法是策划一组人类标注的“部分支持”引用，这将是我们未来工作的方向。

此外，我们的评估遵循先前的工作（Rashkin等人，2023；Gao等人，2023a），并使用NLI模型来量化基础化和引用质量。因此，我们的工作可能会遇到与过去工作相同的问题：基础化和引用质量的评估受到NLI模型能力的限制。

AGREE通过监督微调使用创建的已基础化的响应来训练LLM，因为我们证明了这种方法可以带来强大的实证结果。也可以将基础化视为一种偏好，并使用RLHF来调整LLM，这将是我们未来工作的方向。AGREE微调会产生额外的成本，这是适应LLM的一次性要求。考虑到基础化的实质性改进，我们相信这对于大多数应用来说是可以接受的，尤其是对于那些有高可靠性要求的应用。未来的工作可能会探索训练一个独立于任务特定适应的通用改进基础化模型。

我们主要考虑的是以英语为信息搜寻任务的开放领域问答数据集。将研究推广到其他长文本生成任务和其他语言可能是未来工作的重要方向。

最后，在AGREE中为LLM生成的响应添加引用可能会带来与相关研究相同的风险——一个看似合理但不正确的引用可能会使用户对未受支持的陈述更加信服。

致谢

感谢匿名审稿人提供的宝贵反馈，同时也感谢Jinsung Yoon、Andreas Terzis、Yanfei Chen、Ankur Taly、Lucas Zhang和Tina Pang在本工作的各个方面给予的帮助。

References

略

附录

A Details of Data Generation（略）

B Details of Experimental Setup（略）

C Comparison to ICLC ITE on More Capable LLMs（略）

D License of Datasets（略）

E Additional Examples of Tuning Data（略）

标签：段落,研读,模型,论文,我们,引用,LLM,引文,AGREE
From： https://blog.csdn.net/weixin_45483762/article/details/139717174

论文研读：有效调整大型语言模型提升基础化和引文生成质量

有效调整大型语言模型提升基础化和引文生成质量

摘要

1. 引言

2 相关工作

3 问题与背景