2024年6月11日Arxiv大语言模型相关论文

标签：11 语言 CL 模型 Arxiv 2024 https org 我们

cs.CL: 在 Token 经济中的推理：大语言模型推理策略的预算感知评估

原标题: Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies

作者: Junlin Wang, Siddhartha Jain, Dejiao Zhang, Baishakhi Ray, Varun Kumar, Ben Athiwaratkun

摘要: 提出了多种不同的推理策略来揭示大语言模型的能力。然而，在本文中，我们指出，传统的评估方法仅关注性能指标，忽略了一个关键因素：由于额外计算资源而导致的增效。忽视这一方面往往会呈现出对策略效率的偏见。本文介绍了一个将计算预算纳入评估的框架，提供了一个更具信息量的比较，同时考虑了性能指标和计算成本。在这种关注预算的视角下，我们发现，复杂的推理策略往往并非仅仅因为算法的巧妙性而超越了更简单的基线，而是由于分配了更多的计算资源。当我们使用类似于思维一致性链的简单基线，并提供可比较的计算资源时，它经常胜过文献中提出的推理策略。在这种规模感知的视角下，我们发现，与自一致性不同，某些策略，如多智能体辩论或反思，如果利用更多的计算预算，可能会变得更糟。

论文链接: https://arxiv.org/pdf/2406.06461

cs.CL: 通过任务空间解释语言模型

原标题: Interpretability of Language Models via Task Spaces

作者: Lucas Weber, Jaap Jumelet, Elia Bruni, Dieuwke Hupkes

机构: 巴塞罗那龙佩姆普拉大学阿姆斯特丹大学奥斯纳布吕克大学 Meta

摘要: 通常解释语言模型（LMs）的方法是在不同基准测试中测试它们的性能，然后推断它们的内部过程。在本文中，我们提出了一种替代方法，专注于LM处理的质量，重点关注它们的语言能力。为此，我们构建了“语言任务空间”——LM语言概念的表示，这些表示揭示了LM之间在语言现象之间建立的联系。任务空间基于来自不同语言现象的学习信号的相互作用，我们通过一种称为“相似性探测”的方法来评估这些信号。为了解开语言现象的学习信号，我们进一步引入了一种称为“通过梯度差分微调”的方法（FTGD）。我们将我们的方法应用于三种不同规模的语言模型，并发现较大的模型更好地概括了语言任务的总体概念，更好地利用它们的共享结构。此外，通过预训练，语言处理的分布性通过增加相关语言任务之间的参数共享而增加。总体概括模式在整个训练过程中大多保持稳定，并且没有明显的阶段，这可能解释了LMs缺乏成功课程策略的现象。

论文链接: https://arxiv.org/pdf/2406.06441

cs.CL: 评估基于大语言模型的问答系统中的检索组件

原标题: Evaluating the Retrieval Component in LLM-Based Question Answering Systems

作者: Ashkan Alinejad, Krtin Kumar, Ali Vahdat

机构: 汤姆逊路透人工智能实验室

摘要: 问答系统（QA）利用大语言模型（LLMs）严重依赖检索组件，为它们提供领域特定信息，并减少生成不准确响应或幻觉的风险。尽管检索器的评估可以追溯到信息检索早期研究，但在基于LLM的聊天机器人中评估它们的性能仍然是一个挑战。
本研究提出了一个简单的基准线，用于评估在基于检索增强生成（RAG）的聊天机器人中的检索器。我们的研究结果表明，这种评估框架更好地展示了检索器的表现，并且与QA系统的整体表现更加一致。尽管传统的度量标准如精确度、召回率和F1分数可能无法完全捕捉LLMs的能力 - 因为它们可以产生准确的响应，尽管检索器不完美 - 我们的方法考虑了LLMs的优势，可以忽略不相关的上下文，以及在响应中的潜在错误和幻觉。

论文链接: https://arxiv.org/pdf/2406.06458

cs.CL: 语言模型能否作为基于文本的世界模拟器？

原标题: Can Language Models Serve as Text-Based World Simulators?

作者: Ruoyao Wang, Graham Todd, Ziang Xiao, Xingdi Yuan, Marc-Alexandre Côté, Peter Clark, Peter Jansen

机构: 亚利桑那大学纽约大学约翰霍普金斯大学微软研究院艾伦人工智能研究所

摘要: 虚拟环境在基准测试复杂规划和决策任务方面发挥关键作用，但手工构建虚拟环境既昂贵又复杂。当前的语言模型本身能否作为世界模拟器，准确预测行动如何改变不同的世界状态，从而避免对大量手工编码的需求？我们的目标是在基于文本的模拟器环境中回答这个问题。我们的方法是构建并使用一个名为ByteSized32-State-Prediction的新基准，其中包含一组文本游戏状态转换数据和相应的游戏任务。我们首次直接量化LLMs能够作为基于文本的世界模拟器的能力。我们在这个数据集上测试了GPT-4，并发现，尽管其表现令人印象深刻，但仍然是一个不可靠的世界模拟器，需要进一步的创新。因此，这项工作既为当前LLM的能力和弱点提供了新的见解，也提供了一个新的基准，以跟踪随着新模型的出现而取得的未来进展。

论文链接: https://arxiv.org/pdf/2406.06485

cs.CL: 多模态上下文语义解析从语音开始

原标题: Multimodal Contextualized Semantic Parsing from Speech

作者: Jordan Voas, Raymond Mooney, David Harwath

机构: 德克萨斯大学奥斯汀分校

摘要: 我们介绍了语境环境中的语义解析（SPICE），这是一个旨在通过将多模态输入与先前上下文集成来增强人工智能智能体的语境意识的任务。SPICE不仅仅是传统语义解析，还提供了一个结构化、可解释的框架，用于动态更新智能体的知识，反映人类沟通的复杂性。我们开发了VG-SPICE数据集，旨在通过口语对话交流中的视觉场景图构建来挑战智能体，突出了语音和视觉数据的整合。我们还提出了用于在VG-SPICE上使用的音频-视觉对话场景解析器（AViD-SP）。这些创新旨在改善多模态信息处理和整合。VG-SPICE数据集和AViD-SP模型都是公开可用的。

论文链接: https://arxiv.org/pdf/2406.06438

cs.CL: 用自然语言提示控制文本转语音中的情感

原标题: Controlling Emotion in Text-to-Speech with Natural Language Prompts

作者: Thomas Bott, Florian Lux, Ngoc Thang Vu

机构: 斯图加特大学德国

摘要: 近年来，提示迅速成为引导生成式机器学习模型输出的标准方式之一，这是因为它直观地利用自然语言。在这项工作中，我们提出了一个系统，该系统以从情感丰富的文本中衍生的嵌入作为提示。因此，在基于Transformer的架构中，在几个点上集成了发言者和提示嵌入的联合表示。我们的方法在合并的情感语音和文本数据集上进行训练，并在每个训练迭代中变化提示，以增加模型的泛化能力。客观和主观评估结果表明，有条件的合成系统能够准确地将提示中存在的情绪转移到语音中。同时，精确的发言者身份可追踪性以及整体高语音质量和可理解性得以保持。

论文链接: https://arxiv.org/pdf/2406.06406

cs.CL: 在超过7000种语言中进行元学习文本转语音合成

原标题: Meta Learning Text-to-Speech Synthesis in over 7000 Languages

作者: Florian Lux, Sarina Meyer, Lyonel Behringer, Frank Zalkow, Phat Do, Matt Coler, Emanuël A. P. Habets, Ngoc Thang Vu

机构: 斯图加特大学弗劳恩霍夫IIS埃尔朗根荷兰格罗宁根大学

摘要: 在这项工作中，我们承担了一个具有挑战性的任务，即构建一个单一的文本转语音合成系统，能够在超过7000种语言中生成语音，其中许多语言缺乏传统TTS开发所需的足够数据。通过利用大规模多语言预训练和元学习的新颖集成来逼近语言表示，我们的方法实现了在没有任何可用数据的语言中进行零样本语音合成。我们通过客观指标和跨多样化语言环境的人类评估验证了我们系统的性能。通过公开发布我们的代码和模型，我们旨在赋予语言资源有限的社区力量，并促进语音技术领域的进一步创新。

论文链接: https://arxiv.org/pdf/2406.06403

cs.CL: 重新审视 INTERSPEECH 2009 情感挑战赛：在语音情感识别领域的15年进展基准测试

原标题: INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition

作者: Andreas Triantafyllopoulos, Anton Batliner, Simon Rampp, Manuel Milling, Björn Schuller

机构: 慕尼黑工业大学德国奥格斯堡大学德国伦敦帝国学院英国

摘要: 我们重新审视了 INTERSPEECH 2009 情感挑战赛——这是有史以来第一个语音情感识别（SER）挑战赛，并评估了一系列代表自那时以来 SER 研究的主要进展的深度学习模型。我们首先使用一组固定的超参数训练每个模型，然后进一步通过网格搜索对最佳表现的模型进行微调。结果始终在官方测试集上报告，仅使用一个单独的验证集进行提前停止。大多数模型的得分低于或接近官方基准线，而它们在超参数调整后略优于原始挑战赛的获奖者。我们的工作表明，尽管最近取得了进展，但 FAU-AIBO 仍然是一个非常具有挑战性的基准。一个有趣的推论是，新方法并不一致地优于旧方法，表明朝着“解决” SER 的进展不一定是单调的。

论文链接: https://arxiv.org/pdf/2406.06401

cs.CL: 我们应该微调还是使用RAG？评估不同的技术来调整大语言模型以用于对话。

原标题: Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue

作者: Simone Alghisi, Massimo Rizzoli, Gabriel Roccabruna, Seyed Mahed Mousavi, Giuseppe Riccardi

机构: 特伦托大学 Mistral I Llama2 信号与交互系统实验室

摘要: 我们研究了大语言模型（LLMs）在人机对话中生成响应任务中的局限性。文献中提出了几种针对不同对话类型（例如，开放领域）的技术。然而，这些技术的评估在基础LLMs、对话类型和评估指标方面存在限制。在这项工作中，我们广泛分析了将不同LLM适应技术应用于不同对话类型时的情况。我们选择了两种基础LLMs，Llama-2和Mistral，以及四种对话类型：开放领域、知识驱动、任务导向和问答。我们评估了针对每种对话类型选择的数据集上的上下文学习和微调技术的性能。我们评估了在检索增强生成（RAG）和黄金知识两种情景下融入外部知识以使生成扎根的影响。我们采用了一致的评估和可解释性标准，用于自动指标和人类评估协议。我们的分析表明，没有一种通用的最佳技术可用于调整大型语言模型，因为每种技术的有效性取决于基础LLM和具体对话类型。最后，评估最佳适应技术应包括人类评估，以避免从自动指标导出的虚假期望和结果。

论文链接: https://arxiv.org/pdf/2406.06399

cs.CL: mHuBERT-147：一个紧凑的多语言 HuBERT 模型

原标题: mHuBERT-147: A Compact Multilingual HuBERT Model

作者: Marcely Zanon Boito, Vivek Iyer, Nikolaos Lagos, Laurent Besacier, Ioan Calapodescu

机构: NAVER LABS Europe 法国 University of Edinburgh 英国

摘要: 我们介绍 mHuBERT-147，这是第一个通用的大规模多语言 HuBERT 语音表示模型，训练数据包括 9 万小时的干净、开放许可的数据。为了扩大多次迭代的 HuBERT 方法，我们使用基于 faiss 的聚类，实现了比原始方法快 5.2 倍的标签分配速度。我们还应用了一种新的多语言批量上采样策略，充分利用语言和数据集的多样性。经过 3 次训练迭代，仅使用 9500 万参数，mHuBERT-147 的性能超过了在大量数据上训练的更大模型。我们在 ML-SUPERB 10min/1h 排行榜上分别排名第二和第一，对所有 LID 任务都取得了 SOTA 分数。在 ASR/LID 任务中，我们的模型始终超过 XLS-R（3 亿参数；43.6 万小时），并且在远大于自身的 MMS（10 亿参数；49.1 万小时）面前表现出强大的竞争力。我们的研究结果表明，mHuBERT-147 是一个有前途的多语言语音处理任务模型，提供了高性能和参数效率之间前所未有的平衡。

论文链接: https://arxiv.org/pdf/2406.06371

cs.CL: 语言模型是可对齐的决策者：数据集及其在医疗分诊领域的应用

原标题: Language Models are Alignable Decision-Makers: Dataset and Application to the Medical Triage Domain

作者: Brian Hu, Bill Ray, Alice Leung, Amy Summerville, David Joy, Christopher Funk, Arslan Basharat

机构: Kitware公司 Raytheon/BBN Technologies公司 Kairos Research公司

摘要: 在困难的决策场景中，专家人类决策者之间存在意见分歧是很常见的，因为可能没有一个唯一正确的答案。这些决策可能会受到不同属性的指导，这些属性可以用来描述个体的决策。我们引入了一个新颖的用于医疗分诊决策的数据集，标记有一组决策者属性（DMAs）。该数据集包括62个场景，涵盖了六种不同的DMAs，包括公平和道德义务等伦理原则。我们提出了一个新颖的软件框架，通过利用这些DMAs实现与人类一致的决策，为具有更好防护措施的可信AI铺平道路。具体而言，我们展示了大语言模型（LLMs）如何作为伦理决策者，以及它们如何使用零样本提示来与不同的DMAs对齐。我们的实验重点放在不同大小和训练技术的开源模型上，如Falcon、Mistral和Llama 2。最后，我们还介绍了一种改进整体量化性能的加权自一致性形式。我们的结果为LLMs作为可对齐决策者的使用提供了新的研究方向。该数据集和开源软件可在以下网址公开获取：this https URL。

论文链接: https://arxiv.org/pdf/2406.06435

Github: https://github.com/ITM-Kitware/llm-alignable-dm

cs.CL: 注释对齐：比较大语言模型和人类对话安全性的注释

原标题: Annotation alignment: Comparing LLM and human annotations of conversational safety

作者: Rajiv Movva, Pang Wei Koh, Emma Pierson

机构: 康奈尔科技大学华盛顿大学

摘要: LLM在多大程度上与人类对安全性的感知相一致？我们通过注释对齐来研究这个问题，即LLM和人类在对用户-聊天机器人对话的安全性进行注释时的一致程度。我们利用最近的DICES数据集（Aroyo等，2023年），其中350个对话分别由10个种族-性别组的112名注释者评定安全性。GPT-4与平均注释者评分的皮尔逊相关系数为 r = 0.59 r=0.59 r=0.59，高于中位注释者与平均评分的相关性（ r = 0.51 r=0.51 r=0.51）。我们表明需要更大的数据集来解决GPT-4在与人口统计群体相关程度方面是否存在差异。此外，在群体内部的相关性存在显著的特异性变化，表明种族和性别并不能完全捕捉对齐差异。最后，我们发现GPT-4无法预测哪个人口统计群体认为某个对话比另一个更不安全。

论文链接: https://arxiv.org/pdf/2406.06369

cs.CL: 对称点积注意力用于高效训练 BERT 语言模型

原标题: Symmetric Dot-Product Attention for Efficient Training of BERT Language Models

作者: Martin Courtois, Malte Ostendorff, Leonhard Hennig, Georg Rehm

机构: 德国人工智能研究中心（DFKI）

摘要: 最初作为机器翻译模型引入的Transformer架构现已成为现代深度学习架构的基础，在从计算机视觉到自然语言处理等各个领域都有应用。如今，为了应对越来越复杂的任务，基于Transformer的模型被扩展到巨大的规模，需要越来越大的训练数据集和不可持续的计算资源。Transformer及其核心组件注意力机制的普遍性使其成为效率研究的主要目标。在这项工作中，我们提出了一种替代兼容函数，用于Transformer架构引入的自注意力机制。这种兼容函数利用传统的缩放点积注意力中学习表示的重叠，导致对称的成对系数点积注意力。当应用于类似BERT的模型的预训练时，这种新的对称注意力机制在GLUE基准测试中达到了79.36的分数，而传统实现为78.74，可减少可训练参数数量的6％，并将收敛前所需的训练步骤数量减少了一半。

论文链接: https://arxiv.org/pdf/2406.06366

cs.CL: MASSW：一个新的数据集和基准任务，用于AI辅助科学工作流。

原标题: MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows

作者: Xingjian Zhang, Yutong Xie, Jin Huang, Jinge Ma, Zhaoying Pan, Qijia Liu, Ziyang Xiong, Tolga Ergen, Dongsub Shim, Honglak Lee, Qiaozhu Mei

机构: 密歇根大学安娜堡普渡大学 LG AI Research

摘要: 科学创新依赖于详细的工作流程，其中包括分析文献、生成想法、验证这些想法、解释结果和激发后续研究等关键步骤。然而，记录这些工作流程的科学出版物内容广泛且无结构。这使得人类研究人员和人工智能系统都难以有效地浏览和探索科学创新领域。为了解决这个问题，我们介绍了MASSW，这是一个关于科学工作流多方面总结的全面文本数据集。MASSW包括来自过去50年的17个领先计算机科学会议的超过152,000篇同行评议的出版物。我们使用大语言模型（LLMs）自动从这些出版物中提取五个核心方面–上下文、关键思想、方法、结果和预期影响–这些对应于研究工作流程中的五个关键步骤。这些结构化摘要有助于各种下游任务和分析。通过将LLM提取的摘要与人类注释进行比较，验证了摘要的质量。我们通过多个新颖的机器学习任务展示了MASSW的实用性，这些任务可以使用这个新数据集进行基准测试，从而进行各种类型的预测和建议沿着科学工作流程。MASSW对于研究人员来说具有重要潜力，可以创建和基准测试用于优化科学工作流程和促进该领域科学创新的新人工智能方法。我们的数据集可以在\url{this https URL}上公开获取。

论文链接: https://arxiv.org/pdf/2406.06357

Github: https://github.com/xingjian-zhang/massw

cs.CL: 持续元音声音用于慢性阻塞性肺疾病（COPD）治疗前后分类

原标题: Sustained Vowels for Pre- vs Post-Treatment COPD Classification

作者: Andreas Triantafyllopoulos, Anton Batliner, Wolfgang Mayr, Markus Fendler, Florian Pokorny, Maurice Gerczuk, Shahin Amiriparian, Thomas Berghaus, Björn Schuller

机构: 慕尼黑工业大学德国奥格斯堡大学德国格拉茨医科大学奥地利伦敦帝国学院英国

摘要: 慢性阻塞性肺疾病（COPD）是一种严重的炎症性肺部疾病，影响着全球数百万人。由于肺部气流受阻，它也会在患者的语音行为中表现出来。特别重要的是检测加重发作的情况，这标志着急性阶段，通常需要住院治疗。先前的研究表明，通过对朗读语音的自动分析，可以区分治疗前后的状态。在这项研究中，我们探讨了持续元音是否可以提供一个补充视角来区分这两种状态。利用50名患者的队列，我们展示了包含持续元音可以将性能提高到最高79%的未加权平均召回率，而使用朗读语音的基线为71%。我们进一步确定并解释了在持续元音中表现出 COPD 特征的最重要的声学特征。

论文链接: https://arxiv.org/pdf/2406.06355

cs.CL: MedExQA：具有多个解释的医学问答基准。

原标题: MedExQA: Medical Question Answering Benchmark with Multiple Explanations

作者: Yunsoo Kim, Jinge Wu, Yusuf Abdulle, Honghan Wu

机构: 伦敦大学学院（University College London）

摘要: 这篇论文介绍了MedExQA，这是一个在医学问答领域引入的新型基准，旨在通过解释评估大型语言模型（LLMs）对医学知识的理解能力。通过跨越五个当前数据集中代表性不足的医学专业构建数据集，并进一步为每个问题-答案对引入多个解释，我们填补了当前医学问答基准中的一个重要空白，即缺乏对LLMs生成细致医学解释能力的全面评估。我们的工作强调了医学LLMs中可解释性的重要性，提出了一种评估模型超越分类准确性的有效方法，并揭示了一个特定领域，即言语语言病理学，在这个领域，包括GPT4在内的当前LLMs缺乏良好的理解。我们的结果显示，通过多个解释进行生成评估更符合人类评估，突显了为LLMs提供更强大的自动理解评估的机会。为了使开源医学LLMs多样化（目前主要基于Llama2），这项工作还提出了一个新的医学模型MedPhi-2，基于Phi-2（27亿）。该模型在生成解释方面优于基于Llama2-70B的医学LLMs，显示了在资源受限的医学领域中其有效性。我们将分享我们的基准数据集和训练模型。

论文链接: https://arxiv.org/pdf/2406.06331

cs.CL: 一个用于多语言自动语音识别的参数高效语言扩展框架

原标题: A Parameter-efficient Language Extension Framework for Multilingual ASR

作者: Wei Liu, Jingyong Hou, Dong Yang, Muyong Cao, Tan Lee

机构: 香港中文大学、腾讯

摘要: 覆盖所有语言的多语音识别模型（MASR）非常困难。在现有MASR基础上执行语言扩展是一个理想选择。在这项研究中，MASR的持续学习问题被概率地分解为语言身份预测（LP）和跨语言适应（XLA）子问题。基于此，我们提出了一个基于架构的语言扩展框架，可以从根本上解决灾难性遗忘，被称为PELE。PELE被设计为参数高效，逐步地将一个附加模块纳入以适应新语言。具体而言，探索了不同的参数高效微调（PEFT）模块及其变体作为执行XLA的潜在候选者。在5种新语言上进行了实验，这些语言具有各种低资源数据大小。表现最佳的PEFT候选者可以在所有语言上实现令人满意的性能，并在五种语言中的三种中表现出优越性，超过了持续联合学习设置。值得注意的是，专注于权重参数或输入特征的PEFT方法在性能上存在局限，显示出与在层之间插入轻量级模块（如Adapter）相比明显较差的扩展能力。

论文链接: https://arxiv.org/pdf/2406.06329

cs.CL: 自我调节：指导大语言模型通过自我教学有效获取新知识

原标题: Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching

作者: Xiaoying Zhang, Baolin Peng, Ye Tian, Jingyan Zhou, Yipeng Zhang, Haitao Mi, Helen Meng

机构: 香港中文大学腾讯人工智能实验室 Bellevue 感知与交互智能中心

摘要: 大语言模型（LLMs）通常难以提供最新信息，因为它们只进行一次训练，而世界不断演变。为了保持LLMs的时效性，现有方法通常涉及对新文档进行持续预训练。然而，它们经常在提取存储知识方面遇到困难。受费曼技术在高效人类学习中取得的显著成功的启发，我们引入了自调整（Self-Tuning），这是一个旨在通过自学习提高LLM有效从原始文档中获取新知识能力的学习框架。具体而言，我们开发了一种自学习策略，通过自监督方式增加文档中的一组知识密集型任务，重点关注记忆、理解和自我反思三个关键方面。此外，我们引入了三个Wiki-Newpages-2023-QA数据集，以促进对LLM关于记忆、提取和推理的知识获取能力进行深入分析。对Llama2系列模型的广泛实验结果表明，自调整在所有知识获取任务中始终表现出优越性能，并在保留先前知识方面表现出色。

论文链接: https://arxiv.org/pdf/2406.06326

cs.CL: 多提示解码器有助于更好的语言理解

原标题: Multi-Prompting Decoder Helps Better Language Understanding

作者: Zifeng Cheng, Zhaoling Chen, Zhiwei Jiang, Yafeng Yin, Shiping Ge, Yuliang Liu, Qing Gu

机构: 清华大学哈尔滨工业大学

摘要: 最近的预训练语言模型（PLMs）通常只提供推理API给用户，即新兴的模型即服务（Model-as-a-Service，MaaS）设置。为了使MaaS PLMs适应下游任务而无需访问它们的参数和梯度，一些现有方法专注于PLMs的输出端适应，将PLM视为编码器，然后优化一个特定于任务的解码器，用于解码PLM的输出隐藏状态和类别分数。尽管这些方法的有效性，它们只使用单个提示来查询PLMs进行解码，导致过度依赖所采用提示的质量。在本文中，我们提出了一个简单而有效的多提示解码器（MPD）框架用于MaaS适应。其核心思想是为每个样本使用多个不同的提示查询PLMs，从而获得多个输出隐藏状态和类别分数，以供后续解码。这种多提示解码范式可以同时减轻对单个提示质量的依赖，缓解少样本设置下数据稀缺的问题，并提供从PLMs中提取的更丰富知识。具体而言，我们提出了两种解码策略：用于隐藏状态的多提示解码与用于类别分数的校准解码。大量实验证明，我们的方法在多个自然语言理解数据集上在少样本设置下取得了新的最先进结果。

论文链接: https://arxiv.org/pdf/2406.06279

cs.CL: MaskLID: 通过迭代掩码实现代码切换语言识别

原标题: MaskLID: Code-Switching Language Identification through Iterative Masking

作者: Amir Hossein Kargaran, François Yvon, Hinrich Schütze

机构: 慕尼黑大学LMU & 慕尼黑机器学习中心、巴黎索邦大学Sorbonne Université & 法国国家科学研究中心CNRS

摘要: 我们提出了MaskLID，这是一种简单但有效的代码切换（CS）语言识别（LID）方法。MaskLID不需要任何训练，旨在补充当前高性能的句子级LID。句子级LID是在单语文本上训练的分类器，提供单一标签，通常使用softmax层将分数转换为概率。然而，在句子同时包含L1和L2语言的情况下，LID分类器通常只返回主导标签L1。为了解决这一限制，MaskLID采用一种策略来掩盖与L1相关的文本特征，使得LID能够在下一轮将文本分类为L2。这种方法利用LID本身来识别需要掩盖的特征，不依赖于任何外部资源。在这项工作中，我们探讨了在两个开源LID（GlotLID和OpenLID）中使用MaskLID的可能性，它们都基于FastText架构。代码和演示可在此https网址找到。

论文链接: https://arxiv.org/pdf/2406.06263

Github: https://github.com/cisnlp/MaskLID

cs.CL: Tx-LLM: 用于治疗的大语言模型

原标题: Tx-LLM: A Large Language Model for Therapeutics

作者: Juan Manuel Zambrano Chaves, Eric Wang, Tao Tu, Eeshit Dhaval Vaishnav, Byron Lee, S. Sara Mahdavi, Christopher Semturs, David Fleet, Vivek Natarajan, Shekoofeh Azizi

机构: 谷歌研究谷歌DeepMind

摘要: 开发治疗药物是一个漫长且昂贵的过程，需要满足许多不同的标准，而能够加快这一过程的人工智能模型将是无价的。然而，目前大多数人工智能方法只涉及一个狭义定义的任务集，通常局限于特定领域。为了弥合这一差距，我们引入了 Tx-LLM，这是一个通用的大语言模型（LLM），从 PaLM-2 微调而来，编码了关于多种治疗模式的知识。Tx-LLM 使用一组包含 709 个数据集的训练集，涵盖了跨越药物发现流程各个阶段的 66 个任务。使用一组权重，Tx-LLM 同时处理各种化学或生物实体（小分子、蛋白质、核酸、细胞系、疾病）与自由文本交织在一起，使其能够预测广泛的相关属性，在 66 个任务中有 43 个达到了与最先进技术（SOTA）性能相竞争的水平，并在 22 个任务上超过了 SOTA。在这些任务中，Tx-LLM 特别强大，在结合分子 SMILES 表示和文本（如细胞系名称或疾病名称）的任务中，平均表现优于最佳类别表现，这可能是由于预训练期间学习到的上下文。我们观察到在涉及不同药物类型的任务之间存在积极的迁移证据（例如，涉及小分子的任务和涉及蛋白质的任务），并研究了模型大小、领域微调和提示策略对性能的影响。我们相信 Tx-LLM 代表了向编码生物化学知识迈出的重要一步，并可能在未来在整个药物发现开发流程中扮演端到端工具的角色。

论文链接: https://arxiv.org/pdf/2406.06316

cs.CL: 结合嵌入和领域知识进行职位发布重复检测

原标题: Combining Embeddings and Domain Knowledge for Job Posting Duplicate Detection

作者: Matthias Engelbach, Dennis Klau, Maximilien Kintz, Alexander Ulrich

机构: Fraunhofer工业工程研究所斯图加特大学 Contractor Consulting GmbH

摘要: 工作描述会发布在许多在线渠道上，包括公司网站、职位招聘网站或社交媒体平台。这些描述通常会以不同的文本发布同一份工作，这是由于每个平台的要求不同或是为了针对不同的受众。然而，为了实现自动招聘并帮助处理这些文本的人们，将工作岗位跨平台聚合起来并检测引用同一份工作的重复描述是很有帮助的。在这项工作中，我们提出了一种检测工作描述重复的方法。我们展示了将基于重叠的字符相似度与文本嵌入和关键词匹配方法相结合可以得到令人信服的结果。特别是，我们发现虽然没有单独的方法能够达到令人满意的性能，但是将字符串比较、深度文本嵌入以及使用特定技能的策划加权查找列表相结合可以显著提高整体性能。基于我们方法的工具正在生产中使用，来自实际使用的反馈证实了我们的评估。

论文链接: https://arxiv.org/pdf/2406.06257

cs.CL: LINGOLY：一个关于低资源和濒危语言的奥林匹克级语言推理难题基准测试

原标题: LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages

作者: Andrew M. Bean, Simi Hellsten, Harry Mayne, Jabez Magomere, Ethan A. Chi, Ryan Chi, Scott A. Hale, Hannah Rose Kirk

机构: 牛津大学斯坦福大学 Meedan

摘要: 在这篇论文中，我们提出了 LingOly 基准测试，这是一个针对大语言模型高级推理能力的新基准测试。我们利用具有挑战性的语言奥林匹克难题，评估了以下两个方面：(i) 在非常低资源或灭绝语言中上下文识别和语言模式泛化的能力，以及(ii) 遵循复杂任务说明的能力。LingOly 基准测试涵盖了90多种主要是低资源语言，最大程度地减少了数据污染问题，并包含了1,133个问题，涵盖了6种格式和5个人类难度级别。我们通过直接准确性和与无上下文基线的比较来评估性能，以惩罚记忆。来自11个最先进的大语言模型的得分表明这个基准测试具有挑战性，模型在更高难度的问题上表现不佳。在更难的问题上，即使是顶尖模型的准确率也只有35.3%，比无上下文基线提高了21.7%。大型封闭模型通常优于开放模型，总的来说，资源越丰富的语言，得分越高。这些结果表明，在没有记忆的情况下，真正的多步跨领域推理对当前语言模型仍然是一个挑战。

论文链接: https://arxiv.org/pdf/2406.06196

cs.CL: 语言模型抵制对齐

原标题: Language Models Resist Alignment

作者: Jiaming Ji, Kaile Wang, Tianyi Qiu, Boyuan Chen, Jiayi Zhou, Changye Li, Hantao Lou, Yaodong Yang

机构: 北京大学

摘要: 大语言模型（LLMs）可能会表现出不良行为。最近的努力集中在调整这些模型，以防止有害生成。尽管有这些努力，研究表明，即使进行了良好的调整过程，这些模型也很容易被绕过，无论是有意还是无意。调整微调对模型有稳健的影响，还是仅仅是表面的？在这项工作中，我们通过理论和实证手段回答这个问题。从经验上讲，我们展示了调整后模型的弹性，即在进一步微调时倾向于恢复到在预训练阶段形成的行为分布。利用压缩理论，我们正式推导出这种微调过程\textit{不成比例}地削弱了与预训练相比的调整，潜在地高达数量级。我们进行实验验证，以确认在不同类型和大小的模型中存在弹性。具体来说，我们发现模型性能在恢复到预训练分布之前迅速下降，之后下降速度显著降低。我们进一步揭示，弹性与增加的模型大小和扩展的预训练数据呈正相关。我们的发现表明了驯服LLMs固有的弹性的重要性，从而克服LLMs对调整微调的抵抗。

论文链接: https://arxiv.org/pdf/2406.06144

cs.CL: 我能理解我所创造的吗？大语言模型的自我认知评估

原标题: Can I understand what I create? Self-Knowledge Evaluation of Large Language Models

作者: Zhiquan Tan, Lai Wei, Jindong Wang, Xing Xie, Weiran Huang

机构: 清华大学上海交通大学微软亚洲研究院

摘要: 大语言模型（LLMs）在语言任务中取得了显著进展，这需要健壮的评估框架来了解它们的能力和局限性。受费曼理解通过创造的原则启发，我们引入了一个易于实施的自我知识评估框架，评估模型对自动生成的问题的理解和回答能力。我们的研究结果基于对多个模型在不同任务上的测试，揭示了模型自我知识能力中的显著差距。进一步的分析表明，这些差距可能是由于与人类注意力机制的不一致造成的。此外，对自动生成的数学任务进行微调可能会提高模型的数学表现，突显了该框架在进行高效且有洞察力的模型评估方面的潜力，也可能有助于改进大语言模型。

论文链接: https://arxiv.org/pdf/2406.06140

cs.CL: 可验证的生成与子句级细粒度引文

原标题: Verifiable Generation with Subsentence-Level Fine-Grained Citations

作者: Shuyang Cao, Lu Wang

机构: 密歇根大学

摘要: 可验证的生成需要大语言模型（LLMs）引用支持其输出的源文件，从而提高输出的透明度和可信度。然而，先前的工作主要针对生成句子级引文，缺乏关于句子哪些部分由引用来源支持的具体信息。本研究探讨了通过子句级细粒度引文进行可验证生成，以更精确地定位由引用来源支持的生成内容。我们首先提出了一个数据集 SCiFi，包括 10K 个带有子句级引文的维基百科段落。每个段落都与一组用于引文的候选源文件和一个触发生成段落内容的查询配对。在 SCiFi 上，我们评估了最先进的LLMs和为这些模型设计的处理长文档的策略的性能。我们的实验结果揭示了可以增强引文质量的关键因素，包括扩展模型可访问的源文件上下文以及实施专门的模型调整。

论文链接: https://arxiv.org/pdf/2406.06125

cs.CL: 构建桥梁：用于评估翻译成德语的性别公平机器翻译的数据集

原标题: Building Bridges: A Dataset for Evaluating Gender-Fair Machine Translation into German

作者: Manuel Lardelli, Giuseppe Attanasio, Anne Lauscher

机构: 格拉茨大学里斯本电信研究所汉堡大学

摘要: 性别中立的人称代词翻译（例如，学生）通常并不是一件简单的事情。从英语翻译成德语是一个有趣的案例–在德语中，人称代词通常是特定于性别的，如果参考对象的性别未知或多样化，通常会使用通用的男性形式（die Studenten (m.)）。然而，这种解决方案会减少其他性别（如女性和非二元性别人群）的可见性。为了抵制性别歧视，存在着朝向使用性别公平语言的社会运动（例如，通过采用新系统）。然而，目前机器翻译（MT）中几乎不支持性别公平的德语，需要进行后期编辑或手动翻译。我们通过研究英德机器翻译中的性别公平语言来填补这一研究空白。具体来说，我们丰富了一个由社区创建的性别公平语言词典，并从百科文本和议会演讲中抽取了多句测试实例。利用这些新资源，我们进行了第一项基准研究，涉及两个商业系统和六个神经机器翻译模型，用于在两个领域跨越孤立词和自然语境翻译。我们的研究结果显示，大多数系统主要生成男性形式，很少生成性别中立的变体，突显了未来研究的必要性。我们在此 https URL 上发布了代码和数据。

论文链接: https://arxiv.org/pdf/2406.06131

Github: https://github.com/g8a9/building-bridges-gender-fair-german-mt

cs.CL: 利用分层聚合树增强长期记忆以实现检索增强生成

原标题: Enhancing Long-Term Memory using Hierarchical Aggregate Tree for Retrieval Augmented Generation

作者: Aadharsh Aadhithya A, Sachin Kumar S, Soman K.P

机构: 阿姆里塔人工智能学院印度

摘要: 大语言模型具有有限的上下文容量，限制了对长对话的推理。我们提出了分层聚合树记忆结构，通过条件树遍历递归地聚合相关对话上下文。HAT 封装了来自子节点的信息，实现了广泛覆盖和深度控制。我们将找到最佳上下文的过程形式化为最优树遍历。实验证明，HAT 提高了对话连贯性和摘要质量，相对于基准上下文，展示了在多轮推理中技术的有效性，而无需指数级参数增长。这种记忆增强使得大语言模型能够进行更一致、扎实的长篇对话。

论文链接: https://arxiv.org/pdf/2406.06124

cs.CL: 循环上下文压缩：高效扩展大语言模型的上下文窗口

原标题: Recurrent Context Compression: Efficiently Expanding the Context Window of LLM

作者: Chensen Huang, Guibo Zhu, Xuepeng Wang, Yifei Luo, Guojing Ge, Haoran Chen, Dong Yi, Jinqiao Wang

机构: 中国科学院大学自动化研究所武汉人工智能研究院

摘要: 为了扩展基于Transformer的大语言模型（LLMs）的上下文长度并提高理解能力，我们经常面临由于计算资源和有限的内存存储容量而受限的挑战。这项工作介绍了一种名为Recurrent Context Compression（RCC）的方法，旨在在受限的存储空间内有效地扩展LLMs的上下文窗口长度。我们还研究了在下游任务中当指令和上下文都被压缩时模型响应不佳的问题，并提出了一种指令重构方法来缓解这个问题。我们在多个任务上验证了我们方法的有效性，在文本重构任务中实现了高达32倍的压缩率，BLEU4分数接近0.95，并在具有100万序列长度的密码检索任务中实现了近100％的准确率。最后，与未压缩方法相比，我们的方法在长文本问答任务中表现出竞争力，并在长文本推理任务中显著节省存储资源。我们的代码、模型和演示可在此https URL上找到。

论文链接: https://arxiv.org/pdf/2406.06110

Github: https://github.com/WUHU-G/RCC_Transformer

cs.CL: 用社会科学应用程序评估词汇语义变化的多维框架

原标题: A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications

作者: Naomi Baes, Nick Haslam, Ekaterina Vylomova

机构: 墨尔本大学计算机与信息系统学院

摘要: 历史语言学家已经确定了多种形式的词汇语义变化。我们提出了一个三维框架，用于整合这些形式，并提出了一个统一的计算方法来同时评估它们。这些维度代表了语义上的增加或减少：1）情感，2）广度，和3）强度。这些维度可以通过评估目标词的频率变化和其搭配词的主题内容的转变来互补。这个框架使得词汇语义变化能够经济、系统地被映射，并在计算社会科学中有应用。我们对两个语料库中有关心理健康和心理疾病语义转变的分析进行了说明，展示了语义变化的模式，阐明了当代关于病态化、污名化和概念蔓延的关注。

论文链接: https://arxiv.org/pdf/2406.06052

cs.CL: 高效的k最近邻机器翻译与动态检索

原标题: Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval

作者: Yan Gao, Zhiwei Cao, Zhongjian Miao, Baosong Yang, Shiyu Liu, Min Zhang, Jinsong Su

机构: 厦门大学阿里巴巴集团东吴大学文化和旅游部

摘要: 为了实现非参数化的神经机器翻译领域自适应， k k k-最近邻机器翻译（ k k kNN-MT）构建一个外部数据存储来存储领域特定的翻译知识，通过线性插值系数 λ \lambda λ推导出一个 k k kNN分布，以插值NMT模型的预测分布。尽管取得了成功，但每个时间步的 k k kNN检索导致了大量的时间开销。为了解决这个问题，主流研究倾向于使用具有自适应检索的 k k kNN-MT（ k k kNN-MT-AR），该方法动态估计 λ \lambda λ，并且如果 λ \lambda λ小于固定阈值，则跳过 k k kNN检索。不幸的是， k k kNN-MT-AR并未产生令人满意的结果。在本文中，我们首先进行了初步研究，揭示了 k k kNN-MT-AR的两个关键局限性：1）优化差距导致对于确定是否跳过 k k kNN检索的 λ \lambda λ估计不准确，2）使用固定阈值无法适应不同时间步的 k k kNN检索的动态需求。为了缓解这些限制，我们提出了具有动态检索的 k k kNN-MT（ k k kNN-MT-DR），在两个方面显著扩展了基本的 k k kNN-MT。首先，我们为 k k kNN-MT配备了基于MLP的分类器，用于确定是否在每个时间步跳过 k k kNN检索。特别地，我们探索了几个精心设计的标量特征，充分发挥了分类器的潜力。其次，我们提出了一种时间步感知的阈值调整方法，动态生成阈值，进一步提高了我们模型的效率。在广泛使用的数据集上的实验结果展示了我们模型的有效性和通用性。\footnote{我们的代码可在\url{this https URL}获取。}

论文链接: https://arxiv.org/pdf/2406.06073

Github: https://github.com/DeepLearnXMU/knn-mt-dr

cs.CL: Synth-SBDH: 用于临床文本的社会和行为健康决定因素的合成数据集

原标题: Synth-SBDH: A Synthetic Dataset of Social and Behavioral Determinants of Health for Clinical Text

作者: Avijit Mitra, Emily Druhl, Raelene Goodwin, Hong Yu

机构: 马萨诸塞大学阿默斯特分校美国退伍军人事务部 UMass Chan医学院马萨诸塞大学洛厄尔分校

摘要: 社会和行为健康决定因素（SBDH）在健康结果中发挥着至关重要的作用，并且经常在临床文本中有所记录。从临床文本中自动提取SBDH信息依赖于公开可用的高质量数据集。然而，现有的SBDH数据集在其可用性和覆盖范围方面存在重大局限性。在这项研究中，我们介绍了Synth-SBDH，这是一个新颖的合成数据集，具有详细的SBDH注释，涵盖了15个SBDH类别中的状态、时间信息和理由。我们展示了Synth-SBDH在三项任务上的实用性，使用了来自两个不同医院设置的真实临床数据集，突出了其多功能性、泛化能力和提炼能力。在Synth-SBDH上训练的模型始终优于没有Synth-SBDH训练的对应模型，最多实现了62.5%的宏F改进。此外，Synth-SBDH证明了对于罕见的SBDH类别和资源不足的情况是有效的。人类评估显示了71.06%的人类-大语言模型（Human-LLM）对齐，并揭示了未来改进的方向。

论文链接: https://arxiv.org/pdf/2406.06056

Github: https://github.com/avipartho/synth-sbdh

cs.CL: 巨人的肩膀：审视自然语言处理研究中的开放程度和实用性

原标题: Shoulders of Giants: A Look at the Degree and Utility of Openness in NLP Research

作者: Surangika Ranathunga, Nisansa de Silva, Dilith Jayakody, Aloka Fernando

机构: 梅西大学新西兰大学摩拉图瓦科学与工程系斯里兰卡

摘要: 我们分析了存档在ACL文集中的一些自然语言处理研究论文样本，试图量化NLP社区中开放程度的程度以及这种开放文化的好处。我们观察到，发表在不同NLP会议上的论文显示出与工件重复使用相关的不同模式。我们还注意到，我们分析的论文中超过30%的论文没有公开发布他们的工件，尽管他们承诺这样做。此外，我们观察到在公开可用的与NLP相关的工件方面存在着广泛的语言差异。

论文链接: https://arxiv.org/pdf/2406.06021

cs.CL: 流行的诅咒：当从语言模型中删除知识时，流行实体会产生灾难性的副作用

原标题: The Curse of Popularity: Popular Entities have Catastrophic Side Effects when Deleting Knowledge from Language Models

作者: Ryosuke Takahashi, Go Kamoda, Benjamin Heinzerling, Keisuke Sakaguchi, Kentaro Inui

机构: 东北大学 RIKEN MBZUAI

摘要: 语言模型（LMs）通过训练在其内部参数中编码世界知识。然而，LMs 可能会从训练数据中学习个人和机密信息，导致隐私问题，如数据泄露。因此，对 LM 中知识的删除研究至关重要。本研究侧重于存储在 LM 中的知识，并分析知识删除的副作用与知识相关实体之间的关系。我们的研究结果表明，删除与热门实体相关的知识可能会产生灾难性的副作用。此外，这项研究是第一个分析在训练于合成知识图上的模型中进行知识删除的研究，为受控实验指明了新方向。

论文链接: https://arxiv.org/pdf/2406.06032

cs.CL: MATES: 使用数据影响模型进行高效预训练的模型感知数据选择

原标题: MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models

作者: Zichun Yu, Spandan Das, Chenyan Xiong

机构: 卡内基梅隆大学 School of Computer Science

摘要: 预训练数据选择有潜力通过利用来自大规模网络数据语料库的高质量数据来提高语言模型的预训练效率。目前的数据选择方法，要么依赖于手工制定的规则，要么依赖于更大的参考模型，这些方法是静态进行的，并且不能捕捉到预训练过程中数据偏好的演变。在本文中，我们引入了具有数据影响模型（MATES）的模型感知数据选择，其中数据影响模型不断适应预训练模型的数据偏好演变，然后选择对当前预训练进展最有效的数据。具体来说，我们微调一个小型数据影响模型，以近似通过在本地探测预训练模型收集的oracle数据偏好信号，并相应地为下一个预训练阶段选择数据。在Pythia和C4数据集上的实验表明，MATES在零样本和少样本设置下在广泛的下游任务中明显优于随机数据选择。它使最近利用更大参考模型的数据选择方法所取得的收益翻倍，并将达到一定性能所需的总FLOPs减少了一半。进一步的分析验证了预训练模型的不断变化的数据偏好以及我们的数据影响模型捕捉它们的有效性。我们的代码在此https URL上开源。

论文链接: https://arxiv.org/pdf/2406.06046

Github: https://github.com/cxcscmu/MATES

cs.CL: HOLMES: 使用大语言模型进行多跳问题回答的超关系知识图谱

原标题: HOLMES: Hyper-Relational Knowledge Graphs for Multi-hop Question Answering using LLMs

作者: Pranoy Panda, Ankush Agarwal, Chaitanya Devaguptapu, Manohar Kaul, Prathosh A P

机构: 富士通印度研究所印度科学研究所, 孟买

摘要: 给定非结构化文本，大语言模型（LLMs）擅长回答简单（单跳）问题。然而，随着问题复杂度的增加，LLMs 的性能会下降。我们认为这是由于理解复杂问题、过滤和聚合原始文本中的非结构化信息所带来的开销。最近的方法试图通过将结构化知识三元组整合到原始文本中来减轻这种负担，旨在提供一个简化信息处理的结构化概述。然而，这种简单化的方法是与查询无关的，提取的事实是模糊的，因为它们缺乏上下文。为了解决这些缺点，并使LLMs能够轻松回答复杂（多跳）问题，我们建议使用一个具有上下文感知能力的知识图（KG），并将其精炼为包含与查询相关信息的知识。将我们压缩的精炼KG用作LLM的输入，使我们的方法利用最多 67 % 67\% 67%更少的标记来表示支持文档中存在的与查询相关信息，与最先进的方法相比。我们的实验表明，在两个流行的基准数据集（HotpotQA和MuSiQue）上，我们的方法在几个指标（EM，F1，BERTScore和人类评估）上始终优于最先进技术（SoTA）。

论文链接: https://arxiv.org/pdf/2406.06027

cs.CL: 泰语指代消解：泰语指代消解数据集

原标题: ThaiCoref: Thai Coreference Resolution Dataset

作者: Pontakorn Trakuekul, Wei Qi Leong, Charin Polpanumas, Jitkapat Sawatphol, William Chandra Tjhi, Attapol T. Rutherford

机构: 清华大学莆田科技大学新加坡人工智能研究院亚马逊 VISTEC

摘要: 在自然语言处理（NLP）领域，指代消解是一个成熟的研究领域，但由于缺乏大规模标注语料库，针对泰语的研究仍然有限。在这项工作中，我们介绍了ThaiCoref，这是一个用于泰语指代消解的数据集。我们的数据集包括777,271个标记、44,082个提及和10,429个实体，涵盖了四种文本体裁：大学论文、报纸、演讲和维基百科。我们的标注方案基于OntoNotes基准，并针对泰语特定现象进行了调整。利用ThaiCoref，我们训练了采用多语言编码器和跨语言转移技术的模型，在测试集上实现了67.88%的最佳F1得分。错误分析揭示了泰语独特语言特征带来的挑战。为了造福NLP社区，我们将数据集和模型公开提供在此 http URL。

论文链接: https://arxiv.org/pdf/2406.06000

Github: http://www.github.com/nlp-chula/thai-coref https://github.com/nlp-chula/thai-coref

cs.CL: 通过协同训练对放射学报告进行分类的双视图方法

原标题: A Dual-View Approach to Classifying Radiology Reports by Co-Training

作者: Yutong Han, Yan Yuan, Lili Mou

机构: 阿尔伯塔大学计算科学系阿尔伯塔机器智能研究所（Amii）
阿尔伯塔大学公共卫生学院
加拿大CIFAR人工智能主席，Amii

摘要: 放射学报告分析提供了有价值的信息，可以帮助公共卫生倡议，并且越来越受到研究界的关注。在这项工作中，我们提出了一个新颖的见解，即放射学报告的结构（即，发现和印象部分）提供了放射学扫描的不同视角。基于这一直觉，我们进一步提出了一种协同训练方法，其中两个机器学习模型分别建立在发现和印象部分的基础上，并利用彼此的信息以半监督的方式利用大量未标记数据来提高性能。我们在一项公共卫生监测研究中进行了实验，结果显示我们的协同训练方法能够利用双重视角提高性能，并超越竞争的监督和半监督方法。

论文链接: https://arxiv.org/pdf/2406.05995

Github: https://github.com/manga-uofa/radiology-cotrain

cs.CL: 比较数据增强方法对端到端任务导向型对话系统的影响

原标题: Comparing Data Augmentation Methods for End-to-End Task-Oriented Dialog Systems

作者: Christos Vlachos, Themos Stafylakis, Ion Androutsopoulos

机构: 雅典经济和商业大学 Omilia自然语言解决方案有限公司 Archimedes/Athena研究中心

摘要: 创建有效可靠的面向任务的对话系统（ToDSs）具有挑战性，不仅因为这些系统的复杂结构，还因为训练数据的稀缺性，特别是当需要分别训练多个模块时，每个模块都有自己的输入/输出训练示例。数据增强（DA）通过向训练数据添加合成训练示例，在其他自然语言处理系统中取得了成功，但在ToDSs中尚未得到广泛探讨。我们在端到端ToDS设置中对DA方法的有效性进行了实证评估，其中一个单一系统被训练来处理从用户输入到系统输出的所有处理阶段。我们在两个数据集（MultiWOZ，KVRET）上尝试了两个ToDSs（UBAR，GALAXY）。我们考虑了三种类型的DA方法（单词级，句子级，对话级），比较了在ToDSs和其他自然语言处理系统中表现出有希望结果的八种DA方法。我们表明所有考虑的DA方法都是有益的，并突出了最佳方法，同时为从业者提供建议。我们还引入了一个更具挑战性的少样本跨领域ToDS设置，得出类似的结论。

论文链接: https://arxiv.org/pdf/2406.06127

cs.CL: 直接偏好优化用于抑制放大的先验考试在放射学报告生成中

原标题: Direct Preference Optimization for Suppressing Hallucinated Prior Exams in Radiology Report Generation

作者: Oishi Banerjee, Hong-Yu Zhou, Subathra Adithan, Stephen Kwak, Kay Wu, Pranav Rajpurkar

机构: 哈佛大学计算机科学系生物医学信息学系约翰霍普金斯大学放射科系贾瓦哈拉尔尼赫鲁医学院及研究所放射诊断系

摘要: 最近在生成式视觉语言模型（VLMs）方面取得的进展对放射学中的人工智能具有潜在的重要意义，然而已知 VLMs 也会产生幻觉、无意义的文本和其他不良行为，这些行为会浪费临床医生的时间并对患者造成伤害。借鉴最近关于直接偏好优化（DPO）的研究成果，我们提出了一种简单的方法，通过抑制不需要的生成类型来修改预训练 VLMs 在放射学报告生成中的行为。我们将这种方法应用于预防先前检查的幻觉，解决了在执行胸部 X 光报告生成的模型中存在已久的问题行为。在我们的实验中，我们发现 DPO 微调可以实现先前检查幻觉行为的 3.2-4.8 倍减少，同时在临床准确性指标上保持模型性能。据我们所知，我们的工作是第一个将 DPO 应用于医学 VLMs 的工作，提供了一种数据和计算高效的方式来抑制问题行为，同时保持整体临床准确性。

论文链接: https://arxiv.org/pdf/2406.06496

cs.CL: 使用Delta规则在序列长度上并行化线性Transformer

原标题: Parallelizing Linear Transformers with the Delta Rule over Sequence Length

作者: Songlin Yang, Bailin Wang, Yu Zhang, Yikang Shen, Yoon Kim

机构: 麻省理工学院苏州大学 MIT-IBM沃森人工智能实验室

摘要: 最近，将具有线性注意力（即线性变压器）和状态空间模型的变压器作为变压器具有 softmax 注意力的可行的线性时间替代方案。然而，这些模型在特别需要上下文检索的任务上仍然表现不佳。虽然线性变压器的更具表现力的变体已经被发现用 delta 规则替换线性变压器中的加法外积更新更有效地进行联想回忆，但是用于训练这些模型的现有算法不能在序列长度上并行化，因此在现代硬件上训练效率低下。本文描述了一种用于训练具有 delta 规则的线性变压器的硬件高效算法，该算法利用了一种内存高效的表示形式来计算 Householder 矩阵的乘积。该算法使我们能够将 DeltaNet 扩展到标准语言建模设置。我们训练了一个包含 130 亿个 token 的模型，并发现在困惑度和零样本性能方面优于最近的线性时间基线，如 Mamba 和 GLA，在下游任务（包括专注于回忆的任务）上。我们还尝试了两种混合模型，将 DeltaNet 层与（1）每隔一层的滑动窗口注意力层或（2）两个全局注意力层相结合，并发现这些混合模型优于强变压器基线。

论文链接: https://arxiv.org/pdf/2406.06484

cs.CL: 朝向个人健康大语言模型

原标题: Towards a Personal Health Large Language Model

作者: Justin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean

机构: 谷歌

摘要: 在健康领域，大部分大语言模型（LLM）研究都集中在临床任务上。然而，移动和可穿戴设备很少整合到这些任务中，为个人健康监测提供了丰富的、纵向的数据。在这里，我们介绍了个人健康大语言模型（PH-LLM），它是从Gemini微调而来，用于理解和推理数值时间序列的个人健康数据。我们创建并整理了三个数据集，用于测试：1）从睡眠模式、身体活动和生理反应中产生个性化见解和建议，2）专家领域知识，以及3）预测自我报告的睡眠结果。对于第一个任务，我们与领域专家合作设计了857个案例研究，以评估睡眠和健身领域中的真实场景。通过对领域特定评分标准的全面评估，我们观察到Gemini Ultra 1.0和PH-LLM在健身方面与专家表现没有统计学差异，而专家在睡眠方面仍然优于PH-LLM，但微调PH-LLM在使用相关领域知识和个性化睡眠见解方面提供了显著改进。我们使用多项选择睡眠医学和健身考试评估了PH-LLM的领域知识。PH-LLM在睡眠方面达到了79%，在健身方面达到了88%，超过了一组人类专家的平均分数。最后，我们训练了PH-LLM来预测从可穿戴数据的文本和多模态编码表示中自我报告的睡眠质量结果，并展示了多模态编码是必需的，以匹配专门的判别模型的性能。尽管在安全关键的个人健康领域中需要进一步的发展和评估，但这些结果既展示了Gemini模型的广泛知识和能力，也展示了将生理数据情境化为个人健康应用的好处，就像PH-LLM所做的那样。

论文链接: https://arxiv.org/pdf/2406.06474

cs.CL: 哈士奇：一个统一的、开源的语言智能体，用于多步推理

原标题: Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning

作者: Joongwon Kim, Bhargavi Paranjape, Tushar Khot, Hannaneh Hajishirzi

机构: 华盛顿大学 Meta AI Allen AI研究所

摘要: 语言智能体通过使用工具精确执行每个步骤来执行复杂任务。然而，大多数现有的智能体都基于专有模型或者设计用于针对特定任务，比如数学或多跳问题回答。我们介绍了 Husky，一个全面的、开源的语言智能体，它学会了在统一的行动空间上进行推理，以解决涉及数字、表格和基于知识的推理的各种复杂任务。Husky在两个阶段之间迭代：1）生成下一个行动以解决给定任务，2）使用专家模型执行该行动并更新当前解决方案状态。我们确定了用于解决复杂任务的行动的全面本体论，并筛选了高质量数据来训练执行这些行动的专家模型。我们的实验表明，Husky在14个评估数据集上优于先前的语言智能体。此外，我们介绍了 HuskyQA，一个新的评估集，用于对语言智能体进行混合工具推理的压力测试，重点放在检索缺失知识和执行数字推理上。尽管使用了 7B 模型，Husky在这些任务上与甚至超过了前沿的大语言模型，如 GPT-4，展示了我们全面方法在解决复杂推理问题方面的有效性。我们的代码和模型可在此 https URL 上获得。

论文链接: https://arxiv.org/pdf/2406.06469

Github: https://github.com/agent-husky/Husky-v1

cs.CL: 一个用于乳腺癌肿瘤学的大语言模型管道

原标题: A Large Language Model Pipeline for Breast Cancer Oncology

作者: Tristen Pool, Dennis Trujillo

机构: 德尼斯·特鲁希略：Mercurial AI公司
特里斯滕·普尔：德克萨斯大学奥斯汀分校

摘要: 大语言模型（LLMs）已经展示出在许多领域创新的潜力。然而，如何最好地为肿瘤学开发它们仍未得到充分发展。最先进的OpenAI模型在临床数据集和临床指南文本语料库上进行了微调，针对两个重要的癌症治疗因素——辅助放射治疗和化疗，使用了一种新颖的Langchain提示工程流程。在乳腺癌患者的辅助放射治疗和化疗分类中取得了高准确度（0.85+）。此外，从人类肿瘤学家对治疗质量的观察数据中形成了一个置信区间，用于估计模型必须在其治疗预测中超越原始肿瘤学家的情景比例，以便成为更好的解决方案，范围为8.2%至13.3%。由于癌症治疗决策结果的不确定性，未来的调查，可能是临床试验，将需要确定模型是否达到了这一阈值。然而，由于85%的美国癌症患者在当地社区设施接受治疗，这类模型可能在扩大获得质量护理的同时发挥重要作用，其结果至少接近于人类肿瘤学家。

论文链接: https://arxiv.org/pdf/2406.06455

cs.CL: 利用大语言模型智能体将可穿戴数据转化为健康见解

原标题: Transforming Wearable Data into Health Insights using Large Language Model Agents

作者: Mike A. Merrill, Akshay Paruchuri, Naghmeh Rezaei, Geza Kovacs, Javier Perez, Yun Liu, Erik Schenck, Nova Hammerquist, Jake Sunshine, Shyam Tailor, Kumar Ayush, Hao-Wei Su, Qian He, Cory McLean, Mark Malhotra, Shwetak Patel, Jiening Zhan, Tim Althoff, Daniel McDuff, Xin Liu

机构: 谷歌有限责任公司

摘要: 尽管可穿戴健康追踪器的普及和睡眠以及锻炼对健康的重要性，从可穿戴数据中获得可操作的个性化见解仍然是一个挑战，因为这需要对这些数据进行非平凡的开放式分析。最近兴起的大语言模型（LLM）智能体可以使用工具来推理和与世界互动，为实现规模化的个性化分析提供了一个有希望的机会。然而，LLM智能体在分析个人健康方面的应用仍然大部分尚未开发。在本文中，我们介绍了个人健康见解智能体（PHIA），这是一个利用最先进的代码生成和信息检索工具来分析和解释来自可穿戴设备的行为健康数据的智能体系统。我们整理了两个超过4000个健康见解问题的基准问答数据集。基于650小时的人类和专家评估，我们发现PHIA能够准确回答超过84%的事实性数字问题和超过83%的众包开放式问题。这项工作对推动整个人群的行为健康具有重要意义，潜在地使个人能够解释自己的可穿戴数据，并为基于数据驱动见解的新型可访问、个性化的健康计划铺平道路。

论文链接: https://arxiv.org/pdf/2406.06464

cs.CL: AID：为指导视频预测而调整Image2Video扩散模型

原标题: AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

作者: Zhen Xing, Qi Dai, Zejia Weng, Zuxuan Wu, Yu-Gang Jiang

机构: 复旦大学微软亚洲研究院

摘要: 文本引导的视频预测（TVP）涉及根据指令从初始帧预测未来帧的运动，广泛应用于虚拟现实、机器人技术和内容创作。先前的TVP方法通过将稳定扩散技术应用于此任务取得了重大突破。然而，它们由于视频数据集规模有限而在帧一致性和时间稳定性方面存在困难。我们观察到，预训练的Image2Video扩散模型具有良好的视频动态先验知识，但它们缺乏文本控制。因此，将Image2Video模型转移以利用它们的视频动态先验知识，同时注入指令控制以生成可控视频，这既是一项有意义又具有挑战性的任务。为实现这一目标，我们引入了多模态大语言模型（MLLM）来根据初始帧和文本指令预测未来视频状态。更具体地说，我们设计了一个双查询Transformer（DQFormer）架构，将指令和帧集成到条件嵌入中，用于未来帧预测。此外，我们开发了长短期时间适配器和空间适配器，可以快速将通用视频扩散模型转移到具体场景，且训练成本最小。实验结果表明，我们的方法在四个数据集上明显优于最先进的技术：Something Something V2、Epic Kitchen-100、Bridge Data和UCF-101。值得注意的是，AID在Bridge和SSv2上分别实现了91.2%和55.5%的FVD改进，展示了其在各个领域的有效性。更多示例可在我们的网站上找到，网址为https://此处为URL。

论文链接: https://arxiv.org/pdf/2406.06465

Github: https://chenhsing.github.io/AID

cs.CL: 大语言模型数据集推理：你是在我的数据集上训练的吗？

原标题: LLM Dataset Inference: Did you train on my dataset?

作者: Pratyush Maini, Hengrui Jia, Nicolas Papernot, Adam Dziedzic

机构: 卡内基梅隆大学 DatologyAI 多伦多大学 Vector Institute CISPA Helmholtz信息安全中心

摘要: 大语言模型（LLMs）在现实世界中的大量使用伴随着对公司进行版权诉讼的增加，因为它们在未经许可的互联网数据上训练模型。最近的研究提出了一些方法，用于识别个别文本序列是否属于模型的训练数据，即成员推断攻击（MIAs）。我们证明，这些MIAs的明显成功受到选择非成员（未用于训练的文本序列）的干扰，这些非成员来自与成员不同的分布（例如，与用于训练模型的文章相比，时间上移动的最近维基百科文章）。这种分布转移使成员推断看起来成功。然而，大多数MIA方法在区分来自相同分布的成员和非成员（例如，在这种情况下，相同时间段）时并不比随机猜测更好。即使MIAs有效，我们发现不同的MIAs成功地推断来自不同分布的样本的成员资格。相反，我们提出了一种新的数据集推断方法，以准确识别用于训练大语言模型的数据集。这种范式在现代版权领域中具有现实意义，作者声称LLM是通过多个文档（如一本书）训练的，而不是特定的段落。虽然数据集推断与成员推断面临许多挑战，但我们通过有选择地结合为给定分布提供正面信号的MIAs，并将它们聚合以对给定数据集执行统计测试来解决这个问题。我们的方法成功地区分了Pile不同子集的训练集和测试集，具有统计显著的p值<0.1，没有任何误报。

论文链接: https://arxiv.org/pdf/2406.06443

Github: https://github.com/pratyushmaini/llm_dataset_inference

cs.CL: STimage-1K4M：一个用于空间转录组学的组织病理学图像-基因表达数据集

原标题: STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics

作者: Jiawen Chen, Muqing Zhou, Wenrong Wu, Jinwei Zhang, Yun Li, Didong Li

机构: 北卡罗来纳大学教堂山分校

摘要: 最近多模态算法的进展推动并受到大量图像文本数据集的增加的推动，从而在各个领域取得了重大进展，包括计算病理学。然而，在大多数现有的医学图像文本数据集中，文本通常提供高层次的摘要，可能不足以描述大型病理图像中的子瓷区域。例如，一幅图像可能涵盖包含癌症和健康区域的广泛组织区域，但随附的文本可能仅指定该图像是一张癌症切片，缺乏深入分析所需的微妙细节。在这项研究中，我们介绍了STimage-1K4M，这是一个新颖的数据集，旨在通过为子瓷图像提供基因组特征来弥合这一差距。STimage-1K4M包含1,149幅图像，这些图像源自空间转录组学数据，该数据捕获了病理图像中个别空间点的基因表达信息。具体而言，数据集中的每幅图像都被分解成较小的子图像瓦片，每个瓦片与15,000-30,000维的基因表达配对。通过4,293,195对子瓷图像和基因表达，STimage-1K4M提供了前所未有的细粒度，为多模态数据分析中的广泛高级研究和计算病理学以及其他领域的创新应用铺平了道路。

论文链接: https://arxiv.org/pdf/2406.06393

cs.CL: 朝向大语言模型的终身学习：一项调查

原标题: Towards Lifelong Learning of Large Language Models: A Survey

作者: Junhao Zheng, Shengjie Qiu, Chengming Shi, Qianli Ma

机构: 华南理工大学

摘要: 随着大语言模型（LLMs）在各个领域的应用不断扩展，这些模型适应数据、任务和用户偏好持续变化的能力变得至关重要。传统的训练方法依赖于静态数据集，越来越无法应对现实世界信息动态性的挑战。终身学习，也称为持续学习或增量学习，通过使LLMs能够在其运行寿命内持续和自适应地学习，整合新知识同时保留先前学到的信息并防止灾难性遗忘来解决这一挑战。本调查深入探讨了终身学习的复杂领域，将策略分为两个主要组：内部知识和外部知识。内部知识包括持续预训练和持续微调，每种方法都增强了LLMs在各种场景中的适应性。外部知识包括基于检索和基于工具的终身学习，利用外部数据源和计算工具扩展模型的能力而不修改核心参数。我们调查的主要贡献是：（1）引入一种新颖的分类法，将终身学习的广泛文献分类为12种情景；（2）识别所有终身学习情景中的常见技术，并将现有文献分类为各种技术组；（3）突出新兴技术，如模型扩展和数据选择，在LLM时代之前较少探讨。通过对这些组及其各自类别的详细研究，本调查旨在提高LLMs在实际应用中的适应性、可靠性和整体性能。

论文链接: https://arxiv.org/pdf/2406.06391

cs.CL: 通过高效微调在语音生成中学习细粒度可控性

原标题: Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning

作者: Chung-Ming Chien, Andros Tjandra, Apoorv Vyas, Matt Le, Bowen Shi, Wei-Ning Hsu

机构: 芝加哥大学丰田技术研究所 Meta AI

摘要: 随着生成模型规模的不断增长，高效地重用和调整预训练模型已成为至关重要的考虑因素。在这项工作中，我们提出了Voicebox Adapter，这是一种新颖的方法，通过交叉注意力模块将细粒度条件集成到预训练的Voicebox语音生成模型中。为了确保新添加模块与预训练模块的平滑集成，我们探索了各种高效的微调方法。我们的实验表明，具有偏置微调配置的LoRA表现出最佳性能，提高了可控性而不影响语音质量。在三个细粒度条件生成任务中，我们展示了Voicebox Adapter的有效性和资源效率。后续实验进一步突显了Voicebox Adapter在不同数据设置下的稳健性。

论文链接: https://arxiv.org/pdf/2406.06251

cs.CL: 低秩量化感知训练用于大语言模型

原标题: Low-Rank Quantization-Aware Training for LLMs

作者: Yelysei Bondarenko, Riccardo Del Chiaro, Markus Nagel

机构: 高通AI研究∗

摘要: 大语言模型（LLMs）随处可见，然而由于它们不断增加的计算和内存需求，它们的实际部署具有挑战性。量化是使它们更具计算和内存效率的最有效方法之一。量化感知训练（QAT）方法通常能够产生最佳的量化性能，但这可能会导致较长的训练时间和过多的内存使用，使得在应用于LLMs时变得不切实际。受参数高效微调（PEFT）和低秩适应（LoRA）文献的启发，我们提出了LR-QAT——一种轻量级且内存高效的LLMs量化感知训练算法。LR-QAT采用了几个组件来节省内存而不牺牲预测性能：（a）意识到量化网格的低秩辅助权重；（b）使用定点或双打包整数的下转换运算符；以及（c）检查点。与大多数相关工作不同，我们的方法（i）具有推理效率，与传统PTQ相比没有额外开销；（ii）可以被视为一种通用的扩展预训练框架，这意味着生成的模型仍然可以用于之后的任何下游任务；（iii）可以应用于各种量化设置，例如不同选择的量化粒度、激活量化，并且可以与许多PTQ技术无缝结合。我们将LR-QAT应用于LLaMA-2/3和Mistral模型系列，并在几个下游任务上验证其有效性。我们的方法优于常见的后训练量化（PTQ）方法，并在其内存使用的一小部分达到与完整模型QAT相同的模型性能。具体来说，我们可以在一台配备24GB内存的消费级GPU上训练一个7B的LLM。

论文链接: https://arxiv.org/pdf/2406.06385

cs.CL: 标签循环：用于转录器的高效解码

原标题: Label-Looping: Highly Efficient Decoding for Transducers

作者: Vladimir Bataev, Hainan Xu, Daniel Galvez, Vitaly Lavrukhin, Boris Ginsburg

机构: 英伟达公司伦敦大学

摘要: 这篇论文介绍了一种针对Transducer推理的高效贪婪解码算法。我们提出了一种使用CUDA张量表示批处理中的部分假设的新颖数据结构，支持并行化假设操作。在解码过程中，我们的算法通过采用嵌套循环设计来最大化GPU并行性，其中内循环消耗所有空白预测，而非空白预测在外循环中处理。我们的算法是通用的，可以与传统的Transducers和Token-and-Duration Transducers一起使用。实验证明，与传统的批处理解码算法相比，标签循环算法在使用批处理大小为32时可以带来高达2.0倍的加速，并且可以与其他编译器或GPU调用相关技术结合以获得更多加速。我们将开源我们的实现以造福研究社区。

论文链接: https://arxiv.org/pdf/2406.06220

cs.CL: 通过相对偏好优化对齐扩散模型：Diffusion-RPO

原标题: Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization

作者: Yi Gu, Zhendong Wang, Yueqin Yin, Yujia Xie, Mingyuan Zhou

机构: 德克萨斯大学微软McCombs School of Business

摘要: 将大语言模型与人类偏好进行对齐已成为语言建模研究的关键焦点。然而，将偏好学习整合到文本到图像（T2I）生成模型中仍然是相对未知的领域。Diffusion-DPO 技术通过在专为特定文本提示量身定制的扩散模型中采用成对偏好学习，取得了初步进展。我们介绍了 Diffusion-RPO，这是一种旨在更有效地将基于扩散的 T2I 模型与人类偏好对齐的新方法。该方法利用具有相同提示和具有跨多种模态的语义相关内容的提示-图像对。此外，我们开发了一种新的评估指标，样式对齐，旨在克服当前人类偏好对齐评估中普遍存在的高成本、低可重现性和有限可解释性的挑战。我们的研究结果表明，Diffusion-RPO 在调整 Stable Diffusion 版本 1.5 和 XL-1.0 时优于监督微调和 Diffusion-DPO 等已建立的方法，在人类偏好和样式对齐的自动评估中取得了优越的结果。我们的代码可在此 https URL 获取。

论文链接: https://arxiv.org/pdf/2406.06382

Github: https://github.com/yigu1008/Diffusion-RPO

cs.CL: StreamAtt：基于注意力机制的音频历史选择的直接流式语音转文本翻译

原标题: StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection

作者: Sara Papi, Marco Gaido, Matteo Negri, Luisa Bentivogli

机构: Fondazione Bruno Kessler

摘要: 流式语音转文本翻译（StreamST）是在逐步接收音频流的同时自动翻译语音的任务。与同时性语音转文本（SimulST）处理预分段语音不同，StreamST 面临处理连续和无限音频流的挑战。这需要额外的决策来确定前一历史记录的保留内容，但由于延迟和计算约束，完全保留是不切实际的。尽管实时语音转文本的实际需求存在，但关于流式翻译的研究仍然有限，现有作品仅专注于SimulST。为了填补这一空白，我们引入了StreamAtt，第一个StreamST策略，并提出了StreamLAAL，第一个旨在与SimulST现有指标相媲美的StreamST延迟度量。对MuST-C v1.0的所有8种语言进行的大量实验显示，与天真的流式基线和相关的SimulST策略相比，StreamAtt的有效性，为StreamST研究迈出了第一步。

论文链接: https://arxiv.org/pdf/2406.06097

cs.CL: 雷电：使用布朗桥进行统一回归扩散语音增强的单一反向步骤

原标题: Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge

作者: Thanapat Trachu, Chawan Piansaddhayanon, Ekapol Chuangsuwanich

机构: 中文：朱拉隆功大学计算分子生物学卓越中心
英文：Chulalongkorn University Center of Excellence in Computational Molecular Biology

摘要: 基于扩散的语音增强已经显示出有希望的结果，但可能会受到较慢的推理时间的影响。使用基于回归模型生成的增强音频初始化扩散过程，可以减少所需的计算步骤。然而，这些方法通常需要一个回归模型，进一步增加了系统的复杂性。我们提出了Thunder，一个统一的回归-扩散模型，利用布朗桥过程，可以使模型同时在两种模式下运行。通过将扩散时间步设置为接近1，可以访问回归模式。然而，在这种设置下，基于标准分数的扩散建模由于梯度不稳定而表现不佳。为了缓解这个问题，我们修改了扩散模型，以预测清晰语音而不是分数函数，以更紧凑的模型尺寸和更少的反向步骤实现具有竞争力的性能。

论文链接: https://arxiv.org/pdf/2406.06139

cs.CL: FLEUR：使用大型多模态模型进行图像字幕的可解释无参考评估度量

原标题: FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model

作者: Yebin Lee, Imseong Park, Myungjoo Kang

机构: 首尔国立大学数学科学系交叉学科人工智能项目

摘要: 大多数现有的图像字幕评估指标侧重于通过将其与参考字幕进行比较来为字幕分配单个数值分数。然而，这些方法并未提供分配分数的解释。此外，获取参考字幕是昂贵的。在本文中，我们提出了FLEUR，一种可解释的无参考指标，以将解释性引入图像字幕评估指标中。通过利用大型多模型，FLEUR可以评估字幕与图像之间的关系，而无需参考字幕，并提供分配分数的解释。我们引入了分数平滑化，以尽可能与人类判断接近，并且对用户定义的评分标准具有鲁棒性。FLEUR在各种图像字幕评估基准上与人类判断高度相关，并在无参考评估指标领域的Flickr8k-CF、COMPOSITE和Pascal-50S上取得了最先进的结果。我们的源代码和结果可在以下网址公开获取：this https URL。

论文链接: https://arxiv.org/pdf/2406.06004

Github: https://github.com/Yebin46/FLEUR

cs.CL: RepoQA: 评估长上下文代码理解

原标题: RepoQA: Evaluating Long Context Code Understanding

作者: Jiawei Liu, Jia Le Tian, Vijay Daita, Yuxiang Wei, Yifeng Ding, Yuhan Katherine Wang, Jun Yang, Lingming Zhang

摘要: 最近的进展一直在改进大语言模型（LLMs）的上下文窗口。为了量化LLMs的真实长上下文能力，评估者们开发了诸如流行的“草堆中的针”之类的评估工具，用于测试LLMs在大量原始文本上的表现。虽然有效，当前的评估忽视了LLMs如何处理长上下文代码（即存储库）的见解。为此，我们启动了RepoQA基准测试，以评估LLMs对长上下文代码的理解能力。传统的针对测试器要求LLMs直接从上下文中检索答案，而无需必要的深入理解。在RepoQA中，我们构建了我们的初始任务，即“搜索针功能”（SNF），它让LLMs根据其自然语言描述搜索函数，即如果LLMs无法理解描述和代码，则无法找到所需的函数。RepoQA是多语言和全面的：它包括了从5种现代编程语言中收集的50个热门存储库中提取的500个代码搜索任务。通过在RepoQA上评估26个通用和代码特定的LLMs，我们展示了：（i）最佳开源和专有模型之间仍然存在一小差距；（ii）不同模型擅长不同语言；以及（iii）模型可能在没有注释的情况下更好地理解代码。

论文链接: https://arxiv.org/pdf/2406.06025

cs.CL: CARES：医学视觉语言模型可信度的全面基准

原标题: CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models

作者: Peng Xia, Ze Chen, Juanxi Tian, Yangrui Gong, Ruibo Hou, Yue Xu, Zhenbang Wu, Zhiyuan Fan, Yiyang Zhou, Kangyu Zhu, Wenhao Zheng, Zhaoyang Wang, Xiao Wang, Xuchao Zhang, Chetan Bansal, Marc Niethammer, Junzhou Huang, Hongtu Zhu, Yun Li, Jimeng Sun, Zongyuan Ge, Gang Li, James Zou, Huaxiu Yao

机构: 北卡罗来纳大学教堂山分校 UIUC 布朗大学华盛顿大学微软研究院 UT Arlington 莫纳什大学斯坦福大学

摘要: 人工智能已经在医疗应用领域产生了显著影响，特别是随着医疗大视觉语言模型（Med-LVLMs）的出现，为自动化和个性化医疗的未来带来了乐观情绪。然而，Med-LVLMs 的可信度尚未经过验证，这给未来模型部署带来了重大风险。在本文中，我们介绍了 CARES，并旨在全面评估医疗领域 Med-LVLMs 的可信度。我们评估了 Med-LVLMs 在信任度、公平性、安全性、隐私性和稳健性等五个维度上的可信度。CARES 包括约41K个封闭和开放式格式的问题-答案对，涵盖了16种医学图像模态和27个解剖区域。我们的分析显示，这些模型一贯存在可信度方面的问题，经常显示事实不准确，并未能在不同人口群体之间保持公平性。此外，它们容易受到攻击，并表现出缺乏隐私意识。我们在此 https URL 上公开发布了我们的基准和代码。

论文链接: https://arxiv.org/pdf/2406.06007

Github: https://github.com/richard-peng-xia/CARES

cs.CL: 用音频提示大语言模型进行通用语音摘要

原标题: Prompting Large Language Models with Audio for General-Purpose Speech Summarization

作者: Wonjune Kang, Deb Roy

机构: 麻省理工学院 Massachusetts Institute of Technology

摘要: 在这项工作中，我们介绍了一个利用大语言模型（LLMs）的处理和推理能力进行语音摘要的框架。我们提出了一个端到端系统，将一个经过指令调整的LLM与一个音频编码器相结合，将语音转换为LLM可以解释的标记表示。利用一个带有配对语音文本数据的数据集，整个系统被训练为对相同语义信息的提示生成一致的响应，而不考虑输入的模态。由此产生的框架使LLM能够以与文本相同的方式处理语音输入，通过简单提示LLM实现语音摘要。与先前的方法不同，我们的方法能够总结任意领域的口头内容，并且可以通过改变LLM提示策略以不同风格生成摘要。实验证明，我们的方法优于先前的基于级联的语音识别后跟LLM文本处理的基线。

论文链接: https://arxiv.org/pdf/2406.05968

cs.CL: ShiftAddLLM：通过训练后的无乘法重新参数化加速预训练的大语言模型

原标题: ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization

作者: Haoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi, Xiaofan Zhang, Souvik Kundu, Amir Yazdanbakhsh, Yingyan Lin

机构: 佐治亚理工学院英特尔实验室谷歌谷歌DeepMind

摘要: 大语言模型（LLMs）在语言任务上表现出色，但在资源受限设备上部署时面临挑战，因为它们具有庞大的参数并依赖密集的乘法运算，导致内存需求高和延迟瓶颈。Shift-and-add 重新参数化通过在LLM的注意力和多层感知器（MLP）层中用硬件友好的原语替换昂贵的乘法，提供了一个有前途的解决方案。然而，当前的重新参数化技术要求从头开始训练或完全参数微调以恢复准确性，这对LLMs来说是资源密集型的。为了解决这个问题，我们提出了通过后训练的Shift-and-add重新参数化来加速预训练的LLMs，创建高效的无乘法模型，称为ShiftAddLLM。具体地，我们将每个权重矩阵量化为与分组缩放因子配对的二进制矩阵。相关的乘法被重新参数化为（1）激活和缩放因子之间的偏移和（2）根据二进制矩阵的查询和加法。为了减少准确性损失，我们提出了一种多目标优化方法，以最小化权重和输出激活重新参数化错误。此外，基于各层对重新参数化的敏感性不同，我们开发了一种自动位分配策略，进一步减少内存使用和延迟。对五个LLM系列和八个任务的实验始终验证了ShiftAddLLM的有效性，相比于3位和2位的最具竞争力的量化LLMs，平均困惑度提高了5.6和22.7个点，同时延迟相当或更低，并且比原始LLMs减少了80%以上的内存和能量消耗。代码和模型可在此 https URL 上获得。

论文链接: https://arxiv.org/pdf/2406.05981

Github: https://github.com/GATECH-EIC/ShiftAddLLM

cs.CL: CVQA：跨文化多语言视觉问答基准。

原标题: CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark

作者: David Romero, Chenyang Lyu, Haryo Akbarianto Wibowo, Teresa Lynn, Injy Hamed, Aditya Nanda Kishore, Aishik Mandal, Alina Dragonetti, Artem Abzaliev, Atnafu Lambebo Tonja, Bontu Fufa Balcha, Chenxi Whitehouse, Christian Salamea, Dan John Velasco, David Ifeoluwa Adelani, David Le Meur, Emilio Villa-Cueva, Fajri Koto, Fauzan Farooqui, Frederico Belcavello, Ganzorig Batnasan, Gisela Vallejo, Grainne Caulfield, Guido Ivetta, Haiyue Song, Henok Biadglign Ademtew, Hernán Maina, Holy Lovenia, Israel Abebe Azime, Jan Christian Blaise Cruz, Jay Gala, Jiahui Geng, Jesus-German Ortiz-Barajas, Jinheon Baek, Jocelyn Dunstan, Laura Alonso Alemany, Kumaranage Ravindu Yasas Nagasinghe, Luciana Benotti, Luis Fernando D’Haro, Marcelo Viridiano, Marcos Estecha-Garitagoitia, Maria Camila Buitrago Cabrera, Mario Rodríguez-Cantelar, Mélanie Jouitteau, Mihail Mihaylov, Mohamed Fazli Mohamed Imam, Muhammad Farid Adilazuarda, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Naome Etori, Olivier Niyomugisha, Paula Mónica Silva, Pranjal Chitale, Raj Dabre, Rendi Chevi, Ruochen Zhang, Ryandito Diandaru, Samuel Cahyawijaya, Santiago Góngora, Soyeong Jeong, Sukannya Purkayastha, Tatsuki Kuribayashi, Thanmay Jayakumar, Tiago Timponi Torrent, Toqeer Ehsan, Vladimir Araujo, Yova Kementchedjhieva, Zara Burzo, Zheng Wei Lim, Zheng Xin Yong, Oana Ignat, Joan Nwatu, Rada Mihalcea, Thamar Solorio, Alham Fikri Aji

摘要: 视觉问答（VQA）是多模态人工智能中的一个重要任务，通常用于测试视觉-语言模型理解和推理视觉和文本数据中的知识能力。然而，目前大多数VQA模型使用的数据集主要集中在英语和少数主要世界语言上，图像通常以西方为中心。尽管最近的努力试图增加VQA数据集中涵盖的语言数量，但仍然缺乏低资源语言的多样性。更重要的是，尽管这些数据集通常通过翻译或其他方法扩展其语言范围，但它们通常保持图像不变，导致文化表达受限。为了解决这些限制，我们构建了CVQA，一个新的跨文化多语言视觉问答基准，旨在涵盖丰富的语言和文化，我们在数据收集过程中邀请了母语者和文化专家参与。因此，CVQA包括来自四大洲28个国家的文化驱动图像和问题，涵盖了26种语言，包括11种文字，提供了总共9k个问题。然后我们在CVQA上对几个多模态大语言模型（MLLMs）进行基准测试，并展示该数据集对当前最先进模型具有挑战性。这个基准测试可以作为一个探索性评估套件，用于评估多模态模型的文化能力和偏见，并希望鼓励更多的研究努力，以增加这一领域的文化意识和语言多样性。

论文链接: https://arxiv.org/pdf/2406.05967

cs.CL: Turbo Sparse: 用最少的激活参数实现大语言模型的 SOTA 性能

原标题: Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

作者: Yixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen

机构: 上海交通大学计算机科学与技术系清华大学上海人工智能实验室

摘要: 利用激活稀疏性是一种有前途的方法，可以显著加速大型语言模型（LLMs）的推理过程，而不会影响性能。然而，激活稀疏性是由激活函数决定的，常用的激活函数如SwiGLU和GeGLU表现出有限的稀疏性。简单地用ReLU替换这些函数无法实现足够的稀疏性。此外，不足的训练数据还会进一步增加性能下降的风险。为了解决这些挑战，我们提出了一种新颖的dReLU函数，旨在改善LLM激活稀疏性，同时提供高质量的训练数据混合比例以促进有效的稀疏化。此外，我们利用混合专家模型（MoE）中前馈网络（FFN）专家内的稀疏激活模式来进一步提高效率。通过将我们的神经元稀疏化方法应用于Mistral和Mixtral模型，分别在每次推理迭代中仅激活25亿和43亿个参数，同时实现更强大的模型性能。评估结果表明，这种稀疏性实现了2-5倍的解码加速。值得注意的是，在手机上，我们的TurboSparse-Mixtral-47B实现了每秒11个标记的推理速度。我们的模型可在\url{此https URL}上获得。

论文链接: https://arxiv.org/pdf/2406.05955

其他链接: https://huggingface.co/PowerInfer

标签：11,语言,CL,模型,Arxiv,2024,https,org,我们
From： https://blog.csdn.net/wjjc1017/article/details/139599083