论文速读|Duty-distinct chain-of-thought prompting for multimodal reasoning in language models
论文信息:
简介:
论文探讨了如何使大型语言模型(LLMs)在多模态环境中进行复杂的推理,这一直是人工智能系统的长期目标。尽管最近的研究表明,通过模仿人类思维过程的“思维链”(Chain of Thought,简称CoT)可以显著提高LLMs在纯语言模态上的多步推理能力,但将这些进步转移到涉及图像和语言的多模态环境中面临着更高的挑战,包括劳动密集型的标注需求、灵活性、泛化能力和可解释性的限制。针对该问题,论文试图解决的问题是如何在多模态环境中激发CoT推理,特别是在多模态CoT推理中保持批判性思维和合理分配推理与识别任务的挑战。为了应对这些挑战,论文提出了两个关键的洞见:“保持批判性思维”和“让每个人各司其职”。
论文方法:
论文提出了一种新颖的DDCoT(Duty-Distinct Chain-of-Thought Prompting)提示方法,该方法通过负面空间提示维持批判性态度,并通过将LLMs的推理责任划分为推理和识别,然后将视觉模型的视觉识别能力整合到联合推理过程中,从而将多模态性纳入推理。DDCoT生成的理由不仅提高了大型和小型企业语言模型在零样本提示和微调学习中的推理能力,显著优于最先进的方法,而且还展示了出色的泛化能力和可解释性。论文还详细介绍了如何利用生成的理由来促进LLMs的多模态问题回答,包括在零样本提示和微调学习中的应用。
论文实验:
实验分为两个主要部分:零样本(Zero-shot)学习和微调(Fine-tuning)学习。
1. 零样本学习
在这部分,研究者们测试了DDCoT方法在没有经过特定训练的情况下,直接将生成的理由(rationales)与问题陈述结合起来,作为输入提供给大型语言模型(LLMs),如ChatGPT和GPT-3。实验结果显示,DDCoT方法能够显著提高模型在图像相关问题上的性能,与现有的最先进方法相比,平均性能分别提高了2.53%和8.23%。
2. 微调学习
在微调设置中,研究者们进一步探索了如何利用生成的理由来改善模型对多模态输入的理解。他们提出了深度层提示(Deep-Layer Prompting, DLP)和理由压缩视觉嵌入(Rational-Compressed Visual Embedding, RCVE)两种技术,以改善跨模态信息的对齐和联合推理。实验结果表明,这些技术能够有效提高模型在多模态推理任务中的性能。
论文链接:
https://arxiv.org/abs/2310.16436
原文来自:
标签:Duty,NLP,DDCoT,速读,LLMs,模型,论文,模态,推理 From: https://blog.csdn.net/2401_85576118/article/details/143428559