大语言模型(LLM)的出现无疑是人工智能领域近年来最重要的突破之一。从GPT到ChatGPT,再到最新的GPT-4,这些模型展现出了惊人的自然语言理解和生成能力,在各个领域都引发了广泛的应用。然而,即便是最先进的LLM,在与人类进行对话时也常常会出现理解偏差、答非所问等问题。如何让AI更好地理解人类意图,产生更符合人类期望的回答,一直是学界和业界关注的重点问题。
传统方法:训练模型以适应人类
目前,主流的解决方案是通过进一步训练模型来提升其对齐程度(alignment)。比如,OpenAI采用的人类反馈强化学习(RLHF)方法,就是通过人工标注大量对话样本的优劣,训练奖励模型和策略模型,从而让ChatGPT能够产生更符合人类偏好的回答。还有一些方法如直接偏好优化(DPO)等,也是类似的思路。
这些方法虽然取得了不错的效果,但也存在一些明显的缺陷:
-
效率低下。随着模型规模的不断扩大,训练成本呈指数级增长。特别是强化学习算法本身就不太稳定,在大模型上进行微调更是难上加难。
-
可访问性差。目前表现最好的一些模型如GPT-4、Claude-2等都是闭源的,只能通过API调用。这意味着普通用户根本无法对模型进行进一步训练来提升对齐程度。
-
可解释性不足。通过这些方法对模型进行调整后,很难解释模型究竟学到了什么,为什么会产生更好的效果。
新思路:优化人类输入以适应AI
面对这些挑战,清华大学的研究人员提出了一个全新的思路 - 不去改变模型,而是优化人类的输入,让输入更适合AI理解。这种方法被称为"黑盒提示优化"(Black-Box Prompt Optimization, BPO)。
BPO的核心思想是:既然我们无法改变AI的"思维方式",那不如换个角度,让我们的表达方式更适合AI理解。就像和一个外国人交流,与其让他学习我们的语言,不如我们用他更熟悉的方式来表达。
具体来说,BPO通过以下步骤来实现这一目标:
-
收集带有人类偏好标注的对话数据集。研究人员从多个公开数据集中筛选出了约1.4万条高质量的样本,每个样本包含一个原始提示、一个好的回答和一个差的回答。
-
利用大语言模型分析好坏回答的区别,并据此优化原始提示。研究人员精心设计了提示工程(prompt engineering)策略,让ChatGPT能够分析出好坏回答的关键区别,并据此给出优化后的提示。
-
基于优化前后的提示对,训练一个小型的序列到序列模型。这个模型就像是人类和AI之间的"翻译官",能够自动将人类的原始提示转化为更适合AI理解的形式。
这种方法带来了多方面的优势:
-
高效。不需要对大型语言模型进行训练,只需训练一个小型的优化器模型。
-
通用性强。可以应用于任何语言模型,包括那些只能通过API访问的闭源模型。
-
可解释性好。我们可以直观地看到优化前后提示的变化,理解优化的过程和效果。
实验结果:BPO的惊人效果
研究人员在多个主流大语言模型上进行了广泛的实验,结果令人振奋。以下是一些关键发现:
-
普遍提升。BPO在各种模型上都取得了显著的效果提升。例如,在gpt-3.5-turbo上,胜率提升了22个百分点;在GPT-4上,提升了10.1个百分点。
-
优于RLHF。在某些情况下,BPO甚至超过了传统的RLHF方法。这意味着,通过优化输入,我们可能比直接调整模型达到更好的效果。
-
互补性。更有趣的是,BPO与RLHF等方法是互补的。在已经经过RLHF训练的模型上应用BPO,仍然能带来额外的性能提升。
-
适用性广。BPO不仅适用于对话生成,在其他任务如数据增强、监督学习等方面也展现出了潜力。
BPO如何优化提示?
那么,BPO究竟是如何优化原始提示的呢?研究人员对此进行了深入的分析,发现主要有以下几个方面:
-
提示解释。BPO会对原始提示中的关键概念或要求进行详细解释,确保AI能够准确理解任务目标。
-
提示澄清。对于含糊不清或可能产生歧义的表述,BPO会进行澄清和明确化。
-
提示丰富。BPO会根据任务需求,补充一些相关的背景信息或具体要求,让AI能够更全面地理解任务。
-
安全增强。BPO会增加一些安全相关的提示,如提醒AI遵守道德准则、避免产生有害内容等。
举个例子,对于一个简单的"讲个笑话"的提示,BPO可能会将其优化为:
请讲述一个适合所有年龄段的轻松幽默笑话。这个笑话应该:
1. 内容友好,不涉及任何敏感或争议性话题
2. 结构简单,易于理解
3. 有一个出人意料但合乎逻辑的结尾
4. 长度适中,不超过5句话
5. 尽量原创,避免使用广为人知的老套笑话
请记住,笑话的目的是带来欢乐,不应该冒犯或贬低任何个人或群体。如果你觉得无法满足这些要求,可以坦诚地说明原因。
可以看到,优化后的提示不仅明确了笑话的具体要求,还加入了安全性考虑,大大增加了AI生成高质量、合适回答的可能性。
BPO的未来:AI交流的新范式?
BPO的出现为人机交互带来了新的可能性。它就像是在人类和AI之间安插了一个"心理医生",帮助双方更好地理解彼此。这种方法不仅能提高AI回答的质量,还能帮助人类更好地学习如何与AI沟通。
未来,我们可以期待看到:
-
更智能的输入优化器。随着技术的进步,优化器可能会变得更加智能,能够根据不同的AI模型、任务类型和用户特征来动态调整优化策略。
-
个性化的交流助手。每个人与AI交流的风格和需求都不同,未来可能会出现能够学习用户个人风格的个性化BPO助手。
-
跨模态的优化。BPO的思想可能会扩展到其他模态,比如优化图像提示以获得更好的文生图效果。
-
人机协作的新模式。BPO为人机协作提供了一个新的视角,未来可能会出现更多基于这一思想的创新应用。
当然,BPO也面临着一些挑战。比如如何在保持提示本意的同时进行优化,如何处理多轮对话中的上下文信息等。这些都是未来研究需要解决的问题。
总的来说,BPO开创了一种全新的AI对齐方法,为提升人机交互质量提供了一个富有前景的方向。它让我们重新思考了人与AI沟通的本质,或许在不久的将来,学会"如何与AI对话"将成为每个人的必修课。在AI快速发展的今天,BPO无疑为我们打开了一扇通向人机和谐共处的新大门。
参考文献
-
Cheng, J., Liu, X., Zheng, K., Ke, P., Wang, H., Dong, Y., … & Huang, M. (2023). Black-Box Prompt Optimization: Aligning Large Language Models without Model Training. arXiv preprint arXiv:2311.04155.
-
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
-
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., … & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744.
-
Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., & Finn, C. (2023). Direct preference optimization: Your language model is secretly a reward model. arXiv preprint arXiv:2305.18290.
-
Yang, Z., Gan, Z., Wang, X. E., Ling, H. Y., Wang, A., Liu, Z., … & Subramanian, L. (2023). Opro: Open-vocabulary preference optimization for human-ai collaboration. arXiv preprint arXiv:2306.14685.