::: hljs-right DATE: October 12, 2024 :::
Agent
智能体可能需要包含感知、记忆、规划、反思、互动五个模块
图源:https://lilianweng.github.io/posts/2023-06-23-agent/
以上图的组件为例,
Planning
- 任务分解: 使用链式思考(Chain of Thought)技术,将复杂任务分解为更小、更简单的步骤。
- 自我反思: 通过反思过去的行动来改进未来的步骤,这对于实际任务中试错是至关重要的。
Memory
- 记忆类型: 感官记忆、短期记忆/工作记忆、长期记忆。
- 最大内积搜索(MIPS): 使用向量存储数据库支持快速检索信息。
Tools
- MRKL: 模块化推理、知识和语言架构,结合了神经和符号模块。
- TALM和Toolformer: 微调语言模型来学习使用外部工具API。
LLM+游戏
游戏类型
语文类游戏、桌游卡牌类游戏、说服类挑战、规则类怪谈、电子抖蛐蛐类、开放世界类、侦探解谜类、多人跑团类、模拟演化类、策略部署类、AI辅助开发类、游戏解说类、AI NPC类等均可。
可能结合的方向
- 调用现有大模型API,接入游戏NPC。
- 调用现有大模型API,辅助游戏策略。
- 微调训练游戏行业大模型,定制游戏人物风格。
- 使用文生图、图生图、音乐等多模态大模型,丰富游戏体验。
LLM对齐
LLM(Large Language Model,大语言模型)的对齐是指确保模型的行为和输出与人类的价值观、意图和期望保持一致的过程。由于大语言模型具有生成复杂文本的能力,它们有时可能会产生不准确、有害或不符合社会道德标准的内容。对齐技术的目标就是减少这些风险,使模型更加可靠、安全和符合人类的使用需求。
具体来说,LLM对齐涉及以下几个方面:
- 价值观对齐:确保模型生成的内容符合人类的道德和伦理标准,避免产生歧视性、偏见性或有害的输出。
- 意图对齐:使模型的响应更准确地反映用户的意图,提高模型的可用性和用户体验。
- 性能对齐:优化模型在不同任务上的表现,使其在各种应用场景中都能提供高质量的输出。
LLM对齐技术
RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习):
通过收集人类对模型输出的偏好数据,训练一个奖励模型。 使用强化学习算法(如PPO)根据奖励模型来微调大语言模型,使其输出更符合人类期望。
RLAIF(Reinforcement Learning from AI Feedback,基于人工智能反馈的强化学习):
利用其他人工智能系统提供的反馈来训练模型,减少对人类反馈数据的依赖。
PPO(Proximal Policy Optimization,近端策略优化):
一种常用的强化学习算法,用于根据奖励模型优化模型的策略。
DPO(Distributed Prioritized Experience Replay,分布式优先经验回放):
一种改进的强化学习技术,通过优先处理更有价值的数据来提高训练效率。
对齐的重要性
- 安全性:防止模型生成有害或误导性的内容。
- 可靠性:提高模型输出的准确性和一致性。
- 可解释性:使模型的决策过程更透明,便于用户理解和信任。