NOTE6：Agent/LLM+游戏/LLM中的对齐

时间：2024-10-18 22:19:23浏览次数：3

标签：输出游戏模型 Agent NOTE6 LLM 人类对齐

::: hljs-right DATE: October 12, 2024 :::

Agent

智能体可能需要包含感知、记忆、规划、反思、互动五个模块

图源：https://lilianweng.github.io/posts/2023-06-23-agent/

以上图的组件为例，

Planning

任务分解： 使用链式思考（Chain of Thought）技术，将复杂任务分解为更小、更简单的步骤。
自我反思： 通过反思过去的行动来改进未来的步骤，这对于实际任务中试错是至关重要的。

Memory

记忆类型： 感官记忆、短期记忆/工作记忆、长期记忆。
最大内积搜索（MIPS）： 使用向量存储数据库支持快速检索信息。

Tools

MRKL： 模块化推理、知识和语言架构，结合了神经和符号模块。
TALM和Toolformer： 微调语言模型来学习使用外部工具API。

LLM+游戏

#寻找与游戏大魔王#

游戏类型

语文类游戏、桌游卡牌类游戏、说服类挑战、规则类怪谈、电子抖蛐蛐类、开放世界类、侦探解谜类、多人跑团类、模拟演化类、策略部署类、AI辅助开发类、游戏解说类、AI NPC类等均可。

可能结合的方向

调用现有大模型API，接入游戏NPC。
调用现有大模型API，辅助游戏策略。
微调训练游戏行业大模型，定制游戏人物风格。
使用文生图、图生图、音乐等多模态大模型，丰富游戏体验。

LLM对齐

LLM（Large Language Model，大语言模型）的对齐是指确保模型的行为和输出与人类的价值观、意图和期望保持一致的过程。由于大语言模型具有生成复杂文本的能力，它们有时可能会产生不准确、有害或不符合社会道德标准的内容。对齐技术的目标就是减少这些风险，使模型更加可靠、安全和符合人类的使用需求。

具体来说，LLM对齐涉及以下几个方面：

价值观对齐：确保模型生成的内容符合人类的道德和伦理标准，避免产生歧视性、偏见性或有害的输出。
意图对齐：使模型的响应更准确地反映用户的意图，提高模型的可用性和用户体验。
性能对齐：优化模型在不同任务上的表现，使其在各种应用场景中都能提供高质量的输出。

LLM对齐技术

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）：

通过收集人类对模型输出的偏好数据，训练一个奖励模型。使用强化学习算法（如PPO）根据奖励模型来微调大语言模型，使其输出更符合人类期望。

RLAIF（Reinforcement Learning from AI Feedback，基于人工智能反馈的强化学习）：

利用其他人工智能系统提供的反馈来训练模型，减少对人类反馈数据的依赖。

PPO（Proximal Policy Optimization，近端策略优化）：

一种常用的强化学习算法，用于根据奖励模型优化模型的策略。

DPO（Distributed Prioritized Experience Replay，分布式优先经验回放）：

一种改进的强化学习技术，通过优先处理更有价值的数据来提高训练效率。

对齐的重要性

安全性：防止模型生成有害或误导性的内容。
可靠性：提高模型输出的准确性和一致性。
可解释性：使模型的决策过程更透明，便于用户理解和信任。

标签：输出,游戏,模型,Agent,NOTE6,LLM,人类,对齐
From： https://blog.51cto.com/u_16649529/12297312

使用LangGraph构建多Agent系统架构！
0前言Agent是一个使用大语言模型决定应用程序控制流的系统。随着这些系统的开发，它们随时间推移变得复杂，使管理和扩展更困难。如你可能会遇到：Agent拥有太多的工具可供使用，对接下来应该调用哪个工具做出糟糕决策上下文过于复杂，以至于单个Agent无法跟踪系统中需要多个专业领域（......
ELK（Elasticsearch、Kibana、Filebeat、Metricbeat、Logstash、Elastic Agent、Fleet S
（241018）.env#项目名COMPOSE_PROJECT_NAME=es#elastic用户（至少6个数字）ELASTIC_PASSWORD=#kibana用户（至少6个数字）KIBANA_PASSWORD=#版本号，一定要填写需求版本#https://www.elastic.co/downloads/past-releases#elasticsearchSTACK_VERSION=8.15.1#集群名CLUSTER_NA......
Google Tx-LLM：用大型语言模型助力治疗药物开发
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://......
图论day64 ：最短路径算法 | SPFA（Bellman_ford的队列优化版）、城市间货物运输 I、Ⅱ、Ⅲ
图论day64：最短路径算法|SPFA（Bellman_ford的队列优化版）、94.城市间货物运输I（卡码网）【SPFA算法+邻接表优化】、95.城市间货物运输II（判断负权回路）、96.城市间货物运输III【已知有负权回路，该如何计算】、Bellman_ford算法思维导图汇总SPFA（Bellman_ford的队列优化版）94......
Ollama + LangChain: 本地运行LLM大语言模型
简介在大型语言模型（LLM）领域，Ollama和LangChain已经成为开发人员和研究人员的强大工具。Ollama提供了一种无缝本地运行开源LLM的方式，而LangChain提供了将模型灵活集成到应用程序中的框架。本文将介绍如何设置和使用Ollama和LangChain，以便能够在项目中利用LLM的强大功能。搭建Ollam......
o1快慢思考的风又吹到了Agent！
智能体（Agent）通过自然对话与用户互动有两个任务：交谈和规划/推理。对话回应必须基于所有可用信息，行动必须有助于实现目标。与用户交谈和进行多步推理和规划之间的二分法，类似卡尼曼引入的人类快速思考和慢速思考系统。为此，GoogleDeepMind提出了一个名为Talker-Reasoner的双系统......
大模型中的Agent
简介：个人学习分享，如有错误，欢迎批评指正。在大模型（如GPT-4等大型语言模型）中，Agent（代理）是指具备自主决策和执行能力的智能体，能够根据输入的信息和环境，自主完成特定任务或实现特定目标。Agent通常结合了大模型的强大语言理解和生成能力，以及其他模块化的功能，如感知、规划、......
大模型（LLM）最新研究论文介绍（合集）
目录\1.CTRLA:通过探针引导控制的自适应检索增强生成\2.压缩大型语言模型：使用低秩和低精度分解方法\3.通过LLM知识转移增强零样本面部表情识别\4.大型语言模型（LLMs）：部署、代币经济学与可持续性\5.审视大型语言模型提示策略以自动评估学习者创建的计算成果———......
UCB CS194/294-196 (LLM Agents) Lecture 4 (2024.10.1)
预备知识英文缩写&术语英语简中补充LargeLanguageModel(LLM)大语言模型ArtificialGeneralIntelligence(AGI)通用人工智能一个远大的目标Agent智能体/代理Embody具身Multi-AgentSystem(MAS)多智能体系统Token文本分割后得到的最小语义单位Prompt提示词我们向AI提出的......
代码随想录训练营第64天|bellman_ford
47.参加科学大会#include<iostream>#include<vector>#include<list>#include<queue>#include<climits>usingnamespacestd;//小顶堆classmycomparison{public:booloperator()(constpair<int,int>&lhs,constpai......