首页 > 其他分享 >NOTE6:Agent/LLM+游戏/LLM中的对齐

NOTE6:Agent/LLM+游戏/LLM中的对齐

时间:2024-10-18 22:19:23浏览次数:3  
标签:输出 游戏 模型 Agent NOTE6 LLM 人类 对齐

::: hljs-right DATE: October 12, 2024 :::

Agent

智能体可能需要包含感知记忆规划反思互动五个模块

image.png 图源:https://lilianweng.github.io/posts/2023-06-23-agent/


以上图的组件为例,

Planning

  • 任务分解: 使用链式思考(Chain of Thought)技术,将复杂任务分解为更小、更简单的步骤。
  • 自我反思: 通过反思过去的行动来改进未来的步骤,这对于实际任务中试错是至关重要的。

Memory

  • 记忆类型: 感官记忆、短期记忆/工作记忆、长期记忆。
  • 最大内积搜索(MIPS): 使用向量存储数据库支持快速检索信息。

Tools

  • MRKL: 模块化推理、知识和语言架构,结合了神经和符号模块。
  • TALM和Toolformer: 微调语言模型来学习使用外部工具API。

LLM+游戏

#寻找与游戏大魔王#


游戏类型

语文类游戏、桌游卡牌类游戏、说服类挑战、规则类怪谈、电子抖蛐蛐类、开放世界类、侦探解谜类、多人跑团类、模拟演化类、策略部署类、AI辅助开发类、游戏解说类、AI NPC类等均可。

可能结合的方向

  • 调用现有大模型API,接入游戏NPC。
  • 调用现有大模型API,辅助游戏策略。
  • 微调训练游戏行业大模型,定制游戏人物风格。
  • 使用文生图、图生图、音乐等多模态大模型,丰富游戏体验。

LLM对齐

LLM(Large Language Model,大语言模型)的对齐是指确保模型的行为和输出与人类的价值观、意图和期望保持一致的过程。由于大语言模型具有生成复杂文本的能力,它们有时可能会产生不准确、有害或不符合社会道德标准的内容。对齐技术的目标就是减少这些风险,使模型更加可靠、安全和符合人类的使用需求。


具体来说,LLM对齐涉及以下几个方面:

  • 价值观对齐:确保模型生成的内容符合人类的道德和伦理标准,避免产生歧视性、偏见性或有害的输出。
  • 意图对齐:使模型的响应更准确地反映用户的意图,提高模型的可用性和用户体验。
  • 性能对齐:优化模型在不同任务上的表现,使其在各种应用场景中都能提供高质量的输出。

LLM对齐技术

RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习):

通过收集人类对模型输出的偏好数据,训练一个奖励模型。 使用强化学习算法(如PPO)根据奖励模型来微调大语言模型,使其输出更符合人类期望。

RLAIF(Reinforcement Learning from AI Feedback,基于人工智能反馈的强化学习):

利用其他人工智能系统提供的反馈来训练模型,减少对人类反馈数据的依赖。

PPO(Proximal Policy Optimization,近端策略优化):

一种常用的强化学习算法,用于根据奖励模型优化模型的策略。

DPO(Distributed Prioritized Experience Replay,分布式优先经验回放):

一种改进的强化学习技术,通过优先处理更有价值的数据来提高训练效率。

对齐的重要性

  • 安全性:防止模型生成有害或误导性的内容。
  • 可靠性:提高模型输出的准确性和一致性。
  • 可解释性:使模型的决策过程更透明,便于用户理解和信任。

标签:输出,游戏,模型,Agent,NOTE6,LLM,人类,对齐
From: https://blog.51cto.com/u_16649529/12297312

相关文章

  • 使用LangGraph构建多Agent系统架构!
    0前言Agent是一个使用大语言模型决定应用程序控制流的系统。随着这些系统的开发,它们随时间推移变得复杂,使管理和扩展更困难。如你可能会遇到:Agent拥有太多的工具可供使用,对接下来应该调用哪个工具做出糟糕决策上下文过于复杂,以至于单个Agent无法跟踪系统中需要多个专业领域(......
  • ELK(Elasticsearch、Kibana、Filebeat、Metricbeat、Logstash、Elastic Agent、Fleet S
    (241018).env#项目名COMPOSE_PROJECT_NAME=es#elastic用户(至少6个数字)ELASTIC_PASSWORD=#kibana用户(至少6个数字)KIBANA_PASSWORD=#版本号,一定要填写需求版本#https://www.elastic.co/downloads/past-releases#elasticsearchSTACK_VERSION=8.15.1#集群名CLUSTER_NA......
  • Google Tx-LLM:用大型语言模型助力治疗药物开发
      每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行!订阅:https://......
  • 图论day64 :最短路径算法 | SPFA(Bellman_ford的队列优化版)、城市间货物运输 I、Ⅱ、Ⅲ
    图论day64:最短路径算法|SPFA(Bellman_ford的队列优化版)、94.城市间货物运输I(卡码网)【SPFA算法+邻接表优化】、95.城市间货物运输II(判断负权回路)、96.城市间货物运输III【已知有负权回路,该如何计算】、Bellman_ford算法思维导图汇总SPFA(Bellman_ford的队列优化版)94......
  • Ollama + LangChain: 本地运行LLM大语言模型
    简介在大型语言模型(LLM)领域,Ollama和LangChain已经成为开发人员和研究人员的强大工具。Ollama提供了一种无缝本地运行开源LLM的方式,而LangChain提供了将模型灵活集成到应用程序中的框架。本文将介绍如何设置和使用Ollama和LangChain,以便能够在项目中利用LLM的强大功能。搭建Ollam......
  • o1快慢思考的风又吹到了Agent!
    智能体(Agent)通过自然对话与用户互动有两个任务:交谈和规划/推理。对话回应必须基于所有可用信息,行动必须有助于实现目标。与用户交谈和进行多步推理和规划之间的二分法,类似卡尼曼引入的人类快速思考和慢速思考系统。为此,GoogleDeepMind提出了一个名为Talker-Reasoner的双系统......
  • 大模型中的Agent
    简介:个人学习分享,如有错误,欢迎批评指正。在大模型(如GPT-4等大型语言模型)中,Agent(代理)是指具备自主决策和执行能力的智能体,能够根据输入的信息和环境,自主完成特定任务或实现特定目标。Agent通常结合了大模型的强大语言理解和生成能力,以及其他模块化的功能,如感知、规划、......
  • 大模型(LLM)最新研究论文介绍(合集)
    目录\1.CTRLA:通过探针引导控制的自适应检索增强生成\2.压缩大型语言模型:使用低秩和低精度分解方法\3.通过LLM知识转移增强零样本面部表情识别\4.大型语言模型(LLMs):部署、代币经济学与可持续性\5.审视大型语言模型提示策略以自动评估学习者创建的计算成果———......
  • UCB CS194/294-196 (LLM Agents) Lecture 4 (2024.10.1)
    预备知识英文缩写&术语英语简中补充LargeLanguageModel(LLM)大语言模型ArtificialGeneralIntelligence(AGI)通用人工智能一个远大的目标Agent智能体/代理Embody具身Multi-AgentSystem(MAS)多智能体系统Token文本分割后得到的最小语义单位Prompt提示词我们向AI提出的......
  • 代码随想录训练营第64天|bellman_ford
    47.参加科学大会#include<iostream>#include<vector>#include<list>#include<queue>#include<climits>usingnamespacestd;//小顶堆classmycomparison{public:booloperator()(constpair<int,int>&lhs,constpai......