首页 > 其他分享 >第三届智能决策论坛|决策大模型专题报告——随笔(1)

第三届智能决策论坛|决策大模型专题报告——随笔(1)

时间:2025-01-10 21:14:34浏览次数:1  
标签:泛化 训练 模型 决策 VAE 任务 随笔 专题报告

前言

这次汇报的有四位老师,其中我比较感兴趣的是上海交通大学张伟楠老师、北京大学梁一韬老师和清华大学高宸老师的报告,其中张老师之前已经记录过,本文主要作为对梁一韬老师的分享的记录与思考。

CRAFT JARVIS: Towards Generalist Agents in an Open World

Motivation

研究趋势:构造强化学习通用智能体,增强泛化能力,以突破Reward model的设计限制。
从专用性向通用性发展

  • 在线学习方式如PPO和Q-learning可以定义出清楚的reward model
  • 任务数量上升后,scalar形式的reward model无法unify所有的任务,限制了通用性
  • 利用离线学习的大量数据集(状态、动作)通过模仿这个行为来创造决策大模型
  • 以MineCraft为例

相关研究

VPT:Learning to Act by Watching Unlabeld Online Videos.(NIPS2022,OpenAI)

  • 人工标注
  • 训练VPT模型方式是Behaviroal Cloning(GATO采用的方法)
  • 采用架构是decode=only,auto-regressively,预测接下来的动作甚至状态
  • 环境是MineCraft
  • 学会了挖钻石就不会建房子。即任务

泛化的概念:

  • 同样的场景,完成不同的任务,是合理的
  • 在新的场景做新的任务,需要多维科学领域合作,比较难以实行。

联想到最近读的论文:A Generalist Dynamics Model for Control,文中同样说了,RL领域对比NLP领域大语言模型的成功,目前所需要的是训练一个具有足够通用性的基准模型,在面临新的场景时,只需要few-shot而无需重新更新模型参数就可以实现比较好的应用。有点类似于大语言模型中的prompt提示工程。大语言模型的关键设计是它本质上是predict next token,那么对决策大模型而言,关键的就是如何定义任务,任务定义的足够简洁以至于可以产生预训练范式。

lyt老师对多模态决策模型的态度:跨模态对齐成本太贵了。
因此希望在决策这个单一模态上定义任务。

作为对比,GATO完全是在历史信息上(靠state预测action)做Auto-regressive prediction,是不能具有本质上多任务的能力

对“任务的定义”的研究

GROOT:Learning to Follow Instructions by Watching Gameplay Viedos.

任务的语义探究:不同的任务实际是改变未来遇到的状态的分布概率。 这个比较有意思,对任务的重新定义,此时一条轨迹本身就是一个任务。

继续之前,补充一下VAE的概念
VAE(Variational Autoencoder,变分自编码器),是一种生成模型,通过深度学习框架学习数据的潜在表示并可以用来生成类似数据的新样本。VEA组成:编码器、潜在空间、解码器、变分推理,变分推理是一种近似复杂概率分布的方法,由于传统贝叶斯推断中计算后验分布(即给定观测数据后的模型参数的分布)难以计算,变分推理最大化“证据下界,ELBO”目标函数以衡量选择的变分分布族作为近似分布(通常是参数化的分布)与真实后验分布之间的相似度。

  • 训练阶段:VAE通过最小化重构误差和KL散度来训练模型,前者保证生成的数据与输入数据相似,后者确保潜在空间的结构是有规律的。
  • 生成阶段:训练完成后,可以从潜在空间随机采样,经过解码器生成新样本。

    任务A和任务B的状态分布存在差异,即公式中所述,用未来的状态空间来定义此时的任务,因而使用了VAE框架。
    给定trajectory demo数据集,包含任务,将其压缩到Z空间,从z空间抽样又能复原原来的trajectory


为什么说这里是VAE框架?观察不等式,第一项BC就是VAE中的reconstruction loss,即复原,第二项是KL regulation,代表能不能让z-space能不能处于一个易于被sample的空间下。

现在的困难:训练时提供未来信息容易导致后验坍塌,即模型看着未来预测未来,实际上并没有学习到泛化能力,没有理解trajectory的动作
正在做的工作:让这个z-space具有更强的泛化性
一些验证z-space具有structure,即语义特性的实验:

这个图说明了zspace其具备与文字的模态对齐的可能性,另外它还具有泛化的可能性(中间的点:组合动作)
也揭露了zspace中插值补全点的make sense
实验结果:

Take Feedback into Acount => Interactive

Describe,explain,plan and select:Interactive planing with large language models enables open-world multi-task agents

拿视频生成Sora作为类比,稳定生成视频时长提高十倍代表其真实性能提高几万倍,因为每一帧的可能性都是指数增加。
同样的,决策模型能够稳定做出规划的步长也很有挑战性。目前使用end-end的决策模型是不可能生成太长预测的,因为受到数据和硬件资源的限制。

使用任务拆分来提高长期预测稳定性,可以基于大语言模型或者其它技术,偏向LLM的原因是LLM对不可预知性有更好的鲁棒性

Basci building blocks for acbitrary goals.(建立新的Benchmark)


位于CRAFT JARVIS官网,可以完成Minecraft场景下的测试。

总结

  • RL由于reward的设计局限性而向离线场景训练的通用智能体发展的趋势
  • 在决策单一模态上重新定义任务的内涵,基于Zspace的VAE架构具有语义扩展前景,从而探索预训练范式
  • 推荐阅读
    • VPT:Learning to Act by Watching Unlabeld Online Videos.(NIPS2022,OpenAI)
    • GROOT:Learning to Follow Instructions by Watching Gameplay Viedos.
    • Describe,explain,plan and select:Interactive planing with large language models enables open-world multi-task agents

标签:泛化,训练,模型,决策,VAE,任务,随笔,专题报告
From: https://www.cnblogs.com/FrostDust/p/18664517

相关文章

  • 农业4.0背后的智慧引擎:机器学习助力精准农事决策
    农业4.0背后的智慧引擎:机器学习助力精准农事决策在21世纪的科技浪潮中,农业作为人类生存和发展的基石,正经历着前所未有的变革。从传统的农耕文明到现代化的机械农业,再到如今智能化的农业4.0时代,每一步都凝聚着科技的力量。而在这场变革中,机器学习作为人工智能的重要分支,正逐......
  • 【机器学习】农业 4.0 背后的智慧引擎:机器学习助力精准农事决策
    我的个人主页我的领域:人工智能篇,希望能帮助到大家!!!......
  • 数字信号处理上课随笔1
    FFT$基2-FFT算法$分裂基算法ps.基-2FFT是分裂基的一个特殊情况【例】清华大学的一个专利提到了3780点DFT,按照常见思维,首先会选择补零至4096个点,并进行基2-FFT,但其实工程中要尽量减少计算量,缩短时间,清华大学采取了分裂基的方法。数字信息传输方法及其地面数字多媒体电视广播......
  • 跟我一起学 Python 数据处理(二十六):PDF 数据提取技巧与问题解决策略
    跟我一起学Python数据处理(二十六):PDF数据提取技巧与问题解决策略在Python数据处理的学习之旅中,我们已经走过了不少路程,今天继续深入探索PDF文件处理的核心技巧与方法,旨在帮助大家进一步提升数据处理能力,解决实际工作中遇到的难题。一、slate库处理PDF文件的深入......
  • 基于决策树的机器学习算法实现足球比赛预测分析推荐
    决策树是一种常用的机器学习算法,它可以用于分类和回归任务。在足球比赛中预测“大小球”(即比赛的总进球数是否超过某个阈值)可以看作是一个分类问题。以下是一个使用决策树预测足球大小球的代码实现流程解析:1.数据准备首先,需要准备训练和测试数据集。这些数据集应该包含与比......
  • 如何让面向应急管理的多智能体具备自主决策能力
    现代应急管理面对的是复杂、多变、跨部门的灾害与事故场景——从自然灾害(洪水、地震、台风、火灾)到公共安全事件(疫情、重大安全事故),都需要在极短时间内进行快速响应和全局协同。传统的集中式指挥模式虽然有效,但在数据爆炸、态势急速变化、资源分散管理等条件下,很难全面、实......
  • 智能体(Agent)如何具备自我决策能力的机理与实现方法
    一、智能体自我决策能力的机理从人工智能和控制理论的角度看,智能体能够“自我决策”的核心在于其“感知–认知–行动”的循环过程,以及在此过程中引入自主学习与自主优化的机制。经过优化与补充,智能体具备自我决策能力的机理可以分解为以下五个部分:1.自主感知与信息获取......
  • 开发随笔:身份证校验码
    身份证校验码的计算方法如下:将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为:7910584216379105842将这17位数字和对应的系数各自相乘的结果相加;用加出来的和除以11,看余数是多少;余数只可能是012345678910这11个数字中......
  • 企业AI助理背后的技术架构:从数据到智能决策
    在当今数字化时代,企业AI助理已经成为推动企业数字化转型和智能化升级的重要工具。它们通过整合企业内外部数据资源,运用先进的算法和模型,为企业提供高效、精准的智能决策支持。本文将深入探讨企业AI助理背后的技术架构,从数据收集、处理、分析到智能决策的全过程进行剖析。一、数......
  • 知识中台与人工智能:融合赋能企业智能化知识服务与决策
    在数字化、智能化的时代背景下,企业面临着前所未有的机遇与挑战。为了提升知识管理与服务的能力,推动企业的智能化转型与发展,知识中台与人工智能的融合应用正成为新的趋势。知识中台作为连接数据、知识与业务的核心平台,能够为企业提供统一、高效的知识管理与应用环境。而人工智能技......