首页 > 其他分享 >《Visual Analytics for RNN-Based Deep Reinforcement Learning》

《Visual Analytics for RNN-Based Deep Reinforcement Learning》

时间:2023-11-28 16:11:58浏览次数:47  
标签:状态 Based RNN 训练 步骤 Deep 数据 隐藏

摘要

准备开题报告,整理一篇 2022 年TOP 论文。

论文介绍

该论文是一篇 2022 年,有关可视化分析基于RNN 的深度强化学习训练过程的文章。一作是 Junpeng Wang ,作者主要研究领域就是:visualization, visual analytics, explainable AI。作者主页:https://junpengw.github.io/#/

主要工作

作者为了解决如何去理解和解释深度强化学习模型训练过程中产生的复杂数据变化问题,设计了一个 DRLIVE(Deep Reinforcement Learning Interactive Visual Explorer)系统,使用该系统用户可以灵活探索智能体训练过程中的数据、发现RNN网络模型有效的神经元特征以及通过像素干扰进一步交互诊断模型。

思考

如何有效探索游戏时长较大的智能体训练数据集?

问题描述

在游戏时长较大的游戏训练中(比如:一个剧集中有上千个步骤),如何更有效的处理训练产生的数据,并分析其潜在细节。

相关资料

解决方法

  • 监控用户感兴趣的序列数据或指标(动作或奖励值),并可重放某部分智能体的训练过程。
  • 提供步骤总览图或其他内在代表步骤数据的信息(比如:CNN不同隐藏层的激活函数值)
  • 将每个剧集的 5组高维数据(Game Screens、CNN Activations、Hidden States、Cell States、Actor Logits)通过 t-SNE 降维算法将其投影为 5 组散点图,并通过计算散点之间的距离生成对应的距离分布条图,根据不同的距离阈值进行连接,得到一个连续的游戏片段,目的是用来平滑连接较小的改变,从而突出显示突然的改变的片段,因为突变常常伴随着状态的更新以及更多的注意力,便于专家探索分析。

如何识别出训练过程中RNN 模型重要的隐藏层/神经元?如何了解到这些隐藏层/神经元获取到哪些特征?

问题描述

  • 怎样能够捕获到模型训练中,同一步骤的两个子集的状态差异?

相关资料

解决方法

  • 将 RNN 的隐藏状态和细胞状态通过公式量化后分为三组数据,第一组是:隐藏状态的标准差。第二组是:当获得评论者值和演员策略,模型中起关键作用的隐藏状态权重值,排序后找到贡献值高的状态。第三组是:隐藏状态值和评论者值(value)和演员策略(policy)的相关系数

  • 通过使用 Jensen-Shannon Divergence 方法量化比较两个步骤子集的分布差异。

如何交互诊断模型训练过程中的某一步?

问题描述

相关资料

  • S. Greydanus, A. Koul, J. Dodge, and A. Fern, “Visualizing and understanding Atari agents,” in Proc. 35th Int. Conf. Mach. Learn., 2018, pp. 1792–1801.
  • V. R. Konda and J. N. Tsitsiklis, “Actor-critic algorithms,” in Proc.Neural Inf. Process. Syst., 2000, pp. 1008–1014.
  • N. Puri et al., “Explain your move: Understanding agent actions using specific and relevant feature attribution,” in Proc. Int. Conf. Learn. Representations, 2020. [Online]. Available: https:// openreview.net/forum?id=SJgzLkBKPB

解决方法

  • 使用算法处理env 画面,使用像素干扰的方式,干扰分析小球位置,从而将对应隐藏状态和细胞状态对应的维度重新进行 排序,从而发现影响力强的维数。

标签:状态,Based,RNN,训练,步骤,Deep,数据,隐藏
From: https://www.cnblogs.com/yueshang/p/17862202.html

相关文章

  • 7 Mutilmodal Feature Extraction and Attention-based Fusion for Emotion Estimatio
    摘要。人机交互技术的不断进步,使得情感的计算成为可能。在本文中,我们介绍了我们提交给CVPR2023竞赛的情感行为分析在野外(ABAW)。人机交互中的情感分析应尽可能从多维度入手,填补单个不完善的情感通道,最后通过拟合多个结果确定情感倾向。因此,我们利用了从比赛数据集中不同长度的视......
  • 基于HOG特征提取和GRNN神经网络的人脸表情识别算法matlab仿真,测试使用JAFFE表情数据
    1.算法运行效果图预览 2.算法运行软件版本matlab2022a 3.算法理论概述        该算法主要由两个部分组成:HOG特征提取和GRNN神经网络。下面将详细介绍这两个部分的原理和数学公式。 1.HOG特征提取      HOG(HistogramofOrientedGradients)是......
  • 在Megatron-Deepspeed项目中如何下载和预处理Wikipedia数据集
    更详细的查看https://github.com/marsggbo/Megatron-DeepSpeed/blob/main/tutorials/gpt2_wikipedia.md下载Wikipedia压缩数据集(enwiki-latest-pages-articles.xml.bz2)再使用wikiextractor工具将数据集解压缩pipinstallwikiextractorpython-mwikiextractor.WikiExt......
  • Probabilistic principal component analysis-based anomaly detection for structure
    SHMcanprovidealargeamountofdatathatcanrevealthevariationinthestructurecondition什么是压缩传感,数据重构,研究背景与意义,怎么用基于模型的方法不可避免的缺点是模型的不确定性,因为很难创建能够模拟真实物理情况的可靠的结构模型。为了克服基于模型的方法的缺......
  • [Deeplearning] 钻石矿工
    首先画图假设有两个点,那么去钻石的方案就如上图那么我们就需要比较蓝线的长度与红线的长度先看一下两点之间距离公式\(\sqrt{(x-u)^2+(y-v)^2}\)这个公式就是运用了勾股定理,一直两条边,求第三条接着,我们比较蓝线与红线的长短我们把它分为两个三角形(如图即可)随后,根据三角形......
  • [Deeplearning] 过河问题
    先模拟一下样例125101和2去,耗时21回,耗时35和10去,耗时132回,耗时151和2去,耗时17现在我们把题目化为两种策略策略1:共2人,一起过河,用时较小的将手电筒放回策略2:共4人,耗时较小的两人先过,接着将手电筒送回,用时较大的两人过,最后右侧用时最小的人将手电筒送回,左侧两人一起过......
  • [Deeplearning] 活动选择F604
    那个F604是干啥的我似乎也不知道思路依旧很简单,右端点排序,这个活动结束得越早留给后面的时间就越多代码:#include<bits/stdc++.h>usingnamespacestd;structnode{ intstart,end;}a[1010];intn,back,ans;boolcmp(nodex,nodey){ returnx.end<y.end;}intmain()......
  • [Deeplearning] 采购奖品
    思路:非常简单,按物品的单价排序,商品的单价小,我们就尽量多的选它代码:#include<bits/stdc++.h>usingnamespacestd;structnode{ intcost,num;}a[110];intn,m,ans,money;boolcmp(nodex,nodey){ returnx.cost<y.cost;}intmain(){ cin>>m>>n; for(inti=0;i<......
  • [Deeplearning] 吃蛋糕
    放张图自己体会(doge类似于爬楼梯的递推题动态转移方程,或者说递推式:dp[i]=dp[i-1]+dp[i-k]其中\(i≥k\)代码:#include<bits/stdc++.h>usingnamespacestd;constintmod=1000000007;longlongt,k,a,b;longlongdp[100010],sum[100010];intmain(){cin>>t>>k;......
  • [Deeplearning] 2017篮球队
    一道动态规划题\(f_{i, j, k}\)表示前i个人里取j个,身高大于等于k的方法数得到状态转移方程为\(f_{i, j, k} = f_{i − 1, j − 1, k − a_i}\)由于这样空间不够,我们需要降维代码:#include<bits/stdc++.h>usingnamespacestd;constintMAXN=2e5+5;intn,m,h......