首页 > 其他分享 >整理《DQNViz: A Visual Analytics Approach to Understand Deep Q-Networks》

整理《DQNViz: A Visual Analytics Approach to Understand Deep Q-Networks》

时间:2023-11-07 20:05:25浏览次数:46  
标签:片段 动作 DQNViz Deep Analytics 训练 随机 模式

DQNViz: A Visual Analytics Approach to Understand Deep Q-Networks

论文/强化学习可视化

摘要

打算研究深度强化学习方向,整理最近的一篇 2019 年的论文,作为总结思考!

论文介绍

该论文是一篇 2019 年,有关基于可视化进行强化学习可解释的文章。一作是 Junpeng Wang ,作者主要研究领域就是:visualization, visual analytics, explainable AI。作者主页:https://junpengw.github.io/#/

主要工作

该论文主要工作是构建一个可视化系统 DQNViz ,DQNViz 系统通过四个层面分析了 DQN 模型的训练过程。

四个层面分别是:整体训练水平、训练轮次/时代(Epoch)、剧集层次(Episode)、片段层次。step ⊆ segment ⊆ episode ⊆ epoch.

同时,论文基于 DQNViz 系统提出了一种有关序列型数据新的可视设计。强化学习领域专家通过利用DQNViz 系统分析并提出了一种模型改进方法,这种方法主要是针对于模型中控制随机动作的问题。
image

思考

时间序列类型数据可视化问题

问题描述

对于 DQN 模型训练过程中的时间序列类型数据有什么更加有效直观的视觉设计?比如如何以有效的方式显示智能体在事件序列中的运动模式,可能包括其行为轨迹、决策路径等?如何展示不同类型的事件序列,使得观察者能够更全面地理解智能体的行为和决策?

相关资料

  • S. Guo, K. Xu, R. Zhao, D. Gotz, H. Zha, and N. Cao. Eventthread: Visual summarization and stage analysis of event sequence data. IEEE transactions on visualization and computer graphics, 24(1):56–65, 2018.
  • LifeLines [38], LifeFlow [53], CloudLines [25], EventFlow [34], DecisionFlow [15] MatrixFlow [36] and MatrixWave [55] EgoLines [54], EventThread [16]

解决方法

  • 不同背景颜色的圆表示不同动作,圆加黑色边框表示该动作获得奖励,连续相同的动作行为表示的圆可以连在一起用线表示。

  • 使用水平线条移动轨迹表示游戏中挡板的移动轨迹,比如水平图中,线往上方走表示挡板在向左移动,同时线是由连续圆组成,这种也是也便于扩展,因为水平线图是可以压缩的
    image

  • 同时也可展示其他数据,比如高亮的青色背景条表示此时为随机动作,绿色、紫色和橘色背景条则分别表示获得奖励值(1、4、7),灰色表示游戏终止。半透明绿色和紫色则代表 q 值和 qt 值

  • 通过刷选一段区域可重放其游戏画面,重放画面两侧黄色条则表示训练进程,画面下方的颜色条表示智能体预测动作

智能体模式挖掘问题

问题描述

如何在一个训练轮次产生的大量数据中挖掘出智能体执行的模式?

相关资料

  • S. Salvador and P. Chan. Toward accurate dynamic time warping in linear time and space. Intelligent Data Analysis, 11(5):561–580, 2007.
  • K. Thompson. Programming techniques: Regular expression search algorithm. Communications of the ACM, 11(6):419–422, 1968.
  • A. V. Aho and J. D. Ullman. Foundations of Computer Science (Chapter 10: Patterns, Automata, and Regular Expressions). Computer Science Press, Inc., New York, NY, USA, 1992.
  • J. Springenberg, A. Dosovitskiy, T. Brox, and M. Riedmiller. Striving for simplicity: The all convolutional net. In ICLR (workshop track), 2015.

解决方法

片段聚类

  • 将一个训练轮次中的不同剧集分类成不同片段集合,片段采用数值序列表示,从而采用dynamic time warping algorithm (DTW)量化不同片段间的相似程度,比较同一训练轮次中的全部片段,生成一个相似度矩阵
  • 将上一步的相似度矩阵作为聚类算法的输入,通过生成层次树图选取同一训练轮次中相同的训练片段

模式挖掘

  • 将动作采用数值表示,提前预定义模式规律,比如动作模式,重复 0{30, },表示重复动作 0 (noop)连续至少 30 次即为动作重复模式。 同样定义奖励模式,比如弹跳模式 (70+){5}, 表示小球击打最上层砖块连续至少 5 次,即视为弹跳模式

生成特征显著图

  • 定于算法,从一个片段(屏幕)中挑选出最大激活状态(最大状态),并为每个卷积层的每个卷积滤波器生成该状态的相应显著性图(映射)。总体来说,找到卷积滤波器最大激活的状态意味着确定在输入数据中,该滤波器最强烈地响应的位置,从而揭示了输入数据中与该滤波器所学到的特定特征最相关的部分。从而有效理解和解释智能体网络预测结果。通过前向传播获得最大激活的状态的激活值,再通过反向传播获得该最大激活状态片段的特征显著图。
    image
    image

控制随机动作问题

问题描述

如何利用可视化优化强化学习研究中的控制随机动作问题?

控制随机动作问题: 控制随机动作问题意味着在训练过程中,需要找到一种方法来平衡随机探索和利用已知信息的过程,以便更有效地学习。如果随机动作的影响过大,可能导致模型无法收敛或收敛到次优解。

相关资料

  • V. Franc¸ois-Lavet, R. Fonteneau, and D. Ernst. How to discount deep reinforcement learning: Towards new dynamic strategies. NIPS Deep Reinforcement Learning Workshop, arXiv preprint arXiv:1512.02011, 2015.

解决办法

  • 配合使用 DQNViz 系统,分别设计三个实验:随机率为 0.05 、使用pattern detection (PD) algorithm 算法、随机率 0.02 观察实验结果。
    image

  • PD 算法,模式探索算法,首先维护一个缓存最后 20 步的缓冲区,如果这 20 步中获得奖励,则无需进行随机动作,否则,要是长时间未获得奖励或者探索到了重复 0{30, }的动作模式则进行随机动作。

标签:片段,动作,DQNViz,Deep,Analytics,训练,随机,模式
From: https://www.cnblogs.com/yueshang/p/17815770.html

相关文章

  • Paper Reading: A hybrid deep forest-based method for predicting synergistic drug
    目录研究动机文章贡献本文工作数据集构建ForSyn模型RF-CUS单元ETF-DR单元实验结果对比实验调参实验消融实验湿实验可解释性分析与预测过程的关联特征贡献度关键特征的生物学分析优点和创新点PaperReading是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能......
  • google analytics , looker , bigquery的区别
    GoogleAnalytics、Looker和BigQuery是Google提供的三种不同的数据服务,它们各自有不同的用途和功能。GoogleAnalytics:主要用途:GoogleAnalytics是一种网站和应用程序分析服务,它能帮助您理解用户如何与您的网站或应用互动。它收集关于页面浏览量、用户会话、用户行为......
  • 如何在 Deepin 上安装 ONLYOFFICE 桌面编辑器 7.5
    ONLYOFFICE 桌面编辑器是一款基于依据 AGPL v.3 许可进行分发的开源办公套件。使用这款应用,您无需保持网络连接状态即可处理存储在计算机上的文档。本指南会向您介绍,如何在 Deepin上安装 ONLYOFFICE 桌面编辑器。ONLYOFFICE桌面版是什么ONLYOFFICE编辑器桌面版是一款全面......
  • DeepSpeed: 大模型训练框架 | 京东云技术团队
    背景:目前,大模型的发展已经非常火热,关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。一、分布式训练1.1目前主流的大模型分布式训练主要包括两种:......
  • 论文阅读:DeepKE:A Deep Learning Based Knowledge Extraction Toolkit for Knowledge B
    DeepKE,支持数据集和模型的结合来实现非结构化数据中信息的提取。同时提出框架和一系列的组件来实现足够的模块化和可扩展性。项目地址1.Introduction现存的KB是在实体和关系方面是不完备的。常见的一些标志性的应用:Spacy(实体识别)OpenNER(关系提取)OpenIE(信息提取)RESIN(事......
  • 微信小程序deep穿透样式不生效
    1.判断是否为自定义组件是自定义组件的话,直接加deep穿透样式是不生效的,需要在当前组件内添加以下代码:1//自定义组件2exportdefault{3name:"components1",4//复制下面这行options代码5options:{styleIsolation:'shared'},6props:{......
  • 论文:Going Deeper with Convolutions-GoogleNet
    论文名:GoingDeeperwithConvolutions深入了解卷积了解GoogleNet研究问题:研究方法:主要结论:模型:问题:行文结构梳理:......
  • Proj CDeepFuzz Paper Reading: POLYCRUISE: A Cross-Language Dynamic Information F
    Abstract本文:PolyCruiseMethod:跨编程语言的holisticdynamicinformationflowanalysis(DIFA)usealightlanguage-specificanalysis和language-agnosticonlinedataflowanalysis来计算symbolicdependencies实验:数据集:PolyBench,包含小中大三种等级的benchmarks效......
  • 论文:Ultra Fast Deep Lane Detection with Hybrid Anchor Driven Ordinal Classificat
    论文名:UltraFastDeepLaneDetectionwithHybridAnchorDrivenOrdinalClassification混合Anchor驱动顺序分类的超快深车道检测研究问题:研究方法:主要结论:模型:问题:行文结构梳理:Abstrct:现有方法主要集中在(像素分割)+缺陷(复杂场景)+(通过观察)提出一种高效方......
  • Conditional Probability Models for Deep Image Compression
    深度神经网络被训练来作为图像压缩的自动编码器是一个前沿方向,面临的挑战有两方面——量化(quantization)和权衡reconstructionerror(distortion)andentropy(rate),这篇文章关注后者。主要思想是使用上下文模型直接对潜在表示的熵建模;3D-CNN一个学习自动编码器潜在分布的条......