首页 > 其他分享 > APRIL 2022-Explanation-Aware Experience Replay in Rule-Dense Environments

APRIL 2022-Explanation-Aware Experience Replay in Rule-Dense Environments

时间:2023-05-17 11:45:52浏览次数:61  
标签:解释 Dense Explanation Experience 智能 Replay 规则 RL

I. INTRODUCTION

解释是人类智能的关键机制,这种机制有可能提高RL代理在复杂环境中的表现

实现这一目标的一个核心设计挑战是将解释集成到计算表示中。即使在最小的规则集变化下,将规则集(或部分规则集)编码到智能体的观察空间等方法也可能导致严重的重新训练开销,因为规则的语义被明确地作为输入提供。这最大限度地减少了与现有方法的兼容性,并可能掩盖性能差异是由于体系结构的更改还是规则集的复杂性。本文提出一种与显式设计状态和观察空间无关的解决方案,使用一种解释感知的经验回放机制。

这些解释不需要被智能体理解传统意义上的解释,但如果示例是在语义和有意义的过程中标记/解释的,则仍然可以传达含义。

所提出方法通过将回放缓冲区(或内存)划分为多个簇,每个簇代表与作为示例的经验集合相关的不同解释,从而修改了传统的经验回放结构。

解释者用解释e标记a state-transition τ

contributions:

  • 展示了** explanations的不同类型和实例**如何用于划分重播缓冲区并提高采样经验的规则覆盖率
  • 设计了离散和连续的环境(GridDrive和GraphDrive),与任意复杂度的模块化规则集(文化)兼容。
  • 引入了传统算法(如DQN、TD3和SAC)的xaer修改版本,并在我们提出的环境中测试了这些修改版本的性能

II. RELATED WORK

B. Explanations in RL

一般来说,许多向RL代理解释的基于规则的方法通常属于称为安全RL的子学科
安全强化学习包括以下两种技术:在最优性准则中编码规则 以及将这些外部知识纳入动作/状态空间

我们感兴趣的是对最有用的经验进行抽样,以弥补特定智能体的知识缺口。以智能体为中心的解释过程是一个迭代过程,它跟踪智能体的学习过程,并在每个时间步为其选择最有用的解释。

C. Prioritised Experience Replay

与我们的类似,旨在根据其explanatory content抽象地organise experience——被定义为回答相对于average experience的a sequence of state-transitions有多好/有多坏的能力。该工作只考虑对代理的直接表现的解释(即如何解释),而缺乏对其他更丰富类型(即为什么)以及课程优先化设施的考虑。

III. EXPLANATION-AWARENESS

标签:解释,Dense,Explanation,Experience,智能,Replay,规则,RL
From: https://www.cnblogs.com/yunshalee/p/17408133.html

相关文章

  • Actor Prioritized Experience Replay
    论文宗旨:由于PER是以TD-error成正比的非均匀概率进行抽样的,但是在AC算法中即连续动作空间中,会表现出低效果。分析结果是:Actor不能有效的从highTD-error的transition中学习,Q网络下近似的policygradient会偏离最优Q下的真实梯度。提出修正方法:Actor从lowTD-error的transiti......
  • Salesforce Experience Cloud_体验云顾问认证考试,快速通关攻略!
    SalesforceExperienceCloud顾问认证专为具有Experiences应用程序实施和咨询经验的顾问设计的,适用于使用Experience平台的声明性自定义功能展示其在设计、配置、构建和实施SalesforceExperience应用程序方面的技能和知识的备考者。备考者需要有6个月的ExperienceCloud平台管......
  • Event Tables for Efficient Experience Replay
    Abstract事件表分层抽样(SSET),它将ER缓冲区划分为事件表,每个事件表捕获最优行为的重要子序列。我们证明了一种优于传统单片缓冲方法的理论优势,并将SSET与现有的优先采样策略相结合,以进一步提高学习速度和稳定性。在具有挑战性的MiniGrid域、基准RL环境和高保真赛车模拟器中的实......
  • 窗口函数DENSE_RANK()/DENSE_RANK()/ROW_NUMBER() 区别
    SQL语句之DENSE_RANK函数:DENSE_RANK()是一个窗口函数,它为分区或结果集中的每一行分配排名,而排名值没有间隙。DENSE_RANK()。如果使用DENSE_RANK()进行排名会得到:1,1,2,3,4。RANK()。如果使用RANK()进行排名会得到:1,1,3,4,5。ROW_NUMBER()。如果使用ROW_NUMBER()进行排名会得到:1,2......
  • oracle 分析函数 RANK、DENSE_RANK、ROW_NUMBER
    Row_number函数返回一个唯一的值,当碰到相同数据时,排名按照记录集中记录的顺序依次递增。 Dense_rank函数返回一个唯一的值,除非当碰到相同数据时,此时所有相同数据的排名都是一样的。 Rank函数返回一个唯一的值,除非遇到相同的数据时,此时所有相同数据的排名是一样的,同时会在最后一条......
  • Raspberry Pi & Experience AI All In One
    RaspberryPi&ExperienceAIAllInOneExperienceAIisaneweducationalprogrammethatofferscutting-edgeKS3(ages11–14)resourcesonartificialintelligenceandmachinelearningforteachersandtheirstudents.Developedincollaborationby......
  • JSON Web Tokens (JWT) — the only explanation you will ever need
    本文摘抄自ArielWeinberger博客  JSONWebTokens(JWT)—theonlyexplanationyouwilleverneed|byArielWeinberger|Medium JSONWebTokens(JWT)—theonlyexplanationyouwilleverneedJSONWebTokensarechangingtheworldf......
  • NVIDIA Geforce Experience无法登陆的问题
    问题描述:NVIDIAGeforceExperience登录时提示“页面无法加载,请检查您的网络连接”问题原因:NVIDIAGeforceExperience登录时需要启用NVIDIAFrameworkSDKService服务,但这个服务不会被GE所启动,需要手动启动服务。(网络上有一部分回答说卸载软件重装,亲测没用!!!)解决方案:1.命令......
  • 函数RANK,DENSE_RANK和ROW_NUMBER之间的区别
    MYSQL8已经支持了排名函数RANK,DENSE_RANK和ROW_NUMBER。但是在就得版本中还不支持这些函数。RANK并列跳跃排名,并列即相同的值,相同的值保留重复名次,遇到下一个不同值时,跳跃到总共的排名。DENSE_RANK并列连续排序,并列即相同的值,相同的值保留重复名次,遇到下一个不同值时,依然按照连......
  • 什么是 Chrome 开发者工具 performance 面板 Experience 里的 Layout shift
    Chrome开发者工具performance面板Experience中的Layoutshift(布局位移)是指在页面加载过程中元素的位置发生了意外的变化,这种变化可能会导致用户的不良体验,例如元素突......