DYNAMICS-AWARE UNSUPERVISED DISCOVERY OF SKILLS

时间：2023-05-09 23:03:49浏览次数：44

标签：prime UNSUPERVISED SKILLS 互信息 planning policy DYNAMICS pi skill

发表时间：2020（ICLR2020）
文章要点：这篇文章提出了一个无监督的model-based的学习算法Dynamics-Aware Discovery of Skills (DADS)，可以同时发现可预测的行为以及学习他们的dynamics。然后对于新任务，可以直接用zero-shot planning的方法选择最优动作。这个文章的点就是学习skill的方式是无监督的，通过基于互信息的探索策略，来发现skill。
具体的，定义skill空间，表示为\(z\)。然后定义一个基于skill的状态转移函数\(q(s^\prime|s,z)\)。再定义一个将skill转化成具体动作的policy \(\pi(a|s,z)\)。有了这个之后，定义关于skill的互信息

训练的目标就是最大化这个互信息。也就是最大化\(s\)和\(s^\prime\)的熵，并且最小化给定skill \(z\)之后的熵。这个目标函数的思路就是让一个skill的状态转移差异尽可能大，同时在给定skill \(z\)之后，让这个\(s^\prime\)更加确定，也就是能预测（predictable）。
这个目标函数可以写成

其中\(p\)是真正的状态转移函数，利用变分推断引入前面定义的\(q\)

所以目标就转变成了最大化右边的期望值。然后将训练过程的reward直接设置为

这个分母是对\(p\)的近似

然后整个流程如前图所示，先设定一个\(z\)的先验分布，比如均匀分布。每次先采样一个\(z\)，然后用policy \(\pi(a|s,z)\)转换成动作序列到环境里执行得到\(s^\prime\)。根据这个状态转移更新dynamics函数\(q\)，然后根据式子（6）计算reward，接着就用强化训练policy \(\pi\)。这个过程就是skill发现的过程，以及学习对应的dynamics以及skill对应action的policy。
有了这个之后，就可以直接用online planning的方式来解具体的任务了，文章里面用的model predictive control，具体流程如下图

思路就是采样多个\(z\)，用\(q\)去做planning得到reward最大的那个\(z\)，然后用\(\pi\)把\(z\)转换成动作序列\(a\)去环境里执行，然后重复这个过程。
总结：这个方法就有点像分层强化，先学习skill，并且学习skill到action序列的对应关系。然后就用planning的方法在skill层面进行online planning，最后再转换成具体的action去执行。整个过程是make sense的，具体效果可能还是要看具体任务以及调参了。
疑问：看起来还是挺有道理的，但是这个利用互信息去自己探索skill的方式，到底能不能收敛，还是有点疑问的。

标签：prime,UNSUPERVISED,SKILLS,互信息,planning,policy,DYNAMICS,pi,skill
From： https://www.cnblogs.com/initial-h/p/17386584.html

迁移学习（VMT）《Virtual Mixup Training for Unsupervised Domain Adaptation》
论文信息论文标题：VirtualMixupTrainingforUnsupervisedDomainAdaptation论文作者：TakeruMiyato,S.Maeda,MasanoriKoyama,S.Ishii论文来源：2019CVPR论文地址：download 论文代码：download视屏讲解：click ......
Deep Dynamics Models for Learning Dexterous Manipulation
发表时间：2019(CoRL2019)文章要点：文章提出了一个onlineplanningwithdeepdynamicsmodels(PDDM)的算法来学习Dexterousmulti-fingeredhands，大概意思就是学习拟人的灵活的手指操控技巧。大概思路就是结合uncertainty-awareneuralnetworkmodels和gradient-freetrajecto......
迁移学习（MEnsA）《MEnsA: Mix-up Ensemble Average for Unsupervised Multi Target Doma
论文信息论文标题：MEnsA:Mix-upEnsembleAverageforUnsupervisedMultiTargetDomainAdaptationon3DPointClouds论文作者：AshishSinha,JonghyunChoi论文来源：2023 CVPR论文地址：download 论文代码：download视屏讲解：click1前言单目标域和多目标域2介绍单......
猛读论文13 |【CVPR 2022 UDA】Unleashing Potential of Unsupervised Pre-Training w
动机解决（1）对比学习管道中的增强通常会扭曲人物图像中的判别线索（2）细粒度的局部特征人物图像尚未得到充分探索。思路方法 ......
迁移学习（PAT）《Pairwise Adversarial Training for Unsupervised Class-imbalanced Dom
论文信息论文标题：PairwiseAdversarialTrainingforUnsupervisedClass-imbalancedDomainAdaptation论文作者：WeiliShi,RonghangZhu,ShengLi论文来源：KDD2022论文地址：download 论文代码：download视屏讲解：click1摘要提出问题：类不平衡问题；解决方法：提出了一......
Dynamics CRM - 如何获取 Entity 的 ObjectTypeCode
一、应用场景：在平时的CRM开发中，偶尔需要用到EntityObjectTypeCode来校验Entity，在这里简单介绍下获取EntityObjectTypeCode的几种手段。二、获取方式： a.通过SQLServer查询在SQLServer中，我们可以通过EntityView获取ObjectTypeCode，查询语......
Dynamics CRM - 安装 SSRS CRM Reporting Extensions 时报错：Action Microsoft.Crm.Set
一、问题场景：在安装CRM2016的SSRSReportingExtensions时遇到以下报错：二、解决方案： a.根据提示，访问对应路径的文件夹：C:\ProgramFiles\MicrosoftSQLServer\MSRS13.MSSQLSERVER\ReportingServices，可以看到ReportManager文件夹并不存在； ......
Dynamics CRM - 如何修复安装CRM 2016时出现SQL Native Client 下载失败的问题
一、问题场景：近日，为了测试DynamicsCRM8.2到9.17的升级，重装了CRM2016，过程中发现存在SQLNativeClientDownloadFailed导致安装无法继续进行。在此记录一下问题的解决办法：二、查找原因： a.首先通过访问安装日志目录查看原因，路径为：SystemDrive:\Users\U......
7 Skills To Become A Successful Automation Tester In 2019
Withnew-ageprojectdevelopmentmethodologieslikeAgileandDevOpsslowlyreplacingtheold-agewaterfallmodel,thedemandfortestingisincreasingintheindustry. Testersarenowworkingtogetherwiththedevelopersandautomationtestingisvastly......
Dynamics 365 安装插件注册工具 PluginRegistration
1.创建文件夹，例：D:\Dynamics_365_Development_Tools\pluginsTool2.powershell进入D:\Dynamics_365_Development_Tools\pluginsTool3.运行下面指令（直接复制粘贴到PowerShell即可），运行完成后按回车[Net.ServicePointManager]::SecurityProtocol=[Net.SecurityProtocolType]::T......

DYNAMICS-AWARE UNSUPERVISED DISCOVERY OF SKILLS

相关文章

赞助商

阅读排行