首页 > 其他分享 >【今日收获】看到关于RL的一些观点

【今日收获】看到关于RL的一些观点

时间:2023-09-12 19:13:02浏览次数:33  
标签:罚函数法 zhuanlan https 收获 RL zhihu com 观点

 

 1. MDP的最佳策略是确定性和无记忆的,一错会再错,以前发生的状态也不记得。Memory模块是正解吗?

图源 https://zhuanlan.zhihu.com/p/430221668

2. 毫末 吕迪 对于RL现存问题的看法

每个观点都很insight

强化学习领域目前遇到的瓶颈是什么? - 毫末智行的回答 - 知乎 https://www.zhihu.com/question/449478247/answer/2000015265 

 首先是reward设计不合理导致无法兼顾安全性和稳定性,碰撞的极大惩罚在增强安全的同时会导致策略不稳定。

这让人想起什么?

是不是想起在优化算法里外罚函数法的特点,梯度病态

实际上我一直认为reward帮助形成的Q值就是把约束条件做成外罚函数的一种目标函数。

补充,关于外罚函数的缺点:形象理解外罚函数法+内罚函数法 - Cat food的文章 - 知乎 https://zhuanlan.zhihu.com/p/368010901

 

其次是关于模糊的策略映射导致训练confusing,这一段理解不深,以后常读常新吧

 最后是多目标需要动态调整。这个我自己目前认为不是最主要的。

 

3. 偏好强化学习

https://zhuanlan.zhihu.com/p/622056740

还需要再读 

 

标签:罚函数法,zhuanlan,https,收获,RL,zhihu,com,观点
From: https://www.cnblogs.com/Zer0-Chambers/p/17697547.html

相关文章

  • USB适配器应用芯片 国产GP232RL软硬件兼容替代FT232RL DPU02直接替代CP2102
    USB适配器,是英文UniversalSerialBus(通用串行总线)的缩写,而其中文简称为“通串线”,是一个外部总线标准,用于规范电脑与外部设备的连接和通讯。是应用在PC领域的接口技术,移动PC由于没有电池,电源适配器对其尤为重要。今天来讲讲USB适配器的国产适用芯片。一、GP232RL,直接软硬件......
  • 淘宝api:本地图片上传至淘宝 获取url(联合拍立淘接口)
    upload_img-上传图片到淘宝请求参数请求参数:imgcode=https://img14.360buyimg.com/n0/jfs/t1/52280/38/7464/140698/5d511f6bE08290bd7/f0bb32ddb47451e8.jpg参数说明:imgcode:base64加密后的图片内容(post方式),或者是直接上传(file方式)响应参数名称类型必须示例值描述......
  • 记录一个比较完善的php的curl请求方法的demo
    functionhttpRequest($url,$dataStr="",$isPost=0,$headers=[]){$httpInfo=[];$ch=curl_init();curl_setopt($ch,CURLOPT_HTTP_VERSION,CURL_HTTP_VERSION_1_0);curl_setopt($ch,CURLOPT_USERAGENT,"Mozilla/5.0(Window......
  • Bypass:URL非法参数名产生的绕过问题
    测试测试demo:<?phphighlight_file(__FILE__);error_reporting(0);$var=$_REQUEST["mochu."];var_dump($_REQUEST);echo"PHP-Version:".phpversion()."<br>";if(is_null($var)){die("<br>$varisnull")......
  • docker-compose 报错:ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+
    没有解决问题的操作wgethttps://www.openssl.org/source/openssl-1.1.1v.tar.gztar-zxvfopenssl-1.1.1v.tar.gzcdopenssl-*./config--prefix=/usr/local/ssl--openssldir=/usr/local/sslsharedmakesudomakeinstallecho"/usr/local/ssl/lib"|sudotee/e......
  • HookWinInet库实现类似fiddler的替换url
    fiddler正常情况下只能捕获WinInet库的请求,所以,只要浏览器设置代理服务器为fiddler,且fiddler可以正常抓包,就可以推测这些请求所使用的网络库是WinInet库。本文想要通过hook的方式实现类似于fiddler的替换响应,也就是替换一个url链接,访问的时候,响应变成了另外一个服务器发出来的。......
  • 商业研究(20):滴滴出行,进军海外包车?与OTA携程和包车创业公司,共演“三国杀”?看看分析师
     小雷友情提示:创业有风险,投资需谨慎。     前一篇文章,在探讨境外游创业公司-皇包车和易途8的时候,提到“滴滴如果进军海外包车,为海外华人提供打车和包车服务,有较大可能对海外包车公司进行较大打击”。   这个想法,之前没怎么考虑,而是通过一个朋友的公众号得知的。  ......
  • SonarQube教程:idea配置及使用sonarlint插件扫描项目
    下载插件settings--plugins--marketplace中搜索sonarlint,安装后重启idea配置插件settings中搜索sonarlint配置远程sonarqube服务器地址,及相关鉴权信息使用插件在项目名称上或某个java文件中右击,选择AnalyzewithSonarlint或者在idea底部找到sonarlint,点击绿色开始按钮,即可开......
  • 【收获总结】水晶头的制作
    目录一、前言二、水晶头制作步骤1、首先准备好若干个水晶头2、准备一把网线钳和网线3、按照顺序进行排列4、插进水晶头5、放入压线槽内6、同理制作另一端7、进行测试三、技术的应用四、保养与注意事项1、避免弯曲2、防尘防潮五、应用与维护六、总结一、前言在现代社会中,网络连接已......
  • Linux下C语言调用libcurl库获取天气预报信息
    一、概述当前文章介绍如何在Linux(Ubuntu)下使用C语言调用libcurl库获取天气预报的方法。通过HTTPGET请求访问百度天气API,并解析返回的JSON数据,可以获取指定城市未来7天的天气预报信息。二、设计思路【1】使用libcurl库进行HTTPGET请求在代码中包含<curl/curl.h>头文件,以便使用libc......