RL
  • 2024-11-21RL 基础 | 如何复现 PPO,以及一些踩坑经历
    最近在复现PPO跑MiniGrid,记录一下…这里跑的环境是Empty-5x5和8x8,都是简单环境,主要验证PPO实现是否正确。01ProximalpolicyOptimization(PPO)(参考:知乎|ProximalPolicyOptimization(PPO)算法理解:从策略梯度开始)首先,策略梯度方法的梯度形式是\[\nabla_\theta
  • 2024-11-19【Trans论文复现】基于Agent的电力市场深度决策梯度(深度强化学习)算法建模研究(Python代码实现)
      
  • 2024-11-19【Trans论文复现】基于Agent的电力市场深度决策梯度(深度强化学习)算法建模研究(Python代码实现)
      
  • 2024-11-19【Trans论文复现】基于Agent的电力市场深度决策梯度(深度强化学习)算法建模研究(Python代码实现)
      
  • 2024-11-19【Trans论文复现】基于Agent的电力市场深度决策梯度(深度强化学习)算法建模研究(Python代码实现)
      
  • 2024-11-19【Trans论文复现】基于Agent的电力市场深度决策梯度(深度强化学习)算法建模研究(Python代码实现)
      
  • 2024-11-11RL 基础 | 如何使用 OpenAI Gym 接口,搭建自定义 RL 环境(详细版)
    参考:官方链接:Gymdocumentation|Makeyourowncustomenvironment腾讯云|OpenAIGym中级教程——环境定制与创建知乎|如何在Gym中注册自定义环境?g,写完了才发现自己曾经写过一篇:RL基础|如何搭建自定义gym环境(这篇博客适用于gym的接口,gymnasium接口也差不
  • 2024-11-09在很多游戏问题中规划算法表现的要比强化学习算法还好,那么为什么还要研究RL
    根据前段时间分享的对一些游戏,如《俄罗斯方块》、《贪吃蛇》、《2048》游戏上来看,可以知道一个精调好的规划算法(启发式算法),在人为给定的一些预设条件下运行,其最终的算法性能会比一般的RL算法实现的效果要好,但是为什么我们还要研究RL算法呢,那么是不是说明RL算法这种AI算法就没有太
  • 2024-11-01【SSL-RL】自监督强化学习:Plan2Explore算法
            
  • 2024-10-23万字长文梳理LLM+RL(HF)的脉络
    作者:王小惟Weixun原文:https://zhuanlan.zhihu.com/p/1686790674片面的脉络梳理,主要是希望能帮助大家建立一个更全局的视角,因为篇幅有限,仅包含了支撑脉络的工作,同时也没有含括最新的工作,如有遗漏,望各位同仁包涵。总体的思维脑图地址(可能需要翻墙):raw.githubusercontent.com
  • 2024-10-22【RL Latest Tech】自监督强化学习(SSL-RL):理论与方法
            
  • 2024-10-16光耦使用
    1.光耦的2种用途:a线性光耦(放大状态)条件:IC= IF*CTRb逻辑光耦(开关状态)条件:IC < IF*CTR2.副边IC 的计算方式有2种,(1.)通过原边电流和传输比计算,即IF*CTR;(2.)通过副边列式计算,即(VCC-VCE)/RL;上述方式(2.)计算是电路结构下,IC的电流限制最大值,和方式(1.)计算出来的IC 进行比
  • 2024-10-13写在 2024-10-14 20 岁。
    今天yspm20岁了!过去品味起来挺有趣的,将来期待起来挺好玩的。过去总担心在赢者通吃的时代不当最大的赢家就会成为永远的输家,现在其实也不觉得这是杞人忧天,只不过无论哪种赢都是localmaxima,既然没有绝对的完美,也就自然没必要被一些localmaxima的表象迷惑而让自己不痛快。本
  • 2024-09-25【深度】为GPT-5而生的「草莓」模型!从快思考—慢思考到Self-play RL的强化学习框架
    原创超超的闲思世界2024年09月11日19:17北京9月11日消息,据外媒TheInformation昨晚报道,OpenAI的新模型「草莓」(Strawberry),将在未来两周内作为ChatGPT服务的一部分发布。「草莓」项目是OpenAI盛传已久的神秘Q*模型,据传是此前OpenAI政变大戏的关键原因之一。这个秋天,它
  • 2024-09-14self-play RL学习笔记
    让AI用随机的路径尝试新的任务,如果效果超预期,那就更新神经网络的权重,使得AI记住多使用这个成功的事件,再开始下一次的尝试。——llyaSutskever这两天炸裂朋友圈的OpenAI草莓大模型o1和此前代码能力大幅升级的Claude3.5,业内都猜测经过了自博弈强化学习(self-playRL)。1
  • 2024-09-122024年的端到端自动驾驶综述
    2024年的端到端自动驾驶综述这是一篇比较新的2024年端到端自动驾驶的综述文章。目前在arXiv上可以阅读到。https://arxiv.org/abs/2306.16927v3​arxiv.org/abs/2306.16927v3阅读之后写下这篇文章记录我的一些学习心得。本文将遵循整篇论文的框架进行写作,但是我不太愿意
  • 2024-08-14ES(evolution strategy)进化策略、RL(reinforcement learning)强化学习
    进化策略进化策略可被视为这样一个过程:从个体构成的群体中采样并让其中成功的个体引导未来后代的分布。如图中,一个白色箭头是由黑点中的优胜个体引导。策略作用方式以交叉熵CEM(一种进化算法)为例:算法先随机初始化参数和确定根据参数生成解的规则,根据参数生成N组解并评价每组解
  • 2024-08-10佰泰盛世—HT760 2x30W I2S 输入,无电感,立体声D级放大器
    1特性电源:•PVDD:4.5V-22V;•DVDD:3.3V音频性能•BTL,2x33W(PVDD=22V,RL=8Ω,THD+N=10%)•PBTL,50W(PVDD=22V,RL=4Ω,THD+N=1%)•THD+N=0.05%(PVDD=12V,RL=4Ω,Po=1W)•Noise:100uV(Gain=19dBV,Aweighted)低静态电流•PVDD=12V时,12mA,无滤波器 1SPW
  • 2024-08-05CSS书写模式 Writing Mode text-combine-upright
     writing-mode属性定义了文本在水平或垂直方向上如何排布。语法格式如下:writing-mode:horizontal-tb|vertical-rl|vertical-lr|sideways-rl|sideways-lrhorizontal-tb:水平方向自上而下的书写方式。即left-right-top-bottomvertical-rl:垂直方向自右而左的书写方式。
  • 2024-08-03最大传输功率数学推导
    最大传输功率,不仅适用于低频,也适用于高频。在个人的认知里,也同样可以用来解释高速信号的匹配原理,而不仅仅只是从阻抗不匹配造成的反射来解释。电路分析图 1.由以上电路可知,负载功率表示如下2.由复功率、能量守恒可知 3.复阻抗的虚部,属于无功功率,发送等
  • 2024-07-30ADUM4146BRWZ-RL驱动SIC的功耗计算
    通常的算法是将SiCMOSFET的栅极可以粗略地模拟为电容负载。但由于米勒电容和其他的非线性,因而把其电容负载的值等效于5倍输入SICMOS的Ciss,因而驱动的功耗近似为:PDISS​=CEST​×(VDD2​−VSS2​)2×fS​其中:CEST​ 是估算的电容值,等于SiCMOSFET的输入电容 CISS​ 乘以5
  • 2024-07-19从强化学习到反事实思考CFL
    1.引言1.1强化学习与CFL概念的引入在人工智能领域,强化学习(ReinforcementLearning,RL)是一种让智能体通过与环境的交互来学习如何做出决策的方法。它的核心在于智能体通过尝试不同的行动并观察其带来的后果(收益或损失),从而学习到最优的行为策略。这种方法在游戏、机器人
  • 2024-07-17iOS开发基础122-RunLoop
    深入探讨RunLoop的底层实现需要了解CoreFoundation框架中的CFRunLoop以及与RunLoop工作机制紧密相关的操作系统底层API。这些底层实现主要涉及到事件源、定时器和线程的调度机制。本文将深入剖析RunLoop的底层结构及其运行流程。一、RunLoop底层数据结构涉及RunLo
  • 2024-07-08强化学习(Reinforcement Learning,简称RL)
    强化学习(ReinforcementLearning,简称RL)是一种机器学习范式,它允许智能体(agent)通过与环境互动来学习如何采取行动,以最大化某种累积奖励。在机器人控制中,强化学习可以用来解决各种复杂的问题,如运动规划、动态平衡、抓取和操纵物体等。下面是一些关键概念和步骤,说明如何使用强化
  • 2024-07-07强化学习与控制模型结合例子
    强化学习与模型控制结合强化学习(ReinforcementLearning,RL)与控制模型结合,可以通过整合传统控制理论和现代RL算法,利用控制模型提供的动态信息和稳定性保障,同时利用RL的学习能力优化控制策略。这种结合的方式被称为模型辅助强化学习(Model-AssistedReinforcementLearning)