rL

2024-11-21RL 基础 | 如何复现 PPO，以及一些踩坑经历
最近在复现PPO跑MiniGrid，记录一下…这里跑的环境是Empty-5x5和8x8，都是简单环境，主要验证PPO实现是否正确。01ProximalpolicyOptimization（PPO）（参考：知乎|ProximalPolicyOptimization(PPO)算法理解：从策略梯度开始）首先，策略梯度方法的梯度形式是\[\nabla_\theta
2024-11-19【Trans论文复现】基于Agent的电力市场深度决策梯度(深度强化学习)算法建模研究（Python代码实现）
2024-11-19【Trans论文复现】基于Agent的电力市场深度决策梯度(深度强化学习)算法建模研究（Python代码实现）
2024-11-19【Trans论文复现】基于Agent的电力市场深度决策梯度(深度强化学习)算法建模研究（Python代码实现）
2024-11-19【Trans论文复现】基于Agent的电力市场深度决策梯度(深度强化学习)算法建模研究（Python代码实现）
2024-11-19【Trans论文复现】基于Agent的电力市场深度决策梯度(深度强化学习)算法建模研究（Python代码实现）
2024-11-11RL 基础 | 如何使用 OpenAI Gym 接口，搭建自定义 RL 环境（详细版）
参考：官方链接：Gymdocumentation|Makeyourowncustomenvironment腾讯云|OpenAIGym中级教程——环境定制与创建知乎|如何在Gym中注册自定义环境？g，写完了才发现自己曾经写过一篇：RL基础|如何搭建自定义gym环境（这篇博客适用于gym的接口，gymnasium接口也差不
2024-11-09在很多游戏问题中规划算法表现的要比强化学习算法还好,那么为什么还要研究RL
根据前段时间分享的对一些游戏，如《俄罗斯方块》、《贪吃蛇》、《2048》游戏上来看，可以知道一个精调好的规划算法（启发式算法），在人为给定的一些预设条件下运行，其最终的算法性能会比一般的RL算法实现的效果要好，但是为什么我们还要研究RL算法呢，那么是不是说明RL算法这种AI算法就没有太
2024-11-01【SSL-RL】自监督强化学习：Plan2Explore算法
2024-10-23万字长文梳理LLM+RL(HF)的脉络
作者：王小惟Weixun原文：https://zhuanlan.zhihu.com/p/1686790674片面的脉络梳理，主要是希望能帮助大家建立一个更全局的视角，因为篇幅有限，仅包含了支撑脉络的工作，同时也没有含括最新的工作，如有遗漏，望各位同仁包涵。总体的思维脑图地址（可能需要翻墙）：raw.githubusercontent.com
2024-10-22【RL Latest Tech】自监督强化学习（SSL-RL）：理论与方法
2024-10-16光耦使用
1.光耦的2种用途：a线性光耦（放大状态）条件：IC= IF*CTRb逻辑光耦（开关状态）条件：IC < IF*CTR2.副边IC 的计算方式有2种，（1.）通过原边电流和传输比计算，即IF*CTR；（2.）通过副边列式计算，即(VCC-VCE)/RL；上述方式（2.）计算是电路结构下，IC的电流限制最大值，和方式（1.）计算出来的IC 进行比
2024-10-13写在 2024-10-14 20 岁。
今天yspm20岁了！过去品味起来挺有趣的，将来期待起来挺好玩的。过去总担心在赢者通吃的时代不当最大的赢家就会成为永远的输家，现在其实也不觉得这是杞人忧天，只不过无论哪种赢都是localmaxima，既然没有绝对的完美，也就自然没必要被一些localmaxima的表象迷惑而让自己不痛快。本
2024-09-25【深度】为GPT-5而生的「草莓」模型！从快思考—慢思考到Self-play RL的强化学习框架
原创超超的闲思世界2024年09月11日19:17北京9月11日消息，据外媒TheInformation昨晚报道，OpenAI的新模型「草莓」（Strawberry），将在未来两周内作为ChatGPT服务的一部分发布。「草莓」项目是OpenAI盛传已久的神秘Q*模型，据传是此前OpenAI政变大戏的关键原因之一。这个秋天，它
2024-09-14self-play RL学习笔记
让AI用随机的路径尝试新的任务，如果效果超预期，那就更新神经网络的权重，使得AI记住多使用这个成功的事件，再开始下一次的尝试。——llyaSutskever这两天炸裂朋友圈的OpenAI草莓大模型o1和此前代码能力大幅升级的Claude3.5，业内都猜测经过了自博弈强化学习（self-playRL）。1
2024-09-122024年的端到端自动驾驶综述
2024年的端到端自动驾驶综述这是一篇比较新的2024年端到端自动驾驶的综述文章。目前在arXiv上可以阅读到。https://arxiv.org/abs/2306.16927v3arxiv.org/abs/2306.16927v3阅读之后写下这篇文章记录我的一些学习心得。本文将遵循整篇论文的框架进行写作，但是我不太愿意
2024-08-14ES(evolution strategy)进化策略、RL(reinforcement learning)强化学习
进化策略进化策略可被视为这样一个过程：从个体构成的群体中采样并让其中成功的个体引导未来后代的分布。如图中，一个白色箭头是由黑点中的优胜个体引导。策略作用方式以交叉熵CEM（一种进化算法）为例：算法先随机初始化参数和确定根据参数生成解的规则，根据参数生成N组解并评价每组解
2024-08-10佰泰盛世—HT760 2x30W I2S 输入，无电感，立体声D级放大器
1特性电源:•PVDD:4.5V-22V;•DVDD:3.3V音频性能•BTL,2x33W(PVDD=22V,RL=8Ω，THD+N=10%)•PBTL,50W(PVDD=22V,RL=4Ω,THD+N=1%)•THD+N=0.05%(PVDD=12V,RL=4Ω,Po=1W)•Noise:100uV(Gain=19dBV,Aweighted)低静态电流•PVDD=12V时，12mA，无滤波器 1SPW
2024-08-05CSS书写模式 Writing Mode text-combine-upright
writing-mode属性定义了文本在水平或垂直方向上如何排布。语法格式如下：writing-mode:horizontal-tb|vertical-rl|vertical-lr|sideways-rl|sideways-lrhorizontal-tb：水平方向自上而下的书写方式。即left-right-top-bottomvertical-rl：垂直方向自右而左的书写方式。
2024-08-03最大传输功率数学推导
最大传输功率，不仅适用于低频，也适用于高频。在个人的认知里，也同样可以用来解释高速信号的匹配原理，而不仅仅只是从阻抗不匹配造成的反射来解释。电路分析图 1.由以上电路可知，负载功率表示如下2.由复功率、能量守恒可知 3.复阻抗的虚部，属于无功功率，发送等
2024-07-30ADUM4146BRWZ-RL驱动SIC的功耗计算
通常的算法是将SiCMOSFET的栅极可以粗略地模拟为电容负载。但由于米勒电容和其他的非线性，因而把其电容负载的值等效于5倍输入SICMOS的Ciss，因而驱动的功耗近似为：PDISS=CEST×(VDD2−VSS2)2×fS其中：CEST 是估算的电容值，等于SiCMOSFET的输入电容 CISS 乘以5
2024-07-19从强化学习到反事实思考CFL
1.引言1.1强化学习与CFL概念的引入在人工智能领域，强化学习（ReinforcementLearning,RL）是一种让智能体通过与环境的交互来学习如何做出决策的方法。它的核心在于智能体通过尝试不同的行动并观察其带来的后果（收益或损失），从而学习到最优的行为策略。这种方法在游戏、机器人
2024-07-17iOS开发基础122-RunLoop
深入探讨RunLoop的底层实现需要了解CoreFoundation框架中的CFRunLoop以及与RunLoop工作机制紧密相关的操作系统底层API。这些底层实现主要涉及到事件源、定时器和线程的调度机制。本文将深入剖析RunLoop的底层结构及其运行流程。一、RunLoop底层数据结构涉及RunLo
2024-07-08强化学习（Reinforcement Learning，简称RL）
强化学习（ReinforcementLearning，简称RL）是一种机器学习范式，它允许智能体（agent）通过与环境互动来学习如何采取行动，以最大化某种累积奖励。在机器人控制中，强化学习可以用来解决各种复杂的问题，如运动规划、动态平衡、抓取和操纵物体等。下面是一些关键概念和步骤，说明如何使用强化
2024-07-07强化学习与控制模型结合例子
强化学习与模型控制结合强化学习（ReinforcementLearning,RL）与控制模型结合，可以通过整合传统控制理论和现代RL算法，利用控制模型提供的动态信息和稳定性保障，同时利用RL的学习能力优化控制策略。这种结合的方式被称为模型辅助强化学习（Model-AssistedReinforcementLearning）