rl

2024-06-21强化学习（Reinforcement Lrarning，RL）02：马尔科夫决策过程
强化学习（ReinforcementLrarning，RL）02：马尔科夫决策过程强化学习（ReinforcementLrarning，RL）02：马尔科夫决策过程状态与状态空间动作与动作空间策略函数状态转移与状态转移函数奖励轨迹回报与折扣回报一个重要性质强化学习（ReinforcementLrarning，RL）02：马尔科夫决策过程马
2024-06-20RTX5全家桶源码综合模板发布，含FreeRTOS内核版本，将其打造成直接面向实际项目应用的综合框架（2024-06-19）
【说明】1、RTX5全家桶的优势就是简单易用，初学的话，上手很快，稳定性也是杠杠的，且容易做稳定。2、同时RTX5也是有汽车级，工业级，医疗和铁路安全认证，只是安全级别比ThreadX要稍微低些。3、当前RTX5中间件源码已经开源了，大大方便大家问题的排查。同时提供了FreeRTOS内核版本，方便大家选
2024-06-10Leetcode-1221
题目1221.分割平衡字符串难度：简单在一个平衡字符串中，'L'和'R'字符的数量是相同的。给你一个平衡字符串s，请你将它分割成尽可能多的平衡字符串。注意：分割得到的每个字符串都必须是平衡字符串，且分割得到的平衡字符串是原平衡字符串的连续子串。返回可以通过分割得到的平衡
2024-06-06RL Introduction
MDPMarkovDecisionProcess是一个五元组\(<S,A,T,R,\gamma>\)\(S\)是状态空间\(A\)是动作空间\(T:S\timesA\timesS\to\mathbb{R}\)是状态转移概率，\(T(s,a,s')\)表示在状态\(s\)下采取动作\(a\)转移到状态\(s'\)的概率\(R:S\timesA\timesS\to
2024-06-05#线段树#CF1371F Raging Thunder
洛谷传送门CF1371F分析其实掉出区间边界或洞内就算消失，最终球只会掉到最左侧的<，中间的><，和最右侧的>在线段树上维护左右边界上最长的<,>,<>,><和区间内最长的<>,><即可代码#include<cstdio>#include<cctype>#include<algorithm>usingnamespacestd;constintN
2024-06-03前沿科技：揭秘未来十年的技术趋势
前沿科技：揭秘未来十年的技术趋势在过去的几十年中，科技的进步以惊人的速度推进，彻底改变了我们的生活方式和社会结构。展望未来十年，几项关键技术将继续塑造我们的世界。从人工智能的深入发展到生物技术的突破，再到可持续能源的革新，这些前沿技术将引领我们走向一个更加智能和高
2024-05-26简单版基本电路与电子学实验备考（有待补充）
基本电路与电子学实验备考戴维南定理Step1测等效电阻12元件箱12V电压源（实验台最右侧）与电压表相接测实际输出保证电压源1210mA的电流源（粗调转钮量程20）测电流电压时注意量程短路电流（开关打向左侧）开路电压（右侧两位小数）据此算出等效电阻R0记录数据UocIscR0Step2构建
2024-05-26等了10年，终于迎来RTX5/RTX4全家桶开源，开源，开源！且免费商用
我们的V4,V5,V6,V7开发板都配套了大量的RTX4,RTX5教程和案例，从2015年发布首版RTX4内核教程以来，已经整整10年了。1、制作这个RTX教程和案例，其实也承受了很大的压力，因为只有RTX内核是免费商用的，中间件并不免费，需要购买正版MDK才行，但还是坚持着制作了下来，甚至当时制作RL-TCPnet
2024-05-24回顾·总结·展望「融合RL与LLM思想，探寻世界模型以迈向AGI」
导读：距离整篇「融合RL与LLM思想，探寻世界模型以迈向AGI」文章完稿分享已经过去了差不多一个月时间，在这期间，不管是在AI产业界还是在学术界，几乎每天都在经历着一幕幕令人惊艳而又期待的变化，变化包括了对模型算法的一次次突破和创新，包括了算法创新背后所对应的基础理论上的新
2024-05-23Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods
发表时间：2024文章要点：文章对LLM增强强化学习（LLM-enhancedRL）的现有文献进行了总结。在agent-environment交互的范式下，讨论LLM对RL算法的帮助。文章先给出LLM-enhancedRL的概念：themethodsthatutilizethemulti-modalinformationprocessing,generating,reasoning,etc.
2024-05-19Linux如何给根目录扩容内存
第一种：LVM分区格式，就是用系统默认的自动分区格式1.添加一块20G大小的nvme硬盘2.启动后，查看硬盘是否已经被系统识别3.对/dev/nvme0n2进行分区，并设置分区属性fdisk/dev/nvme0n2#然后输入npenterenterentertL8ew#t：修改分区文件系统id，选择8e，与原有分区属性一致（l
2024-04-24go实现分布式锁
用Go语言&&Redis实现分布式锁，我还是第一次磊丰 Go语言圈 2024-04-1508:30 广东 1人听过Go语言圈Go语言开发者的学习好助手，分享Go语言知识,技术技巧，学习与交流Go语言开发经验，互动才有助于技术的提升，每天5分钟，助你GO语言技术快乐成长158篇原创内容公众号
2024-04-24[题解]P5431 【模板】模意义下的乘法逆元 2
可恶，卡常好难受。P5431【模板】模意义下的乘法逆元2将分数通分，第\(i\)个分数是\(\frac{k^i*fac\diva[i]}{fac}\)，\(fac\)表示所有元素的积。我们可以用\(lr,rl\)记录\(a\)的前缀后缀积，第\(i\)个分数就是\(\frac{k^i*lr[i-1]*rl[i+1]}{lr[n]}\)。这样分母都是\(lr[n]\)，分子就
2024-04-24Large Language Models Are Semi-Parametric Reinforcement Learning Agents
发表时间：2023(NeurIPS2023)文章要点：文章提出一个evolvableLLM-basedagent框架REMEMBERER，主要思路是给大模型加一个experiencememory存储过去的经验，然后用Q-learning的方式计算Q值，再根据任务相似度采样轨迹和对应的Q值作为prompt指导LLM进一步选取动作和环境交互。这里的S
2024-04-18[题解]CF33C Wonderful Randomized Sum
CF33CWonderfulRandomizedSum我们可以发现，如果两区间不交叉也不会影响到结果，所以我们只需要考虑不交叉的情况即可。我们所选择的前缀\(1\simi\)应满足区间和最小，后缀也一样。所以用两个数组\(lr,rl\)分别记录下\(1\simi\)（前缀）最小和、\(i\simn\)（后缀）最小和。然后枚举分割
2024-04-10CF1909C Heavy Intervals 题解
一种似乎更快抽象的解法？题面正文看这道题，给定序列\(l,r,c\)，要求重构\(l,r,c\)使得\(\sum_{i=1}^n(r_i-l_i)\timesc_i\)最小。首先可以想到的就是尽量让小的\(r_i-l_i\)乘上大的\(c_i\)。这样子看来\(c_i\)几乎不需要更多的处理，仅需从小到大（或从大到小）排个序。来
2024-04-08URB2405S-6WR3
URB2405S-6WR3规格信息：商品类型电源模块DC-DC电源模块类型IsolatedModule电压输出的组数1转换效率82%最小输入电压9V最大输入电压36V隔离电压1.6kVDC输出总功率6W输出电压5V输出电流（最大值/满载）1.2AURB2405S-6WR3是由MORNSUN（金升阳）公司生产的一款电源模块。以下
2024-04-03RL 各平台比较
HighSoftwareEngineeringStandardsRLPlatformDocumentationCodeCoverageTypeHintsLastUpdateBaselines❌❌❌Stable-Baselines❌Stable-Baselines3✔️Ray/RLlib➖(1)✔️SpinningUp❌❌Dopamine❌❌ACME➖(1)✔️ker
2024-03-29A TL Strategy for Improving the Data Efficiency of DRL Control
Paper1ATransferLearningStrategyforImprovingtheDataEfficiencyofDeepReinforcementLearningControlinSmartBuildings:https://ieeexplore.ieee.org/document/10454120MotivationRL算法需要大量数据用于学习，我们需要提高训练和数据利用的效率。TL方法是一
2024-03-29【基于价值分解网络的多智能体协同学习】【VDN】【Value-Decomposition Networks For Cooperative Multi-Agent Learning】
目录Value-DecompositionNetworksForCooperativeMulti-AgentLearning基于价值分解网络（VDN）的多智能体协同学习Abstract 摘要1Introduction引言1.1OtherRelatedWork 1.1其他相关工作2Background 2背景2.1ReinforcementLearning2.1强化学习2.2De
2024-03-15【Coursera GenAI with LLM】 Week 3 Reinforcement Learning from Human Feedback Class Notes
Helpful?Honest?Harmless?MakesureAIresponseinthose3ways.Ifnot,weneedRLHFisreducethetoxicityoftheLLM.Reinforcementlearning:isatypeofmachinelearninginwhichanagentlearnstomakedecisionsrelatedtoaspecificgoalbytakin
2024-03-09offline RL | D4RL：最常用的 offline 数据集之一
pdf：https://arxiv.org/pdf/2004.07219.pdfhtml：https://ar5iv.labs.arxiv.org/html/2004.07219GitHub：https://github.com/Farama-Foundation/D4RL项目网站：https://sites.google.com/view/d4rl-anonymous/openreview：https://openreview.net/forum?id=px0-N3_KjA（被strong
2024-02-27offline RL | HIM：基于 hindsight 的 RL 是一类大 idea
题目：GeneralizedDecisionTransformerforOfflineHindsightInformationMatching，ICLR2022，688spotlight。其中一个8分是从5分rebuttal上来的；貌似对于其他reviewer，rebuttal也提分很多。pdf版本：https://arxiv.org/pdf/2111.10364.pdfhtml版本：https://ar5iv.lab
2024-02-27offline RL | 读读 Decision Transformer
论文标题：DecisionTransformer:ReinforcementLearningviaSequenceModeling，NeurIPS2021，6679poster（怎么才poster）。pdf：https://arxiv.org/pdf/2106.01345.pdfhtml：https://ar5iv.labs.arxiv.org/html/2106.01345openreview：https://openreview.net/forum?id=a7APmM4
2024-02-26Reinforcement Learning Charpter 3
本文参考《ReinforcementLearning：AnIntroduction（2ndEdition）》Sutton 有限MDP有限MDP在RL中一般就是指如下图的交互式学习框架。（为了方便起见，把它当成离散化的过程）其“有限”的特点表现在：state、reward、action三者只有有限个元素其markov性体现在：所以在这种情况下sta