• 2024-09-18Monte Carlo方法解决强化学习问题
    本文继续深入探讨蒙特卡罗(MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。这一特性极具吸引力-因为在实际应用中,环境模型往往是未知的,或者难以精确建模转移概率。以21点游戏为例:尽管我们完全理解游戏规则,但通过DP方法解决
  • 2024-09-02OpenAI Gym custom environment: Discrete observation space with real values
    题意:OpenAIGym自定义环境:具有实数值的离散观测空间问题背景:Iwouldliketocreatecustomopenaigymenvironmentthathasdiscretestatespace,butwithfloatvalues.Tobemoreprecise,itshouldbearangeofvalueswith0.25step:10.0,10.25,10.5,10
  • 2024-08-24FAST Globular Cluster observation log
    IDNameRa.Dec.LB\(R_{\rmSun}\)\(R_{\rmgc}\)\(\rho_0\)\(r_{\rmc}\)\(\Gamma\)DM_meanymw16ne2001NoteWhiting102:02:57-03:15:10161.22-60.7630.134.50.2524.633.3Pal204:46:05.91+31:22:53.4170.53
  • 2024-08-15gym创建环境、自定义gym环境
    环境:half_cheetah.pyfromosimportpathimportnumpyasnpfromgymnasiumimportutilsfromgymnasium.envs.mujocoimportMujocoEnvfromgymnasium.spacesimportBoxDEFAULT_CAMERA_CONFIG={"distance":4.0,}classMOHalfCheetahEnv(Mujoc
  • 2024-08-11mujoco gymnasium 环境
    本文简要介绍gynasium中基于mujoco的环境搭建。参照gynasium.envs.mujoco。1.gynasium.Env简介在gynasium中,环境基类为gynasium.Env,其中定义了step,reset,render,close等方法以及action_space,observation_space,reward_range,spec,metadata,np_random
  • 2024-07-28深入浅出WebRTC—LossBasedBweV2
    WebRTC同时使用基于丢包的带宽估计算法和基于延迟的带宽估计算法那,能够实现更加全面和准确的带宽评估和控制。基于丢包的带宽估计算法主要依据网络中的丢包情况来动态调整带宽估计,以适应网络状况的变化。本文主要讲解最新LossBasedBweV2的实现。1.静态结构LossBasedBweV2
  • 2024-07-23障碍物地图
    前面我们看完了栅格地图,知道了地图的基本数据结构,今天进一步的看一下障碍物地图。障碍物地图的存在更多是用于局部路径规划中所使用,因为大部分时候全局地图都是比较大的,那么很难保证其始终是一成不变的,所以如果我们只是按照全局地图进行路径规划,很可能会出现原有的地图中没有障碍
  • 2024-07-07强化学习-表格型算法Q学习稳定倒立摆小车
    [[Q学习]]是表格型算法的一种,主要维护了一个Q-table,里面是状态-动作对的价值,分别由一个状态和一个动作来索引。这里以一个经典的道理摆小车问题来说明如何使用[[Q学习]]算法。这里会用到两个类,agent和brain。brain类中来维护[[强化学习的基本概念|强化学习]]算法的
  • 2024-02-06Gymnasium 环境搭建
    【默认在链接公网环境】!!!!一、     Conda虚拟环境搭建【安装则忽略】1.1检查本地适配python版本>python-V1.2根据版本下载并安装aconda【这里默认使用window平台】:1.3测试conda安装并创建虚拟环境:我这里使用版本为3.8的虚拟环境语法:condacreate-nenv_namepyt
  • 2023-06-26python代码-基于深度强化学习的微能源网能量管理与优化策略研究
    python代码-基于深度强化学习的微能源网能量管理与优化策略研究关键词:微能源网;能量管理;深度强化学习;Q-learning;DQN内容::面向多种可再生能源接入的微能源网,提出一种基于深度强化学习的微能源网能量管理与优化方法。该方法使用深度Q网络(deepQnetwork,DQN)对预测负荷、风光等可
  • 2023-06-21python代码-基于深度强化学习的微能源网能量管理与优化策略研究 关键词:微能源网;能量管理;深度强化学习
    python代码-基于深度强化学习的微能源网能量管理与优化策略研究关键词:微能源网;能量管理;深度强化学习;Q-learning;DQN内容::面向多种可再生能源接入的微能源网,提出一种基于深度强化学习的微能源网能量管理与优化方法。该方法使用深度Q网络(deepQnetwork,DQN)对预测负荷、风光等可
  • 2023-06-19Phenomenon•Observation•Uncertainty/Certainty•Statistical law•Random phenomenon•Theory of Probability
    Mathematics:thelogicofcertainty.Statistics:thelogicofuncertainty. Certainty/Uncertainty:  Phenomenon•Result Phenomenon->Observation->(Certainty,Uncertainty) Trial/Test:withinsameconditions;Observeobjectivephenomenon.
  • 2023-06-08180116 EM算法资料整理(博客、论文、工具包、视频、书籍、代码,更新ing)
    BlogsHindon和Jordan理解的EM算法ComputationalStatisticsinPythonEM算法及其推广EM算法及其推广学习笔记从最大似然到EM算法浅解EM算法在缺失数据下的极大似然估计R代码Matlab极大似然估计缺失数据Cos424:InteractingwithDataProbabilityCourse关于EM算法的一些
  • 2023-03-03RL 基础:如何搭建自定义 gym 环境
    需实现的方法:__init__(self):需定义action_space和observation_space,使用space.Box之类来表示(fromgymimportspaces)。step(self,action):返回observation
  • 2023-02-19CF923D Picking Strings
    偏简单的Ad-hoc题,但质量很高。Description传送门SolutionObservation1:我们可以将B换成C,也可以将C换成B。Proof:容易发现B->AC->AAB->AAAC->C,且C->
  • 2022-12-30AI | 强化学习 | Sarsa
    AI|强化学习|Sarsa首先感谢莫烦大佬的公开教程。https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflowsarsa是强化学习中的一种,属于在线学习。【
  • 2022-10-18强化学习-笔记
    importgymfromgymimportenvsenv_specs=envs.registry.all()#查看库中都注册了哪些环境#foreinenv_specs:#print(e)env=gym.make("CartPole-v1
  • 2022-10-02gym.ObservationWrapper使用时的注意点——reset和step函数可以覆盖observation函数
    记录一个刚学习到的gym使用的点,就是gym.ObservationWrapper使用时的注意点——reset和step函数可以覆盖observation函数。  给出代码:importgymclassWrapper(gym.Observa
  • 2022-09-25gym.ObservationWrapper使用时的注意点——reset和step函数可以覆盖observation函数
    记录一个刚学习到的gym使用的点,就是gym.ObservationWrapper使用时的注意点——reset和step函数可以覆盖observation函数。  给出代码:importgymclassWrapper(gy