- 2024-11-21RL 基础 | 如何复现 PPO,以及一些踩坑经历
最近在复现PPO跑MiniGrid,记录一下…这里跑的环境是Empty-5x5和8x8,都是简单环境,主要验证PPO实现是否正确。01ProximalpolicyOptimization(PPO)(参考:知乎|ProximalPolicyOptimization(PPO)算法理解:从策略梯度开始)首先,策略梯度方法的梯度形式是\[\nabla_\theta
- 2024-11-20轨迹数据强化学习整理
在轨迹数据中结合联邦学习、强化学习和课程学习进行训练,可以有效地保留用户隐私,同时通过强化学习策略学习轨迹数据的时空特征,并利用课程学习优化训练过程。以下是一个整合这些方法的框架和步骤,突出时间和空间特征的处理:1.联邦学习(FederatedLearning)框架目标:在多个分布式
- 2024-11-19genaiscript踩坑:设置proxyman抓包、兼容qwen72b funtion-call
genaiscript有个很棒的日志系统,但是碰到接口报错就没用了,还是得抓包来看,为了设置proxy,得修改源码。genaiscript是通过npx运行的,包的执行优先顺序是本地依赖目录npminstallgenaiscript——npm全局依赖目录npminstall-ggenaiscript——npx缓存目录从没有安装过本地包,在Mac上对
- 2024-11-19ReINSTEIN 大战 ReISENSTEIN 大战 RePPSTEIN
\[\newcommand{\bmat}[1]{\begin{bmatrix}#1\end{bmatrix}}\newcommand{\b}{\boldsymbol}\newcommand{\d}{\mathrmd}\newcommand{\p}{\partial}\newcommand{\varp}{\varphi}\]一个事件可以用一个四元组\((x,y,z,t)\)来定位。这个四元组必然要相对一个原点\(O\)而建构。
- 2024-11-19单变量微积分学习笔记:求导(6)【3】
常见\((x^n)'=nx^{n-1}\)\((sin(x))'=cos(x)\)\((cos(x))'=-sin(x)\)\((x^n)'=nx^{n-1}\)\(n\inZ^+\)\(\lim_{\Deltax\to0}\frac{(x+\Deltax)^n-x^n}{\Deltax}=\lim_{\Deltax\to0}\frac{nx^{n-1}\
- 2024-11-19单变量微积分学习笔记:四则运算求导法则(7)【6】
公式\((u\pmv)'=u'\pmv'\)\((uv)'=u'v+uv'\)\((\frac{u}{v})'=\frac{u'v-v'u}{v^2}\)证明(导数的定义)\((u\pmv)'=\lim_{\Deltax\to0}\frac{(u(x+\Deltax)\pmv(x+\Deltax))-(u
- 2024-11-13强形式洛必达法则
胜地不常,盛筵难再,兰亭已矣,梓泽丘墟———《滕王阁序》(L’Hospitallaw)Suppose\(f\colon(a,b)\rightarrow\mathbbR\)and\(g\colon(a,b)\rightarrow\mathbbR\)aredifferientialin\((a,b)\)(\(-\infty\lea<b\le+\infty\)).\(g'(x)\ne0\)in\((a,b
- 2024-11-12CF 1325 题解
CF1325题解AEhAbAnDgCd有\(\gcd(1,x)=1,\text{lcm}(1,x)=x\),因此输出\(1x\).BCopyCopyCopyCopyCopy要求严格上升子序列,那么答案的上界当然是去重后的元素个数.能否取到上界呢?当然可以,每一段内选一个你想要的就可以了.CEhabandPath-eticMEXs发现\(0,
- 2024-11-10维纳过程3维动图
importnumpyasnpimportmatplotlib.pyplotaspltfrommatplotlib.animationimportFuncAnimation#设置参数num_steps=1000#时间步数dt=1.0/num_steps#每个时间步的长度t=np.linspace(0,1,num_steps+1)#时间序列#初始化维纳过程W1=np.zer
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-053 有限体积法:推导方程
3有限体积法:推导方程基本原理和目标(注意:这一节看不懂没关系,在后面的推导中会慢慢用到)质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和(牛顿第二定律)能量改变的速度=一个流体粒子吸收的热量,和作用在其上的功的总和(热力学第一定律)
- 2024-11-03选择性必修1 化学反应原理 小记
可能是易错升高温度时\(v_{\text{正}}\)和\(v_{\text{逆}}\)均增大。稀释酸时,并不是所有的离子浓度均减小:\(\mathrm{OH^-}\)。图表的浓度/其他数据可能不止指一个量。多检查一下pH比大小的方向。连上双键的能量不要用成连上单键的能量。绝热过程指的是不与外界进行热
- 2024-11-02二元一次不定方程(Exgcd)(更方便的解法)
扩展欧几里得算法(Exgcd)裴蜀定理对于任意一组整数\(a,b\),存在一组整数\(x,y\),满足\(ax+by=\gcd(a,b)\)。Proof:考虑数学归纳法。当\(b=0\)时,由于\(\gcd(a,0)=a\),则对于\(ax+0y=a\)这个不定方程,\(x=1\),\(y\)取任意整数。假设存在一组整数\(x,y\),满足$bx+(a\bmodb)y
- 2024-11-01政策评价模型——双重差分DID模型
政策评估(PolicyEvaluation)在公共经济学和劳动经济学中广泛应用,主要用于评价已实施政策的效果。其核心目的是评估政策的处理效应(TreatmentEffect),即该政策对特定目标人群的实际影响。通常情况下,政策的实施往往仅针对特定人群,如低收入家庭、特定行业或区域。为了评估政策的影响,政