DELTA

2024-11-21RL 基础 | 如何复现 PPO，以及一些踩坑经历
最近在复现PPO跑MiniGrid，记录一下…这里跑的环境是Empty-5x5和8x8，都是简单环境，主要验证PPO实现是否正确。01ProximalpolicyOptimization（PPO）（参考：知乎|ProximalPolicyOptimization(PPO)算法理解：从策略梯度开始）首先，策略梯度方法的梯度形式是\[\nabla_\theta
2024-11-20轨迹数据强化学习整理
在轨迹数据中结合联邦学习、强化学习和课程学习进行训练，可以有效地保留用户隐私，同时通过强化学习策略学习轨迹数据的时空特征，并利用课程学习优化训练过程。以下是一个整合这些方法的框架和步骤，突出时间和空间特征的处理：1.联邦学习(FederatedLearning)框架目标：在多个分布式
2024-11-19genaiscript踩坑：设置proxyman抓包、兼容qwen72b funtion-call
genaiscript有个很棒的日志系统，但是碰到接口报错就没用了，还是得抓包来看，为了设置proxy，得修改源码。genaiscript是通过npx运行的，包的执行优先顺序是本地依赖目录npminstallgenaiscript——npm全局依赖目录npminstall-ggenaiscript——npx缓存目录从没有安装过本地包，在Mac上对
2024-11-19ReINSTEIN 大战 ReISENSTEIN 大战 RePPSTEIN
\[\newcommand{\bmat}[1]{\begin{bmatrix}#1\end{bmatrix}}\newcommand{\b}{\boldsymbol}\newcommand{\d}{\mathrmd}\newcommand{\p}{\partial}\newcommand{\varp}{\varphi}\]一个事件可以用一个四元组$(x,y,z,t)$来定位。这个四元组必然要相对一个原点$O$而建构。
2024-11-19单变量微积分学习笔记：求导（6）【3】
常见$(x^n)'=nx^{n-1}$$(sin(x))'=cos(x)$$(cos(x))'=-sin(x)$$(x^n)'=nx^{n-1}$$n\inZ^+$\(\lim_{\Deltax\to0}\frac{(x+\Deltax)^n-x^n}{\Deltax}=\lim_{\Deltax\to0}\frac{nx^{n-1}\
2024-11-19单变量微积分学习笔记：四则运算求导法则（7）【6】
公式$(u\pmv)'=u'\pmv'$$(uv)'=u'v+uv'$$(\frac{u}{v})'=\frac{u'v-v'u}{v^2}$证明（导数的定义）\((u\pmv)'=\lim_{\Deltax\to0}\frac{(u(x+\Deltax)\pmv(x+\Deltax))-(u
2024-11-13强形式洛必达法则
胜地不常，盛筵难再，兰亭已矣，梓泽丘墟———《滕王阁序》(L’Hospitallaw)Suppose$f\colon(a,b)\rightarrow\mathbbR$and$g\colon(a,b)\rightarrow\mathbbR$aredifferientialin$(a,b)$($-\infty\lea<b\le+\infty$).$g'(x)\ne0$in\((a,b
2024-11-12CF 1325 题解
CF1325题解AEhAbAnDgCd有$\gcd(1,x)=1,\text{lcm}(1,x)=x$,因此输出$1x$.BCopyCopyCopyCopyCopy要求严格上升子序列,那么答案的上界当然是去重后的元素个数.能否取到上界呢?当然可以,每一段内选一个你想要的就可以了.CEhabandPath-eticMEXs发现\(0,
2024-11-10维纳过程3维动图
importnumpyasnpimportmatplotlib.pyplotaspltfrommatplotlib.animationimportFuncAnimation#设置参数num_steps=1000#时间步数dt=1.0/num_steps#每个时间步的长度t=np.linspace(0,1,num_steps+1)#时间序列#初始化维纳过程W1=np.zer
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-053 有限体积法：推导方程
3有限体积法：推导方程基本原理和目标（注意：这一节看不懂没关系，在后面的推导中会慢慢用到）质量、动量和能量的守恒流体的质量守恒动量改变的速度=一个流体粒子上受到的力的总和（牛顿第二定律）能量改变的速度=一个流体粒子吸收的热量，和作用在其上的功的总和（热力学第一定律）
2024-11-03选择性必修1 化学反应原理小记
可能是易错升高温度时$v_{\text{正}}$和$v_{\text{逆}}$均增大。稀释酸时，并不是所有的离子浓度均减小：$\mathrm{OH^-}$。图表的浓度/其他数据可能不止指一个量。多检查一下pH比大小的方向。连上双键的能量不要用成连上单键的能量。绝热过程指的是不与外界进行热
2024-11-02二元一次不定方程（Exgcd）（更方便的解法）
扩展欧几里得算法（Exgcd）裴蜀定理对于任意一组整数$a,b$，存在一组整数$x,y$，满足$ax+by=\gcd(a,b)$。Proof：考虑数学归纳法。当$b=0$时，由于$\gcd(a,0)=a$，则对于$ax+0y=a$这个不定方程，$x=1$，$y$取任意整数。假设存在一组整数$x,y$，满足$bx+(a\bmodb)y
2024-11-01政策评价模型——双重差分DID模型
政策评估（PolicyEvaluation）在公共经济学和劳动经济学中广泛应用，主要用于评价已实施政策的效果。其核心目的是评估政策的处理效应（TreatmentEffect），即该政策对特定目标人群的实际影响。通常情况下，政策的实施往往仅针对特定人群，如低收入家庭、特定行业或区域。为了评估政策的影响，政