• 2024-11-0120241101 模拟赛总结
    期望得分:100+47+35+22=204实际得分:100+47+3+22=172订正记录T1订正了之前T3,晚了半个多小时才开T1……开始大胆猜想是从小到大排序计算,后面发现不对?又想了一个邻项交换的点子,发现没什么区别,后面又猜是不是一段后缀,发现几个样例还真是!进一步思考后发现,是一段递增的子序列,并且起
  • 2024-11-01Diffuision Policy + RL -------个人博客_ZSY_20241101
    DiffusionPolicy:VisuomotorPolicyLearningviaActionDiffusionChengChi,ZhenjiaXu,SiyuanFeng,EricCousineau,YilunDu,BenjaminBurchfiel,RussTedrake,ShuranSong原论文链接投在了IJRR上点击:原作者论文思路讲解1.PPO背景引入这里简要交代PPO的算法