• 2024-11-16gym游戏_单腿翻滚的reward简略函数的设置
    相关:https://openai.com/index/learning-from-human-preferences/google的researcher人为设定了一个rewardfunction,具体形式如下:defreward_fn(a,ob):backroll=-ob[7]height=ob[0]vel_act=a[0]*ob[8]+a[1]*ob[9]+a[2]*ob[10]backslide