网站首页
编程语言
数据库
系统相关
其他分享
编程问答
单腿
2024-11-16
gym游戏_单腿翻滚的reward简略函数的设置
相关:https://openai.com/index/learning-from-human-preferences/google的researcher人为设定了一个rewardfunction,具体形式如下:defreward_fn(a,ob):backroll=-ob[7]height=ob[0]vel_act=a[0]*ob[8]+a[1]*ob[9]+a[2]*ob[10]backslide