发表时间:2019 (CoRL 2019)
文章要点:文章提出了一个online planning with deep dynamics models (PDDM)的算法来学习Dexterous multi-fingered hands,大概意思就是学习拟人的灵活的手指操控技巧。大概思路就是结合uncertainty-aware neural network models和gradient-free trajectory optimization,先学习dynamics models,然后用online model-predictive control来选择动作。
具体的,先假设状态转移是个高斯分布
然后用ensembles的方式学习多个model来度量model uncertainty。
对于online planning这块,作者在Random Shooting和cross-entropy method (CEM)的基础上,多考虑了和时间步相关的协方差(considers covariances between time steps),然后用softer update rule来更新。具体的,CEM通过采用的方式得到动作序列,然后选取最好的J个动作来更新均值和协方差,然后通过更新的估计进行下一轮的动作选择。
作者用的方式多加入了时间的平滑,
另外,在采样动作的时候不用random policy来做,而是用一个平滑化的方法来选择动作,这个平滑项n通过噪声的方式加到之前学到的\(\mu\)上,有点时间序列的意思
总结:方法虽然很常规,但是效果还是很好的。而且有模拟有实物,不好做的。
疑问:其实不是很明白为什么online planning去学均值和方差的时候要和time steps产生关系,为了让动作序列更加平滑?难道这就是使得机械臂产生拟人动作的关键吗,这样就不会产生波动很大的动作了?