发表时间:2018(Learning Disentangled Representations, NIPS 2017 Workshop)
文章要点:这篇文章想说,可以分解出独立的可控的各种因素的表征才叫好的representation,作者就说通过policy和环境交互的过程是可以实现这种表征的。具体的,作者定义了一个度量标准来作为policy学习的reward
这里\(h\)是经过编码的初始状态,\(h^\prime\)是经过编码的终止状态,\(\phi\)代表变化的因子。\(A\)就度量由\(\phi\)造成的\(h,h^\prime\)之间的变化。
作者还举了个开关灯的例子来解释
然后训练policy的目标就是找一个最大化相应表征的策略
总结:感觉也过于抽象了吧,感觉很高深,但是又感觉啥都没讲,完全看不懂啊。而且最后还挂了Yoshua Bengio的名字,估计还是我太菜了。
疑问:里面这个训练过程也没细说,实验部分也不知道在干啥。不过作者还是个实在人,直接就说不好训