首页编程正文内容

【NIPS 2018】循环World模型促进策略演变

编程

更新时间：2025-06-06 23:21:11 22

admin 管理员组

文章数量: 1087134

文章目录

- 所解决的问题？
- 背景
- 所采用的方法？
- 取得的效果？
- 所出版信息？作者信息？
- 其它参考链接

论文题目：Recurrent World Models Facilitate Policy Evolution

所解决的问题？

从world model中学一个policy，并将迁移到real world。

背景

人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片，不同的人能够得到不同的抽象理解，而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们，遇到问题或者是危险的时候，快速做出反应。

所采用的方法？

作者结合RNN和概率建模的方法做的。在这之前基于模型的强化学习算法能够取得比较好的效果，但是很多仍然在真实的环境中进行训练。而作者提出一种在生成的world model中学policy，并将其迁移到真实环境中。

VAE用于压缩信息得到latent vector。RNN用于输出一个概率密度函数 p ( z ) p(z) p(z) (混合高斯模型做的)。RNN建模表示为 P ( z t + 1 ∣ a t , z t , h t ) P(z_{t+1}|a_{t},z_{t},h_{t}) P(zt+1∣at,zt,ht)，具体关系如上图所示。控制器用的Covariance-Matrix Adaptation Evolution Strategy (CMA-ES) 。

总的来说就是基于观测的隐变量，对上一帧隐变量的预测，以及动作去预测下一帧隐变量。然后当前状态的隐变量和预测的状态隐变量来共同决定所选取哪个动作。

这里作者期望RNN能够学的环境的编码之后隐变量与动作交互数据的潜在规律(因为RNN的输出是含有所有之前的历史信息的)，然后用于辅助决策。VAE和RNN的训练都可以不需要奖励信息，只给交互数据就可以。

这么做的原因就是先对环境信息做了一个特征抽取，然后基于这个抽取的特征再用于训练得到policy，好处在于做了特征提取之后，观测的有效信息比较多，特征比较明显，那当然再做policy的学习会更快。

取得的效果？

基于手工提取特征的智能体得分是V model 632分上下浮动。

所出版信息？作者信息？

David Ha谷歌大脑成员，主要研究机器智能。

其它参考链接

官方网页介绍：https://worldmodels.github.io/

我的微信公众号名称：小小何先生
公众号介绍：主要研究分享深度学习、机器博弈、强化学习等相关内容！期待您的关注，欢迎一起学习交流进步！

本文标签：模型策略 NIPS World

版权声明：本文标题：【NIPS 2018】循环World模型促进策略演变内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://roclinux.cn/b/1738251729a1950849.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。