风云棋牌首页

推出 Dreamer:使用世界模型的可扩展强化学习

更新:2020-10-17 编辑:风云棋牌首页 来源:风云棋牌首页 热度:2372℃

文 / Google Research 学生研究员 Danijar Hafner

关于人工智能体如何选择动作来实现目标的研究,目前进展迅速,这在很大程度上得益于强化学习 的使用。 无模型 强化学习方法通过试错来学习预测成功动作,让 DeepMind 的 DQN能够玩 Atari 游戏,也让 AlphaStar可以在星际争霸 II 游戏中击败世界冠军,不过由于这种方法需要大量的环境交互,在 真实场景中的实用性也因此受到了限制。

风云棋牌首页相较之下, 基于模型的 强化学习方法能额外学习环境的简化模型。这一 世界模型 让智能体能够预测潜在动作序列的结果,能够在假设场景中的新情境中训练并做出明智决策,从而减少实现目标所必需的试错次数。过去,学习精确的世界模型并利用此类模型学习成功行为的方法一直存在挑战。虽然在近期的研究中,如我们的 深度规划网络,通过从图像中学习精确世界模型的方法在该领域取得一些突破,但是基于模型的方法依然受制于规划机制,需考虑到无效或算力消耗太高等方面的,其解决复杂任务的能力也因此受阻。

风云棋牌首页今天,在与 DeepMind的合作之下,我们推出 Dreamer,这是一种从图像中学习世界模型并使用此模型来学习长期行为的强化学习 智能体。通过模型预测的反向传播,Dreamer 能够利用世界模型进行高效的行为学习。通过从原始图像中学习计算 压缩模型状态 ,智能体只需使用一块 GPU 即可从成千上万的预测序列中高效地并行学习。在给定原始图像输入的 20 个连续控制任务基准测试中,Dreamer 在性能、数据效率和计算时间三个方面均达到最高水准 。为促进强化学习的进一步发展,我们正在向研究社区发布 源代码。

Dreamer 的工作原理

Dreamer 包括三个非常典型的基于模型的学习方法流程:学习世界模型,从世界模型做出的预测中学习行为,以及在环境中使用学习来的行为以获取新反馈。在学习行为时,Dreamer 使用估值网络 将规划范畴之外的奖励也纳入考量,同时使用行动网络 来高效地计算动作。这三个流程可并行执行,并不断重复,直至智能体实现其目标:

风云棋牌首页Dreamer 智能体的三个流程:智能体从过去的经验中学习得到世界模型。根据此模型的预测,智能体随后学习用于预测未来奖励的估值网络和用于选择动作的行动网络。行动网络用于与环境的交互

学习世界模型

Dreamer 使用 PlaNet世界模型,该模型基于从输入图像计算出的一系列 压缩模型状态 来预测结果,而不是直接从一个图像来预测下一个。智能体能够自动学习生成模型状态(如物体类型、物体位置以及物体与周围环境的交互等有助于预测未来结果的概念)。根据智能体过去的经验数据集内一系列的图像、动作和奖励,Dreamer 可以学习世界模型,具体过程如下图所示:

(责任编辑:风云棋牌首页)

本文地址:http://www.recycle-notepc.com/xianshu/2020/1017/2756.html

上一篇:iPhone 12又有渲染图流出,这次“刘海”明显变小!

下一篇:从20风云棋牌首页15到2019,大数据行业都有哪些关键词?

相关文章