我在谷歌大脑工作的 18 个月

创投
2019
04/10
07:35
雷锋网
分享
评论

雷锋网 AI 科技评论按:在强化学习领域,谷歌大脑的研究内容一直是业界重点关注的对象。Marc G. Bellemare 是谷歌大脑的研究员,研究方向为分布式强化学习、表征学习等。他将自己在谷歌大脑 18 个月中研究经历和心得写成了文章并进行发表。雷锋网 AI 科技评论全文编译如下。雷锋网

时间回溯到 2017 年夏天,在欧洲一段时间的告别旅行中,我被当时在蒙特利尔新成立的谷歌大脑团队录用 (当时我进行远程办公)。我在家里的办公室可以看到伦敦北部贝尔塞斯公园(Belsize Park)的绝美景色,而且还曾招待了谷歌蒙特利尔的整个强化学习团队,这是真的。

从那以后,我搬到了另一个大陆,在 AI 实习生、学生研究者和全职谷歌员工三重角色中转换。现在,谷歌团队的规模有了相当大的扩展 (而且还在继续扩展:Marlos C. Machado 也加入了我们)。事后看来,2018 年是相当多产的一年。这篇博客回顾了这段时间我们的科研产出,以一个全景视角介绍了蒙特利尔谷歌大脑团队在强化学习方面研究进展以及我们所参与过的非常棒的合作,从而让我们对不远的未来有了一个认识。

分布式强化学习

「它很好。但它如何实现呢 ?」

在强化学习中,分布式的方法认为我们应该预测随机收益的分布,而不是预测它们的期望值 ( Bellemare, Dabney, Munos, ICML 2017 ) 。然而,大多数分布式智能体仍然通过将行动值 (action value)分布提取还原为它们各自的期望值,然后选择期望值最高的操作来运行。预测,然后提取。那么,为什么它在实践中表现得如此出色呢 ?

为了回答这个问题,我们开发了一种正式语言来分析分布式强化学习方法,尤其是基于样本的方法(Rowland 等,AISTATS 2018)。通过这一形式,我们发现原来的分布式算法(称为 C51)隐式地最小化了概率分布之间的距离(Cramér 距离)。但是我们的一些结果表明,分布式算法应该最小化分布之间的 Wasserstein 距离,而不是 Cramér 距离。我们(我指的是 Will Dabney)用一种叫做分位数回归(quantile regression,)的技术重新修正了大部分的 C51,在一定程度上最小化了 Wasserstein 距离。由此产生的智能体(这个称为 QR-DQN)在 Atari 2600 基准上表现出强大的性能(Dabney et al.,AAAI 2018)。另一个令人兴奋的结果是, Mark Rowland 最近发现了分布式强化学习中统计量和样本之间的一个有趣的失配,这就解释了为什么这些算法有效,而其他算法注定会失败(Rowland et al.,2019)。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表中国科技快讯的观点和立场。

相关热点

最近这两天,比特币突然暴力拉升 1000 美元,一周涨幅达到了 25.75%。
创投
如果遇上这些跟信用挂钩的事,你会不会有些瑟瑟发抖?
创投
柠檬精、00 后黑话、恋爱降级…营销怎么做才能打动 Z 世代?
创投
众所周知,共享单车最大的反转是摩拜卖了,小黄黄了,哈啰单车(如今已更名 " 哈啰出行 ")的市场占有率却反升至第一。
创投
金融IT服务业务或将成为蚂蚁金服旗下另一品牌。
创投

相关推荐

1
3