增强学习是一种十分关键的 AI 技术性,它能应用奖赏(或处罚)来驱动器智能体向着特殊总体目标前行,例如它训炼的 AI 系统软件 AlphaGo 战胜了顶级中国围棋参赛选手,它也是 DeepMind 的深层 Q 互联网的关键一部分,它能够在好几个 workers 中间逐层学习培训,比如,在 Atari 2600 游戏里面完成“超人2”特性。
不便的是,增强学习架构必须花销很多時间来把握一个总体目标,并且架构通常不是灵便和不一直平稳的。如今,Google公布了一个根据TensorFlow的增强学习开源框架,全名是Dopamine。此外,也有一组Dopamine的课堂教学colab。和它的姓名Dopamine(胆碱)一样,新架构听上来就激动人心。
除开增强学习架构的公布,Google还发布了一个网站,容许开发者迅速数据可视化好几个智能体的训炼运作状况。她们期待,这一架构的协调能力和便捷性将使科学研究工作人员能积极主动试着新的念头,无论是渐进性還是激进派式的念头。
清楚,简约,实用
清楚和简约是该架构设计方案时要考虑到的2个首要条件。大家出示更精减的编码(大概 15 个Python 文档),而且有详尽纪录。它是根据致力于 Arcade 学习环境(一个完善的,便于了解的标准)和四个根据 value 的智能体来完成的:DQN,C51,一个精心安排的 Rainbow 智能体的简单化版本号,及其隐式分位数互联网(Implicit Quantile Network)智能体,这已在上月的 ICML 交流会上早已发布。大家期待这类形象性使科学研究工作人员可以轻轻松松掌握智能体內部的运行情况,并积极主动试着新的念头。
可重现
大家对可重复性在增强学习科学研究中的必要性尤其比较敏感。因此,大家为编码出示详细的检测普及率,这种检测也可做为别的文本文档方式。除此之外,大家的试验架构遵照 Machado 等得出的有关应用 Arcade 学习环境规范化工作经验评定的提议。
标准检测
针对新的科学研究工作人员而言,可以依据明确方式 迅速对其念头开展标准检测十分关键。因而,大家为 Arcade 学习环境适用的 60 个手机游戏出示四个智能体的详细学习培训数据信息,可作为 Python pickle 文档(用以应用大家架构训炼的智能体)和 JSON 数据库文件(用以与受到别的架构训炼的智能体开展较为);大家还出示了一个网站,你能在这其中迅速查询 60 个游戏里面全部智能体的训炼运作状况。
下边展现我们在 Seaquest 上的 4 个代理商的训炼状况,它是由 Arcade 学习环境适用的一种 Atari 2600 手机游戏。
下列得出Github新项目的详细地址https://github.com/google/dopamine,热烈欢迎大伙儿fork和star!
推荐阅读:one时尚秀
-
以下6个景点节假日不要去,除了人,什么都没有
时代在发展,经济也在发展,国家繁荣昌盛,随之我们的生活水平也不断的在提高!随着生活水平的提高,我们也学会了享受生活,在日常工作的忙碌之余,选择了旅游,从而释放压...
2020-02-18 -
坐酷航是一种怎样的体验?座椅舒适机餐美味 怕
说到廉价航空公司,你的脑海里第一个出现的是哪家?亚洲航空,还是春秋航空?对于经常国内和东南亚旅行的人应该比较熟悉这两家,但事实上,全世界的廉价航空非常多。有的航...
2020-02-18 -
三亚最美沿海公路,绵延海岸十几公里,是多数游
如果你来三亚选择自驾旅行,那么从机场前往市区,建议走海虹路再转入 三亚湾 路,这是一段沿着海边的公路,风景非常不错。开着车往市区方向行驶,此刻你的右边就是碧海蓝...
2020-02-18 -
传说俄罗斯美女如云,来了俄罗斯才知道,别活在
俄罗斯是一个非常有魅力的国家,这个国家也在大力的发展旅游业,中国游客也特别喜欢去俄罗斯旅游,来到俄罗斯之后,大家也会发现可以观察到很多具有俄罗斯风格的建筑,比如...
2020-02-18 -
老外到中国旅游,看到中国式结账感到惊讶,网友
对于外国人来说,中国是一个充满神秘和魅力的国家,无论是长达五千年的文化和历史,还是现代化的发展和变革,中国总能在一段时间内,创造出令人瞠目结束的硕果。也正是这样...
2020-02-18 -
BBC专业测评告诉你,奢华酒店为什么这么贵
今天大师兄为大家推荐一部酒店控们必看的BBC纪录片《Amazing Hotels: Life Beyond The Lobby》(中文译名:《奇妙酒店:大堂之外...
2020-02-18