DeepMind的AI再次打败人类玩家,“攻下”57款雅达利游戏
DeepMind的AI再次打败人类玩家,“攻下”57款雅达利游戏Agent57为我们构建更加强大的AI决策模型奠定了基础。AI打游戏会比普通人优秀?DeepMind给了肯定的答案。
Agent57为我们构建更加强大的AI决策模型奠定了基础。
AI打游戏会比普通人优秀?DeepMind给了肯定的答案。近日,DeepMind宣布它们的智能体Agent57首次在所有57款雅达利游戏上超越人类玩家。
近年来,DeepMind一直在研究提高智能体在游戏环境下的智能性,通常情况下,智能体在游戏中能够应对的环境越复杂,它在真实环境中的适应能力也会越强。
此次Agent57挑战的街机学习环境(Arcade Learning Environment,ALE)包括57款游戏,为智能体的强化学习提供了复杂的挑战。
而之所以会选择雅达利游戏作为训练的数据集,DeepMind表示雅达利游戏足够多样化,可以评估智能体的泛化性能,其次它可以模拟在真实环境中可能遇到的情况,并且雅达利游戏是由独立的组织构建,可以避免实验偏见。
据悉,Agent57在多台计算机上并行执行,并启用强化学习算法(Reinforcement learning,RL)驱动智能体采取行动,使得奖励的效果最大化。此前,强化学习在游戏领域就取得不少进展,比如OpenAI的OpenAI Five和DeepMind的AlphaStar RL智能体分别打败了99.4%的Dota 2玩家和99.8%的星际2玩家。
图 | Agent57的框架
雅达利游戏中的Montezuma、Revenge和Pitfall都很难,AI必须先尝试多种不同的策略,才能找到可行的方法。而在Solaris和Skiing游戏中,需要一段时间才能显示决策结果,这意味着AI必须在相当长的时间内收集尽可能多的信息。
Agent57通过让不同的计算机研究游戏的各个方面来克服了这些难题,然后将收集到的信息反馈给一个控制器,由控制器对所有这些因素进行分析以制定出最佳策略。
DeepMind将Agent57与当前最先进的算法MuZero、R2D2和NGU做了比较,Agent57显示出了更高的平均性能(100)。
研究团队表示,“这并不意味着雅达利游戏研究的结束,我们不仅要关注数据效率,也需要关注总体表现,未来的主要改进可能会是Agent57在探索、规划和信度分配上。”比如减少AI运行的算力,在集合中的一些较简单的游戏中变得更好。
Agent57在雅达利游戏中取得超越人类玩家的成绩,为我们构建更加强大的AI决策模型奠定了基础:AI不仅可以自动完成重复性的任务,也可以自动推理环境。
-
万物互联的创新时代,全球化AIoT平台涂鸦智能打造未来管道2020-04-02
-
我们还要迷信人工智能吗?2020-04-02
-
新冠病毒大流行推动智能家居语音控制设备快速增长2020-04-02
-
医院成为信息化抗疫主推手,管理体系智能化转变是大势所趋2020-04-02
-
觉非科技:打造智能驾驶“数据引擎”,用中台战略掘金新战场2020-04-02
-
“刚开场”还是“下半场”?智能家电行业“黑洞效应”正发生2020-04-02
-
出门问问TicWatch Pro 4G斩获艾媒咨询“2020年度创新智能可穿戴设备”2020-04-01
-
收到三家政府机构发来的感谢信,这家人工智能企业有点牛2020-04-01
-
先进智能手术系统开发及推广公司精锋医疗完成A+轮融资2020-04-01
-
出门问问荣获艾媒咨询“2020最具投资价值智能硬件企业”2020-04-01
-
可拆卸麦克风 JBL QUANTUM 100头戴式游戏耳机评测2020-03-31
-
云米财报:夹缝求生的智能家电的2020-03-31
-
希盟科技:智能监护领域新变革,居家享受高端医疗资源2020-03-31
-
自动化与智能化 将是无人机电力巡检未来发展重要方向2020-03-31
-
云米财报:智能家电的夹缝求生2020-03-31