当前位置:首页 > 活动 > 重要会议 > 双周财经论坛 > 文章详情

徐君:从Alpha Go 到智能搜索:浅谈人工智能的任务和方法

发表于

   

  2018年5月22日,中国社科院财经战略研究院2018年度第8期“双周财经论坛”在财经院九层第二会议室召开。本期论坛特邀中国科学院计算技术研究所徐君研究员作题为“从Alpha Go 到智能搜索:浅谈人工智能的任务和方法”的学术报告。财经院副院长夏杰长研究员主持了本次学术报告会。

  徐君研究员主要从人工智能任务和方法上介绍Alpha Go的技术创新以及其对当前智能搜索技术发展的重要贡献。整个学术报告包括“人工智能”、“Alpha Go 和Alpha Zero”、“人工智能在智能搜索中的应用”和“结语”四个部分。

  首先,徐君研究员对“人工智能”的概念进行了阐释,认为尽管人工智能成为最热门的领域,其科学概念有诸多讨论但到底什么是人工智能并没有形成共识,很大原因在于人类对自身智能的理解非常有限,对构成人的智能的必要元素也了解有限。在这种情况下,当前对人工智能判断的主要方法之一是依据外在表现判定是否具有“智能”,即“图灵测试”。图灵测试避免了从哲学意义上对机器是否能够拥有智能上的争论,但是也存在很多不足。

  在对人工智能概念和图灵测试进行分析后,徐君研究员介绍了人类的棋类游戏成为人工智能测试任务的发展历程。IBM的超级电脑深蓝战胜国际象棋世界冠军卡斯帕罗夫是Alpha Go之前,人工智能在棋类游戏测试上的成功案例,计算机通过近似穷举的方式战胜人类代表了高性能计算机技术取得了突破性进展,但穷举搜索并不意味着“深蓝”实现了“智能”。围棋是人工智能棋类测试任务中最为复杂的棋类游戏,由于围棋的落子可能性很多而且棋局很长,也就是搜索的宽度很宽,深度很深,现有计算机技术无法进行穷举搜索。Deep Mind研发的Alpha Go、Alpha Zero能够战胜人类顶尖棋手,一方面是有其强大的计算机系统支撑,但主要的技术突破在于搜索算法的突破,实现了机器的深度强化学习和自学习。

  徐君研究员认为Alpha Go的深度学习实现了以过程为中心的传统精确算法向以优化为中心的模糊算法转变。围棋是一种完全信息下交替选择的马尔科夫博弈游戏(Fully observed state alternating Markov game)。Alpha Go通过智能体-环境交互建模决策序列进行深度强化学习,其马尔科夫决策过程(MDP)包括了状态,动作,短期奖励,策略和长期回报五个过程;通过深度强化学习,Alpha Go建立了其策略网络(估算每一个落子位置的概率)和价值网络(估算当前棋局的胜率)。Alpha Go以及完全通过自学习形成的Alpha Zero的出现和取得的成功代表了计算机在深度强化学习能力上的巨大突破,计算机可以在极少的专业领域知识,无人类积累的数据和指引下完成学习任务,并可以在能力上超越人类。但徐君研究员并不认为Alpha Go的人工智能摆脱了对人类知识的依赖。

  最后,徐君研究员分析了Alpha Go的技术突破对智能搜索发展的贡献。他认为利用深度强化学习技术建模的智能搜索技术可以更好更快地为用户提供所需要的搜索结果,大大提高了用户的便利度。当前领先的互联网公司都在利用计算机进行深度强化学习,提高信息流处理效率,为用户提供更好的使用体验。

  30余名所内外研究人员、在校研究生参加了此次“双周财经论坛”。会后,多位与会研究人员与徐君研究员进行了交流。与会者对本次学术报告给予了高度评价,认为获益良多。

  (执笔:赵京桥)