背负着人们最后希望的围棋人机大战终极版终于敲定了,5月23日,代表“人类棋手最后尊严”的柯洁将与最新版本的AlphaGo进行三番棋比赛,经历过去年化身Master的AlphaGo的狂虐,这场人机大战的胜负似乎已经没有太大悬念,那再进行这样一场比赛的意义何在?

柯洁:我一定要击败AlphaGo

一年前李世石0:2落后于AlphaGo之际,柯洁曾放出豪言:AlphaGo要证明自己天下无敌,必须先过自己这一关,并称自己有信心战胜对手,“胜算大概在六七成”。但是在10日的发布会现场,他已经变得更谦虚,“现在的AlphaGo已经超过我们最强棋手的想象,带给我们最大的震撼与享受,”柯洁感慨道,“我是站在了历史变革的节点之上,很幸运能够见证AlphaGo这样强大的棋手。”

20170412_05_AlphaGo

围棋九段选手古力在接受记者采访时表示,这场人机大战人类的胜率低于10%,对于一个“只有胜利才是唯一真谛”的棋手而言,这无疑是非常残酷的,但是,柯洁表示“这一次不会轻易妥协”,并称“抱有必胜的心态和必死的信念”。

说到必死,柯洁又补充道:“我一定要击败AlphaGo。”

跟去年人机大战的快棋比赛不一样的是,今年AlphaGo与柯洁进行的是慢棋比赛,无论输赢双方都下满3盘,比赛每方3小时,5次1分钟读秒。

慢棋意味着人类棋手有更多思考时间去做出更好的判断。柯洁在不久前接受采访时称,下慢棋肯定对人类棋手相对有利。“我们下20、30秒一步的网上快棋,对人类棋手来说,有时差几秒都会是‘要命’的。所以时间多一点,对人类棋手肯定是有利的。”

AlphaGo现在到底有多强?

AlphaGo击败李世石,尽管震惊了各界看好或不看好李世石的人,但是不可否认,李世石终究已经有些过气,并不是当时的围棋第一人,还有不少人对于AlphaGo对战柯洁的结果保存着好奇心。

在此之后,AlphaGo也在一直不断地进步,在2017年元旦前后,AlphaGo化身“Master”在网络上将包括柯洁在内的一大群世界冠军挑落马下,它真的已经进步到了独孤求败的境界了吗?

据了解,跟柯洁在五月份对战的AlphaGo又是再次进化之后的全新版本,它采用了新的机器学习技术,能够通过训练形成策略网络,将棋盘上的局势作为输入信息,并对所有可行的落子位置生成概率分布,然后训练出价值网络进行预测,以对手的绝对胜利到AlphaGo的绝对胜利为标准,预测所有可行落子位置的结果。

而AlphaGo的真正优势体现在,将策略网络和价值网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,将监督学习和强化学习结合起来。此外,新版AlphaGo还将产生大量自我对弈棋局,通过自身为下一版本提供训练数据。

“蒙特卡罗树搜索的算法是让AlphaGo不停地自我对弈,”一位业内观察人士表示,“通过自我对弈,进而训练价值网络和策略网络,从而优化蒙特卡罗树搜索。“

换句话说,击败李世石的AlphaGo 1.0,是通过学习大量人类对战棋谱及与多位人类顶级高手交锋,不断积累形成棋力的。本次迎战的AlphaGo 2.0版本,则将完全摒弃人类棋谱,凭借自我对弈成长为顶级高手。

胜负之外的看点

比赛还未开始,大多数人都已经觉得这场人机大战的胜负已经没有多大悬念,那么,还有哪些看点值得我们去关注呢?

首先是人工智能水平的进一步飞跃。谷歌大中华区总裁石博盟表示,这次出战的是AlphaGo最新版本。从战胜李世石的V18版本,再到60胜0负的V25版本,人工智能的水平正在短时间内跑步前进。AlphaGo在人机大战中所使用的招数诸如二间高夹、点三三等,也开始被职业棋手在比赛中广泛应用。这就意味着,人工智能将人们对复杂又古老的围棋的理解,推向新的高度。

此次“人机大战”,AlphaGo又将用出怎样的招数?特别是考虑到V25版本在深度学习的基础上已经摒弃了人类棋谱,而是通过自我对弈来优化价值网络,最新版本的AlphaGo,将很有可能再次带来惊喜。作为目前认知型人工智能最成熟的应用之一,AlphaGo在围棋上的表现,很大程度上将预演人工智能未来对人们生活的影响。

其次是人与人工智能之间的人机协作。和去年“人机大战”相比,配对赛是此次“人机大战”的亮点,在配对赛中,两位棋手将分别与AlphaGo组队,挑战棋手如何去理解人工智能的独特风格并与之合作。将参加配对赛的职业棋手古力告诉记者:“能通过亲自对局第一时间感受AlphaGo的想法,和打谱是不一样的,合作的心理感受将有所不同,希望能够和AI共同探索,突破人类棋手的思维惯性。”人与人工智能的配合,将是未来人工智能发展真正的大趋势。两者能否顺利合作,并在合作中能否体现出更高的实力,将是本次人机大战的又一悬念。

人工智能如何落地?

中国人工智能学会副理事长、清华大学计算机系教授马少平指出,“AlphaGo采用的是蒙特卡罗树搜索框架,加上深度学习和深度强化学习。在这样一个框架下,深度学习尤其是深度强化学习在计算机围棋上的天花板究竟有多高,还是个未知数。”

而就是这样尚看不清天花板的人工智能应用,已经足以横扫人类顶级高手。一年以来,由AlphaGo引爆的各色棋牌类人机大战的结果已基本没有任何悬念:无论是AlphaGo化身Master,在网上实现对阵各国高手,实现60连胜(其中亦包括柯洁),还是腾讯绝艺在腾讯野狐平台率先晋升网络十段,此后在第10届UEC杯中称王,或是新近落幕的德州扑克人机对决中,卡内基梅隆大学开发的“冷扑大师AI”毫无悬念地战胜中国龙之队……在棋牌类人机大战中,人类已越来越心平气和地接受了自己的落败。

不过,冷扑大师的开发者、美国卡内基梅隆大学(CMU)计算机系教授托马斯桑德霍姆(Tuomas Sandholm)在听到阿尔法狗将来华挑战的消息后,评价非常的简单:问题的关键并不在于中国顶尖棋手能不能赢,而在于生活中几乎不存在像围棋这样的“完美信息游戏”,因而阿尔法狗也缺乏实用场景。

因此,站在人工智能发展如火如荼的今天,这场围棋对决的终极要义或许已经变成:人工智能为探索围棋的奥秘将带来什么?它的极限在哪里?它将怎样更好地造福人类?

或是因为此,李开复直言:“我们应该更加关注商业领域的人工智能,在金融、医疗、教育等领域产生商业价值,让世界变得更美好。”

石博盟也表示,围棋是非常复杂的游戏, DeepMind团队就是在探讨如何用人工智能来应用作出更好选择,这种科学可以应用到多个领域,包括医疗、癌症等难题。“在棋手和科学家的努力下,AlphaGo不断进步完善,在其他领域也会为人类带来帮助。”

目前,AlphaGo取得的研究成果正在快速复制到各行各业,谷歌旗下的DeepMind第一件做的事情是用机器学习来管理数据中心。为了解决服务器集群的冷却管理问题,DeepMind训练了三个神经网络,并在某一个数据中心进行了应用,比人管理的时候节电40%。DeepMind认为,这个神经网络不只可以用于数据中心,具有一定的通用性,准备把它发展到发电厂、半导体制造等行业。

DeepMind也将神经网络带到了医疗领域。有数据显示每11个成年人里就有1个会得糖尿病,糖尿病让患者失明的概率提高了25倍,如果失明的症状能在早期发现,那么有98%的可能性治愈。DeepMind与一家叫Moorfields的机构合作,拿到了近百万的原始数据。用这些数据来训练神经网络,然后从图片中提取特征,神经网络在图像识别上的错误率比人低,未来准确率会越来越高。