阿尔法围棋的玩法---机器人会梦到电子羊吗?

两千多年前,中国的先哲庄周在梦中发现自己变成了蝴蝶,醒来之后在现实与梦境之间慨叹:“不知周之梦为蝴蝶与,蝴蝶之梦为周与?”这千古之叹在上世纪60年代也回响在美国科幻作家菲利普-迪克的小说《机器人会梦到电子羊吗?》之中---- 到底是冷血的人更像机器人还是富于情感的机器人更像人?谁来界定真实与梦幻?人类认知的边界到底 在哪里? 2015年10月, 谷歌的深脑公司(Deepmind)开发的“机器脑” 阿尔法围棋(Alphago)以5比0战胜了欧洲冠军,职业围棋二段樊麾,引起了举世关注, 一下子把近十年来人工智能在深度学习领域的突破展现在世人面前。

阿尔法围棋背后运作的是一套叫做“深度神经系统 ”(Deep Neural Network)的机器学习模型 。 这个模型受神经科学和认知科学的启发,用新的算法和架构来模拟人脑对信息的处理过程和决策过程。阿尔法围棋的模型是一个两层的互动神经系统,第一层神经系统负责策略,第二层神经系统负责估值,当机器脑在决定落子前,它的估值系统对棋盘的大势进行估价,它的策略系统继而决定走法。估值系统的核心是蒙地卡罗树状搜索法(Monte Carlo tree search)。这是一个通常用于游戏中的决策算法, 这种算法用随机取样的方式分析出最有效的玩法。这个算法中的关键步骤是选择(下一步去哪里),扩展(决定下一步),虚拟(从下一步一直玩到结果出现),反向衍生 (用结果来修改从尾到头的过程)。阿尔法围棋采用了两种认知科学的方法---专家学习和强化学习来训练它的模型。 通过专家学习,机器脑用了160,000个专业比赛的棋谱,产生出了3千9百万步的走法,归结出 棋盘上的每个位置有48种特征,在19 x 19的棋盘上每一步棋有19 x 19 x 48的可能走法。通过强化学习,机器脑自己左右手互搏,用自身当前的策略系统与旧的策略系统自相厮杀,进而产生出策略的梯度递减。 估值系统再把信息传递回策略系统,对策略系统进行修改,从而提高策略系统的精确度。

深脑公司(Deepmind) 由英国人迪米斯-哈萨比斯(Demis Hassabis )创立。 Demis Hassabis本人的故事非常传奇, 1976年他出生于伦敦,父亲是希腊-塞浦路斯人,母亲是新加坡华裔。他是一位神童,13岁成为国际象棋大师 (积分2300),自学了编程,  16岁高中毕业以后开始在一家游戏公司设计游戏,17岁时和人一起设计了以人工智能为核心的虚拟游戏“游乐场”(Theme  Park),引领了一代虚拟游戏潮流.。  (还记得SimCity吗?谁能相信这些游戏都是效仿一个17岁高中毕业生的brain child?) 就在自己设计的游戏拿了游戏界的奥斯卡奖后,Demis决定去上大学, 1997年他在剑桥拿了电脑学位。毕业后他重回游戏本行开发电动游戏,做了“黑与白”的首席人工智能程序员,然后就开始创业自己开游戏公司。出了几个受欢迎的虚拟游戏后,他为了寻找人工智能算法的灵感重返校园,2009年获得伦敦大学学院的认知神经科学的博士学位。他的研究方向是想象与记忆。 2010年他创立了深脑公司,把神经科学和认知科学与人工智能结合起来,从新的角度把人工智能作为一种“通用的学习机器”(AI as general purpose learning machines)来开发,2014年深脑公司为谷歌以4亿美元收购。

深脑公司的阿尔法围棋,按Demis自己的话来说是人工智能的“登月工程”,它 和人们熟悉的传统的人工智能运用---苹果手机上的Siri,或是IBM击败国际象棋大师的深蓝(Deep Blue)不同。Demis把神经科学动物实验关于想象力的发现用在他们的开发当中。 在动物实验中, 老鼠在迷宫中找到吃的,有一天,迷宫的路被堵住了,但是寻得食物的路径已经深深地印在了老鼠的脑子里(Place Cells),即使在睡梦中老鼠也会重演寻食的过程,并梦到自己吃到了食物。这种根据想象的行为,颇有“机器人梦到电子羊”的意味,到底梦是真,还是真是梦?Demis的另一个天才之处还在于他把游戏作为一个平台来测试人工智能的算法。阿尔法围棋没有预设的程序,它的学习过程始于海量的原始数据,在机器和环境不断互动的过程中, 对环境的观察与知觉和机器的行为不断相互更新,甚至出现了系统自己教会了机器它的设计者都不知道的游戏策略,Demis的雄心是 让深脑的“通用的学习机器”处理大数据带来的信息爆炸和复杂系统,使人工智能和人工智能辅助的科学成为一个新的学科,为气象,疾病,能源,宏观经济,娱乐和基因科学等等提供“大决策”。

明天阿尔法围棋就要对决韩国九段李世石了,无论结果如何,我们都已经进入了人工智能的一个新纪元,我们正在曾经历一个改变世界的时刻。

References

  1. http://sports.sina.com.cn/go/2016-01-28/doc-ifxnzanh0214388.shtml
  2. https://www.quora.com/How-does-AlphaGo-use-reinforcement-learning-to-train-its-policy-network-from-a-single-reward-punishment-signal-at-the-end-of-the-game
  3. https://en.wikipedia.org/wiki/Monte_Carlo_tree_search
  4. http://chris.ill-logic.com/systems-neuroscience/#slide22
  5. https://en.wikipedia.org/wiki/Demis_Hassabis
  6. https://www.youtube.com/watch?v=0X-NdPtFKq0

(原创版权,转发请知会)

登录后才可评论.