1946年世界上第一台计算机叫ENIAC,它诞生的时候占地170平方米,相当于两个教室那么大,它的功耗有150千瓦,而它的计算速度是每秒5000次。而我们的智能手机,功耗不到1瓦,每秒计算速度可达到几十亿次。而超级计算机的计算能力呈指数增长,超级计算机就像超级大脑,几十万、上百万的计算单元组合在一起,形成了超强的计算能力。
超级计算是人类发展的“超级利器”
我们为什么需要超级计算机?可以简单地拿步枪和大炮做一个比喻,普通的计算机就像步枪灵活实用,但是要去攻城拔寨就需要大炮,超级计算机的作用就是来攻城拔寨。2016年AlphaGo横空出世,在围棋大战中以四比一击败了李世石,今年又击败了柯洁。AlphaGo的超强能力一方面是因为新的人工智能算法的推动,另一方面它的后台具备千万亿次的计算能力,也就是说它工作1小时,相当于中国13亿人上百年的工作量。
超级计算实际上在更重要、更广阔的领域有它的重要价值,把它简单概括成叫“算天”“算地”“算人”。“算天”是算什么?我们的天气预报,同时研究宇宙起源和演化的重要能力;“算地”是算什么呢?实际上就是算地质的演化,还有我们的油藏,地下能源的勘探,我们简单地把它比喻成“给地球做CT”;“算人”是什么呢?基因数据是一个庞大的数据群,我们需要用超级计算机来进行基因大数据的分析,来揭示人类基因的密码。所以说,超级计算是解决人类重大问题和社会发展重大问题的一个“超级利器”。
30年拼搏赢得世界第一
在我们这个领域,非常有代表性的一个故事叫“玻璃房子”。当时我们的中石油、国家气象局需要超级计算机,花高价从国外的一些机构购买了超级计算机,但买回来以后,要建独立的机房,把数据交给他们,由他们的工程师进入机房进行数据处理,我们自己的人员只能隔着窗户看一下这台超级计算机。
2007年我在开展理论物理的博士研究工作时需要用到超大规模的计算,但是在我们国内很少有这种平台能够提供超级计算能力,所以就跟美国联合培养。我到了美国以后发现这种差距更大,美国一个普通的高校就可以有一台相当规模的超级计算机。
非常幸运,回国以后不久,在国家重大专项的支持下,天津滨海新区开始启动我国第一家国家级超算中心的建设。我毅然加入到这个筹建团队,2010年我们开始正式安装调试“天河一号”系统,全面安装的时候已经进入到七、八月份,外面30多度,因为没有空调,实际上机房里面40多度。大家累了就躺在我们设备的大纸箱子上休息一下,醒了再接着干。用了七个月左右的时间完成了别人要一年多才能完成的工作。
2010年11月17日,“天河一号”取得了世界第一的突破。实际上在“天河一号”取得世界排名第一之前,基本上是美国一家垄断这个世界排名第一的位置,日本是在2002年左右取得过世界第一。当时有美国的媒体就问:中国的超级计算机为什么能跨越式发展?我们说一个国家、一个团队持续30多年在这个领域里不断地坚持、不断创新,我们拿到世界第一有问题吗?
中国创新在质疑声中成长发展
“天河一号”取得世界第一不久,质疑的声音接踵而来。很多国内外专家和媒体质疑中国的“天河一号”是为排世界第一而造,中看不中用,甚至调侃它就是一台大游戏机。听到这个信息,我怒了!我立了个军令状:干不好“天河一号”的应用,我卷铺盖走人!当时我把我们团队打造成了一个叫“天河”应用拓展的售前、售后、研发的“三体”。“天河一号”刚运行时,我们部署一套国际上药物研发领域的通用软件,遇到了非常严重的不兼容问题。我们通过20多个日夜上千次调试、编译,最终把不兼容的问题解决了。现在再看我们的“天河一号”,它每天在线的运行任务1400项,每天完成近万项的任务,这种应用规模实际上是很多欧美超算中心都很难达到的。现在的“天河二号”“神威·太湖之光”等等这些超级计算机都在国家的科技创新和产业领域发挥着越来越强大的作用。
创新并不都是艰苦卓绝的或者高大上的,有的时候创新也来自于我们日常的生活。2012年我们遇到数据出现严重拥堵的问题。这是个什么概念呢?比如一个超级大工厂,每一个车间生产能力都很强,但这些产品在运到仓库存放的时候都堵在了仓库门口。如何解决这个问题?我出差时发现在车站人流密集的地方,会把一个大进出口用安全栅栏隔离开,分成很多小的通道,提升了通行的效率。这个设计启发了我,我回去把我们整个数据的输出分成很多通道,把我们数据的存储效率提升了大概一倍。
现在我们又启动新一代“天河”百亿亿次超级计算机的研制,我们把它简称为“E级计算”,这是现在全世界超级计算机领域共同面临的一个挑战。而现在美国和日本也在向这个E级计算挑战。实际上超级计算机的研制是一个国家电子信息技术发展的核心驱动,更快的超级计算机也是我们国家应急、防灾、能源保障等等这些重点领域的重要支撑。未来,我们的超级计算机是具有更广泛应用前景的新一代的“超级利器”。
(孟祥飞,国家超级计算天津中心应用研发部部长,本文编辑整理自孟祥飞2017年11月11日在央视《开讲啦》的演讲)
谷歌阿尔法狗再进化 人工智能概念受关注
https://androidinvest.com/Stock/Comment/21679/?
据外媒报道,谷歌旗下人工智能研究部门DeepMind团队公布了最强版AlphaGo,它完全可以从零基础学习,在短短3天内,成为顶级围棋高手。
这款名为AlphaGo Zero的水平已超过之前所有版本的AlphaGo。
DeepMind团队将关于AlphaGo Zero的相关研究以论文的形式,刊发在了10月18日的《自然》杂志上
100:0!Deepmind Nature 论文揭示最强 AlphaGo Zero,无需人类知识
本文作者:岑大师 | 2017-10-19 03:57 |
AlphaGo“退役”了,但Deepmind在围棋上的探索并没有停止。
今年5月的乌镇大会的“人机对局”中,中国棋手、世界冠军柯洁9段以0:3不敌AlphaGo。随后Deepmind创始人Hassabis宣布,AlphaGo将永久退出竞技舞台,不再进行比赛。同时Hassbis表示:“我们计划在今年稍晚时候发布最后一篇学术论文,详细介绍我们在算法效率上所取得的一系列进展,以及应用在其他更全面领域中的可能性。就像第一篇 AlphaGo 论文一样,我们希望更多的开发者能够接过接力棒,利用这些全新的进展开发出属于自己的强大围棋程序。”
今天,Deepmind在如约在Nature发布了这篇论文——在这篇名为《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文中,Deepmind展示了他们更强大的新版本围棋程序“AlphaGo Zero”,验证了即使在像围棋这样最具挑战性的领域,也可以通过纯强化学习的方法自我完善达到目的。
摘要
人工智能的一个长期目标是通过后天的自主学习(雷锋网注:tabula rasa,意为“白板”,指所有的知识都是逐渐从他们的感官和经验而来),在一个具有挑战性的领域创造出超越人类的精通程度学习的算法。此前,AlphaGo成为首个战胜人类围棋世界冠军的程序,当时的AlphaGo通过深层神经网络进行决策,并使用人类专家下棋的数据进行监督学习,同时也通过自我对弈进行强化学习。在这篇论文中,我们将介绍一种仅基于强化学习的算法,而不使用人类的数据、指导或规则以外的领域知识。AlphaGo成为自己的老师,这一神经网络被训练用于预测AlphaGo自己的落子选择,提高了树搜索的强度,使得落子质量更高,具有更强的自我对弈迭代能力。从一块白板开始,我们的新程序AlphaGo Zero表现惊人,并以100:0击败了此前版本的AlphaGo。
全新强化学习算法:无需任何人类指导
雷锋网发现,这篇论文的最大亮点,在于无需任何人类指导,通过全新的强化学习方式自己成为自己的老师,在围棋这一最具挑战性的领域达到超过人类的精通程度。相比起之前使用人类对弈的数据,这一算法训练时间更短,仅用3天时间就达到了击败李世石的AlphaGo Lee的水平,21天达到了之前击败柯洁的AlphaGo Master的水平。
在3天内——也就是AlphaGo Zero在击败AlphaGo Lee之前,曾进行过490万次自我对弈练习。 相比之下,AlphaGo Lee的训练时间长达数月之久。AlphaGo Zero不仅发现了人类数千年来已有的许多围棋策略,还设计了人类玩家以前未知的的策略。
据Deepmind博客介绍,AlphaGo Zero采用了新的强化学习方法,从一个不知道围棋游戏规则的神经网络开始,然后通过将这个神经网络与强大的搜索算法结合,然后就可以实现自我对弈了。在这样的训练过程中,神经网络被更新和调整,并用于预测下一步落子和最终的输赢。
这一更新后的神经网络将再度与搜索算法组合,这一过程将不断重复,创建出一个新的、更强大版本的AlphaGo Zero。在每次迭代中,系统的性能和自我对弈的质量均能够有部分提高。“日拱一卒,功不唐捐”,最终的神经网络越来越精确,AlphaGo Zero也变得更强。
Alpha Zero与之前版本有如下不同:
-
AlphaGo Zero 只使用棋盘上的黑子和白子作为输入,而之前版本AlphaGo的输入均包含部分人工特征;
-
AlphaGo Zero使用一个神经网络而不是之前的两个。以前版本的 AlphaGo 使用一个“策略网络”来选择落子的位置,并使用另一个“价值网络”来预测游戏的输赢结果。而在AlphaGo Zero中下一步落子的位置和输赢评估在同一个神经网络中进行,从而使其可以更好地进行训练和评估。
-
AlphaGo Zero 无需进行随机推演(Rollout)——这是一种在其他围棋程序中广泛使用于胜负的快速随机策略,从而通过比较确定每一手之后输赢的概率选择最佳落子位置,相反,它依赖于高质量的神经网络来评估落子位置。
上述差异均有主于提高系统的性能和通用性,但使最关键的仍是算法上的改进,不仅使得AlphaGo Zero更加强大,在功耗上也更为高效。
AlphaGo不同版本所需的GPU/TPU资源,雷锋网(公众号:雷锋网)整理
技术细节
新方法使用了一个具有参数θ的深层神经网络fθ。这个神经网络将棋子的位置和历史状态s作为输入,并输出下一步落子位置的概率,用, (p, v) = fθ(s)表示。落子位置概率向量p代表每一步棋(包括不应手)的概率,数值v是一个标量估值,代表棋手下在当前位置s的获胜概率。
AlphaGo Zero的神经网络通过新的自我对弈数据进行训练,在每个位置s,神经网络fθ都会进行蒙特卡洛树(MCTS)搜索,得出每一步落子的概率π。这一落子概率通常优于原始的落子概率向量p,在自我博弈过程中,程序通过基于蒙特卡洛树的策略来选择下一步,并使用获胜者z作为价值样本,这一过程可被视为一个强有力的评估策略操作。在这一过程中,神经网络参数不断更新,落子概率和价值 (p,v)= fθ(s)也越来越接近改善后的搜索概率和自我对弈胜者 (π, z),这些新的参数也会被用于下一次的自我对弈迭代以增强搜索的结果,下图即为自我训练的流程图。
AlphaGo Zero 自我对弈训练的流程示意图
虽然这一技术还处于早期阶段,但AlphaGo Zero的突破使得我们在未来面对人类面对的一些重大挑战(如蛋白质折叠、减少能源消耗、寻找革命性的新材料等)充满信心。众所周知,深度学习需要大量的数据,而在很多情况下,获得大量人类数据的成本过于高昂,甚至根本难以获得。如果将该技术应用到其他问题上,将会有可能对我们的生活产生根本性的影响。