AlphaZero黑箱终于被打开!登顶5年后,人类揭开它学会下棋的奥秘
2022-11-18 10:58 | 来源:IT之家 | 编辑:肖鸥 | 阅读量:19624 |
2022-11-18 10:58 | 来源:IT之家 | 编辑:肖鸥 | 阅读量:19624 |
AI是怎么学习知识的科学家敲开它的头骨看了看
两天前,DeepMind和谷歌大脑的一篇文章被收录在《美国国家科学院院刊》上本文的内容是以五年前发表的AlphaZero为例,研究神经网络是如何获取和理解象棋知识的
在内容上,研究人员重点关注神经网络如何学习,知识如何量化等问题。
有趣的是,他们发现:
在没有人类博弈指导的情况下,AlphaZero仍然形成了类似于职业棋手理解的概念体系研究人员进一步探索了这些概念形成的时间和地点
此外,他们还比较了AlphaZero和人类的开局棋型的区别。
有网友觉得这是一项意义深远的工作:
也有人觉得AlphaZero可以计算任何人类的行为特征。!
更多观察,往下看。
引爆头骨的神经网络。
AlphaZero于2017年由DeepMind发布,一鸣惊人。
这是一个神经网络驱动的强化学习器,专门研究国际象棋,包括残差网络主干,分离策略和值头。
它的输出函数可以表示如下,z是国际象棋排列:
为了研究AlphaZero是如何学习的,研究人员为人类理解国际象棋构建了一个函数C其中z0是象棋专用的布局概念,C以专业象棋引擎Stockfish 8的评测分数作为参考
然后从AlphaZero的角度出发,设置一个广义线性函数G作为探针,取不同层的值在设定下,G会不断逼近,研究者会观察G与之间的逼近程度,以确认系统是否理解相关概念
然后,研究团队随机选取10万场游戏作为训练集,观察AlphaZero的表现。
如下图所示,结果显示伴随着训练步数和ResNet网挡的增加,AlphaZero的分数越来越高,游戏过程中每一步对敌人的威胁也越来越大。
由于实验中的异常值,研究人员讨论了潜在的语义。
如下图,少数红点远离主流分布,残值也在红色虚线上方,说明人类对象棋的判断存在明显的C函数和G函数差异。
研究小组发现,这些数值对应的是,在国际象棋中,人类判断白方有利,同时在对局过程中可以进一步吃掉黑方皇后。
研究人员得出结论,这是由于AlphaZero的值头和参考评价函数编码方法和参考系统的不同。
此外,研究者还观察了人类棋手和棋谱编程的重要参数,这些参数伴随着训练过程而变化,包括:王者安全,总战力,机动性,棋谱威胁等等。
结果表明,开始时几乎为零,但伴随着训练的进行,模型中某些参数的权重,以王者的安全度和一兵一卒的总战力来表示,明显增加。
这让研究者相信,通过训练过程,AlphaZero已经逐渐掌握了原本没有教给它的相关重要概念或知识。
最后,研究者还重点研究了开局游戏和下棋风格的演变,发现AlphaZero的下棋路径选择伴随着时间的推移在缩小,而人类的下棋偏好和路径在增加。
研究人员表示,原因尚不清楚,但它反映了人类和机器神经网络的根本区别。
关于后续研究的方向,笔者建议下一步探索AI模型能否超越人类认知概念的范畴,学习新的东西。
团队介绍
托马斯·麦格拉思来自DeepMind他毕业于伦敦帝国理工学院,获得博士学位主要研究领域包括ML,人工智能安全和可解释性
第二,Andrei Kapishnikov,来自Google Brain,专门研究人工智能应用他之前在VMware和Oracle工作
值得一提的是,国际象棋大师弗拉基米尔·克拉姆尼克也参与了这个项目的研究。
参考链接:
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。