模仿并超越,KL 正则化搜索让 AI 下围棋更像人类,Meta&CMU 出品
如果非要问 AlphaGo 有什么缺点,那就是下棋不像人类。和 AlphaGo 对弈过的顶级棋手都有这种感受,他们觉得 AI 落子经常让人捉摸不透。
这不仅是 AlphaGo 的问题,许多 AI 系统无法解释,且难以学习。如果想让 AI 与人类协作,就不得不解决这个问题。现在,来自 Meta AI 等机构的研究者们打造出一个能战胜人类顶级棋手、且更容易复盘棋谱的 AI。
他们用人类棋谱训练 AI 模仿,并让后者超越了人类。
上图分别展示了该方法在国际象棋(左)、围棋(右)的表现。
纵轴为 AI 与原始模型对弈的胜率,横轴为 AI 预测人类落子位置的 Top-1 准确度。可以看出新的算法(绿色)在两方面都已经超过了 SOTA 结果(蓝色)。
像人类,还能打败人类
正所谓"鱼与熊掌难以兼得"。AlphaGo 使用的自我博弈与蒙特卡洛树搜索(MCTS),虽然练就了无比强大的 AI,但它的下棋更像凭直觉,而非策略。如果要让 AI 更像人类,更应当使用模仿学习(Imitative learning),但是这却很难让 AI 达到人类顶级棋手水准。
Meta AI 和 CMU 的研究者发现,加入了 KL 正则化搜索后,一切都不一样了。AI 的落子策略变得与人类棋手更加相似,这就是他们提出的新方法。
在国际象棋、围棋和无合作的博弈游戏中,这种方法在预测人类的准确性上达到了 SOTA 水平,同时也大大强于模仿学习策略。作者选择了遗憾最小化算法(regret minimization algorithms)作为模仿学习的算法,但是非正则化遗憾最小化算法在预测人类专家行为方面的准确性较低。
因此作者引入了新的方法,引入了与搜索策略和人类模仿学习的锚策略之间的 KL 散度成正比的成本项。此算法被称为策略正则化对冲,简称 piKL-hedge。
piKL-hedge 的执行步骤如下:
在下图中,piKL-Hedge(绿色)可以生成预测人类博弈的策略,其准确度与模仿学习(蓝色)相同,同时性能强 1.4 倍。另一方面,在实现更高预测准确性的同时,piKL-Hedge 优于非正则化搜索(黄色)的策略。
作者团队简介
本文共有三位共同一作,分别是来自 Meta AI 的 Athul Paul Jacob、David Wu,以及 CMU 的 Gabriele Farina。
Athul Paul Jacob 同时也是 MIT CSAIL 的二年级博士生,从 2016 年到 2018 年,他还在 Mila 担任访问学生研究员,在 Yoshua Bengio 手下工作,与 Bengio 共同发表了多篇论文。
David Wu 是 Meta AI 的国际象棋和围棋首席研究员。
Gabriele Farina 是 CMU 一名六年级博士生,曾是 2019-2020 年 Facebook 经济学和计算奖学金的获得者,他的研究方向是人工智能、计算机科学、运筹学和经济学。
另外,Gabriele Farina 还参与过著名的 CMU 德州扑克 AI 程序 Libratus 的开发。
论文地址:
https://arxiv.org/abs/2112.07544
2022-05-06 15:09:35