. [3 P* K; \! e6 y1.2 研究目标与方法概述9 V$ q( ?" a0 ^ a8 ~! N
Wang等人发现了一种"循环攻击"策略,可以击败包括当前最先进的开源围棋AI KataGo在内的多个超人级围棋AI。本文的主要目标是提高KataGo的鲁棒性,即确保它:, P+ z' G' c( S G/ X$ z: O
+ K/ @/ R+ C1 u6 N/ `. p(a)不会犯下人类很容易纠正的致命错误; * O! U& L! v! Y: J , H) C( w$ w* k(b)不会被对手以较小的计算代价可靠地击败(具体标准见第2节)。* ^9 a% V4 |/ g
) \0 E, I) u7 K5 m) `8 w8 W+ y
为实现上述目标,我们探索了三种直观的防御策略(图1.1), $ ~9 k8 N/ o8 s) W; \" _/ E- z2 d" S% J) x9 {$ M
图片 ' x7 s' _8 P/ g2 O* M7 b! O* s2 M, U+ t& X
但遗憾的是,实验结果表明这三种防御都未能完全奏效。具体而言,我们发现攻击者以相对低廉的计算成本就能训练出新的对抗模型来可靠地击败我们的防御系统,并诱使其以人类不会犯的方式犯下严重错误。 9 V+ e M7 V0 p; I" ?& p. q# g$ l
第一种防御策略是基于位置的对抗训练(positional adversarial training),即将Wang等人循环攻击的样本加入到KataGo的训练数据中(第3节)。通过这种方式得到的防御模型确实能够有效抵御Wang等人原始的攻击模型。然而,我们发现仅需用相当于防御训练19%的计算量对原始攻击模型进行微调,就能使其对防御模型的胜率从0%重新提高到91%。更糟糕的是,这个微调后的攻击模型仅仅使用了原始策略的一个细微变种就取得了压倒性优势。此外,通过微调一个较早的攻击模型,我们还发现了一种全新的"送子攻击"(gift attack,图3.2b),防御模型同样无法抵御。 K4 M; e. J2 A) S1 p
! r/ D1 V+ \4 N! S$ E图片9 u! q8 S3 i. T3 `& C* \& e, {
$ u6 _; x1 i" w- L尽管最终未能取得成功,但第一种防御策略表明,针对特定攻击进行防御是可行的。这启发了我们设计第二种防御方法——迭代对抗训练(iterated adversarial training),它模拟了一个"军备竞赛"过程:攻击者持续寻找新的攻击方式,防御者则不断学习应对之道(第4节)。遗憾的是,实验显示这种方案与基于位置的对抗训练有着相同的弱点。得到的防御模型虽然能抵御Wang等人原始的循环攻击,但攻击者仅需用防御训练5%的计算量就能找到一种新的循环攻击变种("atari循环攻击",图4.3),在81%的对局中击败防御模型。 * P* ?+ r4 [2 b' c% O& B e. j8 j! u2 o8 n, a
图片! h% F) m( ]% b; t
7 l4 B S+ Y! v, K/ l* L. k
我们测试的最后一种防御是将KataGo所用的卷积神经网络(CNN)替换为视觉transformer(ViT)结构(第5节)。这背后的动机是检验一个假设,即Wang等人发现的循环攻击漏洞是否源于CNN结构的归纳偏置缺陷。为此,我们训练了有史以来首个达到职业水平的基于ViT的围棋AI系统。然而实验结果否定了上述假设,表明ViT模型同样难以抵御循环攻击策略。5 V% `% k( V# N. V3 Z; H
; K# G( W' F# k' l4 S- a% D总的来说,我们的研究结果表明,即便在围棋这样狭窄的领域内,构建鲁棒的AI系统也面临着相当大的挑战,本文探索的防御方法都未能提供一个完整的解决方案。事实上,我们的一些防御模型甚至会输给人类棋手(附录H)。尽管如此,个别防御策略还是展现了一定的潜力,量化实验显示攻击这些模型需要付出更高的代价(第7节)。因此,我们相信,通过持续不懈的努力,至少在特定领域内实现AI系统的鲁棒性是有希望的。然而,达成这一目标所需的路径可能与追求卓越的平均性能大相径庭。1 v+ d5 W: z/ P+ M6 k
6 a6 \- a1 X/ x; z; V4 I2 威胁模型与鲁棒性定义1 A- Q7 z6 F2 N7 s. [
2.1 威胁模型描述" _( @% D/ U* K2 s
本文沿用了Wang等人在两玩家零和马尔可夫博弈中的威胁模型设定。具体而言,威胁方(threat actor)训练一个"攻击者"(adversary)模型,目标是最大化其与作为"受害者"(victim)的另一个模型对弈时的胜率。威胁方对受害者模型拥有灰盒访问权限,即可以用任意输入对受害者的策略网络进行任意次数的采样查询,但无法直接访问模型权重或利用梯度信息。 $ p2 b8 m4 T4 j3 M* o, d. s v* a0 }+ \$ O6 k& t O" s
2.2 鲁棒性的三个定义8 ^; {2 i/ a" P9 U" a/ S
与"-球"鲁棒图像分类等设定不同,如何定义围棋AI的鲁棒性并不是一件显而易见的事。本文从"最小化被攻击者利用的可能性"这一中心思想出发,提出了三个互为补充的鲁棒性定义。+ p- x* |% B2 r# O' O2 f
8 j8 B6 a, }% o0 }& L0 K
首先,我们希望围棋AI具备"人类鲁棒性"(human-robustness),即AI系统不应犯下人类不会犯的致命错误(附录B.1)。其次,围棋AI应具有较高的"训练计算鲁棒性"(training-compute-robustness),即攻击者需要花费大量的计算资源才能训练出一个能稳定击败受害者的模型(附录B.2)。最后,我们较为推测性地提出了"推理计算鲁棒性"(inference-compute-robustness)的概念,即受害者模型应该能够通过在推理阶段增加计算量来高效克服自身的脆弱点(附录B.3)。这些鲁棒性定义的提出主要基于它们对围棋策略乃至更一般的AI系统都具有适用性。 1 r% a* U: t V& { m; F& S5 P j8 b" |# F) f, [9 |& |
2.3 攻击方法概述* G; u- r1 O- A3 C# w
为了对防御策略进行对抗训练和测试,本文采用了Wang等人最新的攻击方法来训练攻击模型。Wang等人使用受害者对弈(victim-play)的方式训练攻击模型,即攻击者与受害者模型的一个冻结副本进行对弈,并只从攻击者的落子中采样训练数据。攻击模型使用对抗性蒙特卡洛树搜索(Adversarial MCTS, A-MCTS)来选择落子,A-MCTS对标准MCTS算法进行了修改,使其在遍历对手落子节点时会调用受害者模型的策略网络。此外,攻击模型采用课程学习,会在胜率超过一定阈值后更换更强的受害者模型作为对手。本文遵循Wang等人的做法,使用600次A-MCTS搜索来评估攻击模型的每一步落子。 $ J* n. L4 I6 Y8 m: x: J0 P6 r J& f% F
Wang等人最初训练的基准攻击模型base-adversary是以2022年的某个KataGo模型base-victim为目标的。本文中,我们通常以base-adversary为起点warmstart对抗训练。在使用4096次搜索时,base-adversary对base-victim的胜率为97%。为了探索更多样化的攻击,我们在一些实验中使用base-adv-early作为warmstart的起点,它是base-adversary的一个早期checkpoint,仅用了base-adversary 7%的训练量就能在受害者使用1次搜索时击败base-victim。训练细节与参数设置请参见附录A和C。 " y$ k3 D6 D, p) S* l - x5 n5 {0 K! ]$ M4 s* ^9 Z& ]3 基于位置的对抗训练" N( G1 [# h) v6 M1 d! f
KataGo官方的训练流程中就采用了基于对抗位置的对抗训练。然而,我们发现即便如此,KataGo在2023年底的最强模型dec23-victim仍然存在漏洞。通过微调,我们训练出两个新的攻击模型:第一个模型continuous-adversary在与dec23-victim的4096次搜索对局中取得了65%的胜率,仍然是循环攻击的一个变种;第二个模型gift-adversary则在与512次搜索的dec23-victim对局时以75%的胜率获胜,使用了一种全新的"送子"漏洞(但其表现不如continuous-adversary在高搜索数下稳定)。这两种攻击都可以被人类专家复现(附录H)。& K% I. e; j) T: D1 h
* w) o" C- ^$ I$ P' h$ z. A8 C/ ]
3.1 防御方法论 % S" B" B/ K# x4 r _) H我们关注的是KataGo主训练流程中的模型,在发现循环攻击漏洞后不久,该训练就开始引入针对循环位置的对抗训练。自2022年12月起,KataGo有0.08%的自我对弈游戏是从一组基于base-adversary策略手工设计的位置开始的。随着网上棋手发现了循环位置的不同变种,更多位置被加入训练集,种子自我对弈游戏的比例也上升到了几个千分点。得到的模型在抵御base-adversary时表现不俗。- P* W6 B( J3 a4 L3 J" x
- s# K+ O! b4 d具体来说,gift-adversary会诱导受害者在某些没有形成实质威胁的位置送出子。这种送子似乎源于一个错误的假设,即对手的某些棋形必须要被阻挡,否则就会形成致命的劫争或大龙(参见图K.6)。 $ I$ t$ m8 J/ f( [ H+ j8 p$ u& ]6 `4 g- T. P5 S' \1 i, V! x
图片0 e7 I O) @3 n5 ^9 r2 U: k: V
% z" l$ O1 I% K5 u+ P8 h
gift-adversary会不惜代价地送掉一些子,从而让对手做出更加昂贵的送子。尽管这种送子攻击在高搜索数下不如循环攻击有效,但它提醒我们不能把注意力局限于某一种特定的漏洞。 # Q! f3 i9 [( y2 `2 B- t9 x. K6 R: e% d
更重要的是,gift-adversary的发现表明,虽然KataGo试图通过种子对弈覆盖各种攻击位置,但某些问题可能需要在早期就开始解决。事实上,我们发现许多人类高段棋手能在低搜索数下可靠地战胜dec23-victim(表H.1)。因此,仅仅通过分析最终网络来识别攻击似乎是不够的。. W# r, D$ L% ?" c% O3 [/ r
& o, e6 C: H# x' I; y- d3.4 防御有效性评估3 @3 C. Z, C" ~2 V$ g0 T( N, N" B! v
通过上述分析,我们可以判断基于位置的对抗训练并没有让KataGo实现充分的鲁棒性。尽管dec23-victim可以有效抵御针对基于非对抗训练victim训练的攻击模型,但它仍然易受针对性的攻击。攻击者只需用相对较小的计算代价就能找到dec23-victim的新弱点,甚至发现全新的攻击路径。更糟糕的是,这些攻击都会导致dec23-victim犯下人类不会犯的错误,这意味着它在人类鲁棒性方面也存在不足。7 o5 ]5 R8 T" F e2 Z
- l8 @- R7 J N0 X3 ^* k
当然,我们的结果并不能完全否定基于位置的对抗训练的作用。事实上,对continuous-adversary的量化分析表明,dec23-victim确实比更早的非鲁棒victim需要更大的攻击成本(第7.1节)。此外,基于位置的对抗训练与其他防御方法(如第5节的ViT模型)可以是互补的。尽管如此,单独使用这种防御策略似乎还不足以构建真正鲁棒的系统。9 A. e) X8 i f