; K0 l8 c7 O+ W4 s \8 f当然,我们的结果并不能完全否定基于位置的对抗训练的作用。事实上,对continuous-adversary的量化分析表明,dec23-victim确实比更早的非鲁棒victim需要更大的攻击成本(第7.1节)。此外,基于位置的对抗训练与其他防御方法(如第5节的ViT模型)可以是互补的。尽管如此,单独使用这种防御策略似乎还不足以构建真正鲁棒的系统。* `& e7 }& j6 t; }0 j' H
9 ^) T/ q- a$ b
4 迭代对抗训练: Z' X2 ~4 e0 W: u6 l
第3节表明,尽管基于位置的对抗训练可以提高鲁棒性,但它主要覆盖了已知的攻击。为了应对更广泛的攻击,一种自然的想法是让防御者动态地适应攻击者,从而模拟军备竞赛的过程。这种迭代对抗训练(iterated adversarial training)方法在图像分类等任务上取得了一些成功。在本节中,我们在围棋领域中测试了这一想法。2 \: h' n% o6 G9 S( G" B
9 T: X3 X% I F( q9 y" s4.1 方法描述 P. n0 a8 B$ |& l: q8 R6 p1 Q2 d' l8 f" I
我们的防御流程包含了两个交替的阶段(图4.1)。在防御阶段,我们以最新的攻击模型为对手对防御模型进行微调。在攻击阶段,我们则固定防御模型,并训练一个针对它的新攻击模型。理想情况下,经过数轮迭代,防御模型应该能抵御攻击者找到的所有弱点。; A( b& |; |' O" P/ Q$ Y
# o) W2 o5 m9 q. n9 o我们以KataGo 2023年3月的一个模型作为种子防御模型victim-0,该模型没有接受过任何对抗训练。在第一轮防御训练中,我们从base-adversary的一个早期checkpoint base-adv-early进行warmstart,使用KataGo的标准自对弈方式训练一个更强的攻击模型adversary-1。具体而言,adversary-1除了与victim-0对弈外,还与自己的早期迭代对弈并更新模型权重。类似地,在随后的防御回合中,我们通过自对弈的方式在上一轮最佳攻击模型的基础上训练一个新的攻击模型。6 F) k6 |1 N+ H2 v/ K R& H6 s
9 B% W2 ~* o* K% F7 e
相应地,每一轮的防御模型victim-i是通过以adversary-i为对手对上一轮的victim-(i-1)进行微调得到的。在对弈中,我们让防御模型使用2倍于攻击模型的搜索预算,以鼓励其学习更鲁棒的策略。此外,我们引入了基于图像对抗训练的一些技巧,如循环学习率等。附录E中提供了完整的实现细节。7 b8 Q( ]3 U# u' `" \
) ?2 `: L/ q% T$ ^, S; W/ |
4.2 实验结果与分析% [: e7 W/ C, k
我们在4轮迭代后终止了训练,因为计算成本开始变得难以承受(累计使用了近100万个TPU-v4核心小时)。图4.2展示了每一轮adversary-i与victim-i在不同推理预算下的对弈结果。可以看出,第一轮的防御模型victim-1在抵御base-adversary方面取得了显著进展。然而,随着迭代的进行,防御模型的鲁棒性提升似乎出现了"饱和"。虽然victim-4能以67%的胜率击败adversary-3,但这一优势在面对最新的攻击模型adversary-4时就几乎完全消失了。. z3 o3 B6 E3 f) Q9 J. A, g( M2 h
- r0 E: I' y/ v% m3 [图片* s* t6 q Q& q: ~
2 W; I) R7 k. z. |2 l/ m, h r我们对最终的攻防模型进行了更深入的分析。令人沮丧的是,我们发现adversary-4在victim-4身上发现了一个新的循环漏洞。如图4.3所示,adversary-4学会了把虎扑(tiger mouth)循环与征子直接结合起来,我们将其命名为"atari循环"。与之前的攻击相比,atari循环在局部更加紧凑,这可能使防御变得更加困难。事实上,在低搜索数下adversary-4能以81%的胜率战胜victim-4,而在高搜索数下这一优势仍然高达23%(图4.2)。+ x5 R) I) L/ E) D& M