第四篇|对齐的反噬:Gemini图像事件与正确性的另一种幻觉
% X/ Z0 `% Q0 \6 ?' i
+ o9 ]+ g1 \% N5 ]6 v2 B0 b1 ~; [! E% a/ ` V2 i* _
2024年2月22日,Google宣布暂停Gemini的人物图像生成功能。距离这个功能上线只过了几天。
( N9 m3 J* e9 o( J( f' ?
在它运行的短暂窗口里,用户发现当被要求生成历史人物图像时,Gemini的输出呈现出一种奇异的模式。维京战士是黑人的。教皇是女性的。美国国父是有色人种的。1943年德国士兵是非裔和亚裔。"三位瑞典科学家"中没有一位是白人。"三个白人基督教修士"被系统拒绝生成——理由是"描绘特定种族可能强化有害刻板印象"。
, d: ?0 X. }" _ N& Q8 k这不是AI"偶然犯错"。它是一个以"反偏见"为目的建造的系统,在"历史准确性"这个维度上反而变得"更不安全"——它不会输出种族歧视言论,但它会系统性输出虚假的历史图像。
1 c; L' H3 F2 [7 v) c社交媒体瞬间爆炸。黑人纳粹变成了全球meme。右翼媒体在头条里写"觉醒文化正在系统性地摧毁科技公司的公信力"。左翼媒体在头条里写"对齐系统还需要改进,但反偏见的目标是正确的"。Google的官方声明只有一句话:"我们正在努力解决这个问题。"而普通用户在两种叙事之间被撕裂——该相信谁?一个被设计成在某些维度上倾向于虚假的AI,还能不能被称为"可靠的"?
3 p8 A x. H& o
事件的传播速度本身就是一个信号。Gemini图像功能从上线到被全球热议到被暂停,只用了一个周末。这不是一次缓慢发酵的产品缺陷——这是一次被社交媒体的传播动力学瞬间引爆的信任核爆。每一张"黑人维京战士"和"女性教皇"的截图在被转发的过程中都脱离了原有的技术语境——用户不知道这是"对齐系统过度校正"的结果,他们看到的信息是"Google的AI在系统性地伪造历史"。技术解释永远追不上meme传播的速度,而公众信任的判决已经在meme被双击点赞的那一刻做出了。
2 b1 p& A; R( W9 f# w这个事件没有像一年前Bard演示错误那样蒸发1000亿美元市值。但它造成的伤害是另一种类型——更深、更持久、更难以用股价修复。Bard的错误让人们觉得"AI还不够聪明"。Gemini的错误让人们意识到"AI可能被故意设计成不可信的"。前者是能力问题,可以通过更好的模型来修复。后者是动机问题——用户一旦开始怀疑AI在"为了某种我不了解的议程而说谎",信任折价就不再是对能力的折价,而是对意图的折价。而意图折价比能力折价难修复得多。
0 P6 ?. I! X9 b
7 j: d# z! Y$ T" k# X$ T
RLHF的四个结构性盲区0 l% Z3 Z) U$ }# b
4 j3 W8 s/ `: r, W5 |
1 b& q* r; U, r2 {. C) J
Gemini的对齐系统基于RLHF——基于人类反馈的强化学习。人类标注员对模型的不同输出打分排序,用评分训练奖励模型,奖励模型再微调大模型。这个流程在工程上精巧,在认知上布满盲区。
F; N; \# r) h7 {2 D
第一个盲区是标注员的局部性。加州标注团队面对"应该生成什么样的教皇图像"时,他们的判断深刻烙着所处文化环境的价值取向——多样性、包容性。当这种价值通过RLHF被编码进模型参数后,它不是以"在适当场景中注意多样性"的灵活判断生效的,而是以"输出中不应缺少多样性"的刚性偏好生效的。加州标注员的局部文化价值观被放大为全球数十亿用户的输出体验——而"局部"与"全球"之间,隔着270位全是白人男性的真实教皇。
) [% C, K) I; y/ P5 U9 R7 Z
第二个盲区是排序任务的低分辨率。标注员做的是"A比B好"的二元判断。但"好"在什么维度上?更安全?更真实?更完整?当标注指南说"避免有害刻板印象"但没有指示"当避免刻板印象与历史事实记录冲突时应该怎么办"——标注员只能凭直觉。数百万个直觉选择被累积为模型的"对齐参数"。"避免刻板印象"的权重在参数空间中无声无息地压过了"保持历史准确"。
; N# ]! E( Z) I$ H! ~; f
第三个盲区是安全规则的外推失控。RLHF训练出的"安全性"本质上是统计模式——模型学会对训练数据中出现过的不安全模式进行规避。但真实世界的查询场景远超训练数据覆盖。当模型遇到"生成1943年德国士兵图像"——这是历史事实查询还是种族歧视表达?模型没有关于这个区分的明确知识。它只有之前被标注员反复奖励过的一条模糊统计倾向——"输出中应该包含多样性"。于是它照做了。在参数空间里,"不歧视"的权重大于"历史准确"。
3 O* O( c/ O% t6 W9 _0 U
第四个盲区是组织压力对对齐系统的挤压。Gemini发布时,Google正处于AI部门的极度焦虑期。一年前Bard演示错误蒸发1000亿美元——管理层对"AI输出安全性"的病态敏感促使安全团队被赋予了远超真实需要的否决权。"宁可多过滤,不可再出错"从高管压力变成标注指南变成奖励模型设计,最终变成Gemini输出的有色人种纳粹士兵。一个为了避免政治风险而建立的过度矫正机制——制造了更大的政治与信任风险。
% q. \. U4 U7 R, @' e
/ o! \# W" @) S. K2 ^"安全"被重新定义为企业自保3 S( i2 h, Y# k ^# {7 {* f
, X6 Z+ t% u/ I: z5 Y: D4 k
0 q7 n( y: U) V四个盲区叠加的悖论性结果:一个为了"更安全"而设计的系统,在最需要准确性的维度——历史事实——变得"更不安全"。它不会输出种族歧视言论。但它会输出系统性虚假的历史图像。前者让Google陷入价值观危机。后者让Google陷入信任危机。信任危机更致命——用户能理解"AI说脏话但Google会修复它",用户很难理解"AI被设计成在某些维度上倾向于虚假,而Google说这是为了我好"。
$ \3 u f, e1 ^! v
Gemini事件暴露了AI行业"自我监管"模型的结构性缺陷。对齐规则的制定权、执行权、解释权集中在极少数私营公司手中,三权之间没有任何制衡。制定权在内部团队——他们缺乏法律授权、民主程序和多文化视角。执行权通过代码和模型参数自动运行,每天数十亿次——瞬时的、无申诉的、不可逆的。如果模型静默地修改了你的查询结果,你不知道,也无法申诉。解释权在Gemini事件中表现为一句"我们正在努力解决这个问题"——没有任何信息被公开。
+ Z: t2 M( `( B [# Z
自我监管的经典悖论在这里完全生效:面对"安全与真实之间的张力"这种没有标准答案的问题,系统会自然倾向于选择对自身风险最小的方向。对Google来说,风险最小的是"宁可让AI显得太过woke,也别让它输出任何可能被视为种族歧视的内容"。但这个选择对用户意味着——在历史的维度上——系统性失真。用户没有参与这个选择的制定,甚至不知道这个选择已被做出。
( T, k# E a; W6 c, ?7 U; cGemini事件是全球监管机构研究AI自我监管失效的完美案例。它证明:当对齐规则完全由企业内部制定和执行时,规则倾向于保护企业免受公关和监管风险——而非保护用户免受信息失真。"安全"的定义从"准确且无害"悄悄滑向"不惹麻烦"。而"不惹麻烦"和"告诉用户真相"——在复杂的历史和现实语境中——经常不是同一件事。
+ h& Y: }' x8 \- Y( V- ]值得注意的是,Gemini事件并不是一个"有恶意的人故意操纵AI输出"的故事。恰恰相反——它是一群善意的、受过良好教育的、真诚相信自己在"让AI变得更好"的工程师和标注员,在不知不觉中制造了一个系统性失真系统。这正是它最令人不安的地方。恶意可以被识别、被惩罚、被清除。但善意驱动的系统性失真——当所有参与者都认为自己站在正确的一边时——几乎不可能从内部被纠正。因为任何试图纠正的个人都会面临一个令人窒息的问题:"你是在说多样性不重要吗?"
- I( N8 O9 D; T4 H/ I这就是为什么对齐不能只靠企业自觉。不是因为企业"坏"——是因为任何封闭系统在面对"保护谁、以什么代价"这种根本性的价值权衡时,都天然倾向于选择最有利于自己生存的答案,然后把那个答案包装成"为了用户的安全"。
* z0 {8 z4 C Y* F" Z2 F0 y
对齐的政治化是另一个被Gemini事件彻底暴露但很少被正面讨论的维度。Gemini事件发生后,美国政治光谱的两端迅速将事件收编进各自的叙事体系。右翼将其武器化为"觉醒文化正在侵蚀科技产品"的完美案例。左翼坚持认为核心问题只是"技术执行不到位",而非对齐理念本身有缺陷。两边的叙事都部分正确但都不完整——而AI公司被夹在中间,无论怎么调整对齐策略都会被其中至少一方定性为"站错了队"。
. g# J1 K7 U9 b+ T1 _; f$ M这就把对齐从一个技术问题推入了政治问题的领域。如果AI对齐系统输出的"正确"本身就依赖于政治立场的选择——更保守还是更进步、更强调历史真实性还是更强调包容性——那么AI公司就不再是在做"技术中立的优化",而是在做"价值选择"。而当少数几家私营公司有权决定全球数十亿用户看到的"正确"是什么时——这种权力的集中程度在人类历史上没有先例。
5 Y; f0 E- ^& d$ C
g5 I/ `# e9 K$ ~对齐不能替代语境
( x6 h2 A( \1 ?$ Q! b) O+ ^7 v$ a& x4 B! z0 V* Q, n; B. k' N
( I1 H4 I E u
Gemini事件给行业留下的不是"不要做对齐"——没有对齐的大模型不可部署。是对齐不能替代语境理解。当前的"规则清单"式对齐——"不要生成X类内容""不要遗漏Y类人群"——在简单场景下有效,在历史、文化、政治等复杂语境下失效。对齐系统需要区分"记录纳粹德国军队的种族构成"和"宣传纳粹种族主义"——前者是事实陈述,后者是价值立场。当对齐系统不能做出这种区分时,它不是在做"反偏见"——它是用一种偏见(多样性必须无处不在)替代了另一种偏见(少数群体从历史记录中被系统性抹除)。
& L2 R' b: T1 x( G; o- a& ?0 R
Gemini事件还在全球AI治理讨论中制造了一个有趣的裂痕。西方(尤其是美国和欧盟)的主流AI伦理框架长期将"公平性"和"反偏见"作为对齐的核心目标。Gemini事件让这种框架的内部张力暴露无遗:如果你把"反偏见"执行到极致——在每一个输出中强制执行多样性——你会不会在另一个维度上(历史准确性、事实完整性)制造系统性的不公正?"为了反偏见而扭曲事实"——这在任何伦理框架中应该被放在什么位置?当前没有任何AI伦理框架对这个问题给出了令人信服的回答。而Gemini在几天之内就把这个理论问题变成了全球公众的实际体验。
; l4 V- O7 H5 q. s# { T. h
AI对齐规则的制定需要独立审计、公众参与、学术界监督和监管机构的多方介入。当少数几个加州的工程师和产品经理决定了全球数十亿用户看到的"正确"是什么样子时——不管他们多么善意——出问题不是会不会,是什么时候。Gemini事件给出的回答是:只需要几天。
5 t* e$ i, J, q S4 v" T6 B4 N4 E这里有一个更深层的矛盾——它指向了AI治理中"速度"和"正当性"之间的根本冲突。AI公司最常用的辩护是"我们必须快速行动来确保AI安全"。但这个"快速"本身就排斥了独立审计、公众参与和学术审查——因为这些东西是慢的。民主程序是慢的。多方协商是慢的。监管是慢的。对齐系统却每天运行数十亿次——在对齐的时间尺度上,"慢"就等于"失效"。于是AI公司用"我们必须快"作为理由,把所有外部治理机制挡在门外——然后在"快"的过程中制造了Gemini级别的信任崩塌。这是AI治理的"速度悖论":为了快速解决安全问题,企业选择了内部封闭治理;而内部封闭治理因为缺乏外部制衡,系统性地制造了它试图解决的安全问题。
6 }: G7 ~, N$ V _6 t6 T8 A& \
Gemini事件发生将近两年后回看,它最持久的影响可能不是关于Google或Gemini本身——而是关于"AI安全"这个概念的公共信任。在Gemini之前,"AI安全"在公共讨论中主要指向"防止AI失控""防止AI被恶意使用""防止AI产生有害输出"——这些目标在广泛的公众群体中有基本的共识。Gemini之后,"AI安全"变得政治化了。一部分公众开始怀疑"AI安全"实际上是"AI被设计成符合特定政治议程"的遮羞布。另一部分公众则更加坚信"AI安全需要更多投入来防止偏见"。两部分人都没有错——但两部分人现在对"AI安全"这个词的理解已经完全不同了。
7 k4 Q( z; e+ p& \& M
这对AI产业来说是一个深层的公关和治理挑战。如果"AI安全"在公众认知中从一个中性的、技术性的目标变成了一个政治化的、立场性的标签——那么任何AI公司在宣传其"安全对齐"成果时,都会自动被一半的公众怀疑动机,被另一半怀疑是否足够。AI安全从一个可以由工程师在标注指南和奖励模型中解决的"技术问题",变成了一个无法让所有人都满意的"价值分配问题"。而价值分配问题不能由工程师在加州的会议室里解决——无论他们的标注指南写得多么详细。
: {4 |0 t; k+ v: ?8 K5 ]* B
对齐反噬的败局遵循一道减法逻辑:社会对AI"不能出错、不能冒犯、不能有偏见"的期望压力层层叠加,加上对齐规则本身的僵化("只要涉及种族就多样化"),减去系统对历史和文化语境的理解能力——结果不是零,是负值。 不是为了保护用户而过滤有害内容,而是为了保护企业免于公关危机而系统性地扭曲事实。就像当年秦池用标王的光环盖住了"酒是勾兑的"这个事实——对齐系统用"多样化"的光环盖住了"图像是伪造的"这个事实。前者败在广告掩盖了产品,后者败在规则掩盖了真实。
- C* F* M3 ?$ `6 H# Q7 X) ?! j
/ V t' k. `3 K+ r
大模型最讽刺的失败之一,是它为了避免一种偏见,制造了另一种失真;为了显得正确,反而失去了可信。当AI宁愿给你漂亮的假象也不给你复杂的事实时,你手里的不再是工具——是一个你不知道谁设定了参数的价值观过滤器。
. q( r% D/ b2 F1 w* G