TA的每日心情 | 开心 2020-4-8 10:45 |
|---|
签到天数: 227 天 [LV.7]分神
|
玻璃之翼降临——Glasswing计划与Claude的Mythos Preview
/ Z9 x' b/ v5 G. R; p0 {& t
1 x5 S/ b) ^! D$ I, M% f" g" A
4 |' [( R1 i3 e6 I+ Y一个预览版的AI大模型刚刚挖出了一个尘封27年的漏洞,然后11家科技巨头都坐不住了……
6 n" c( p& n. m3 p) |) K) N; l; J5 ]
故事是这样的。
) T% ]+ y& B) i2 E
! `/ h# t! P; S# V我今天看到这个新闻,看完之后愣了好几秒。
|9 F8 H2 ~2 B/ W! T# c2 W7 q% _2 A, k! n
一家叫OpenBSD的公司——做操作系统的,算是安全领域的老前辈——他们有一个漏洞,在代码里躺了整整27年。1998年写进去的,没人发现。: s2 L( s/ x! R& b w
1 v+ Q( \% e% [! }1 f- d结果被一个AI模型给挖出来了。5 g+ w" z2 F- k
, ]4 R! w2 t. q6 I0 v: i
这肯定不是那种"我们用AI扫了一下代码库发现了问题"的挖出来。而是那种"这个漏洞藏在最核心的地方,所有传统工具都扫过5百万次,一次都没报过警"的条件下挖出来。$ p- z4 }- G7 A! \6 Y$ K
; W% j8 ]# @% g4 c$ q# f. n" r然后,这个AI模型,顺手还把FFmpeg里一个16年的漏洞也给挖了。1 J( i, J4 p( q8 g2 h
) K% r2 E/ C6 ]$ }# j3 i/ d1 i9 h" s
FFmpeg,音视频处理领域最最最核心的基础设施。全世界的视频播放器、浏览器、直播平台,有几个不是建立在FFmpeg之上的?这个漏洞在里面藏了16年。5百万次自动化测试,没一次报过警。
: Z, d* j+ g+ i V& F3 U( e: S! d& b$ z
然后呢?2 M j4 e8 y4 d, _& v9 L
! y+ ]$ m* m( K) b+ ^然后,11家全球最大的科技公司——Google、Microsoft、Apple、NVIDIA、CrowdStrike、JPMorganChase、Google等等——坐下来,说了一句话:我们一起出钱,让这个AI模型,能被全世界的安全研究员用上。
) y+ Z( j! P$ Y$ I" f. A* g# [! ?* S: H
这个项目,叫Glasswing。& M3 ^1 q3 b( h5 D; D
4 {3 K; o3 D m, M4 {2 \- Yglasswing/ {/ \9 f; |. f9 {
1 a! e Q i4 u$ q2 @
/ Q7 z. o/ x8 W& n4 Z$ x0 B先说清楚Glasswing是什么。2 t0 F5 k) r5 `3 x1 r+ {8 \
) X7 x, ~) j, s. _( B+ d3 d
简单说,它是一个AI安全联盟。发起方是Anthropic,加入方是一堆哪怕是不关注技术领域也叫得出名字的科技巨头。它的核心,是一个叫Claude Mythos Preview的模型——注意是Preview(预览版),就是还没正式发布的那个版本——专门训练来挖漏洞的。, T& b, M! g2 {6 I- K
' ^# \0 e. i5 G有多强呢?
/ j. \6 a4 E" {$ B) r( i: N5 Z j+ |2 d
CyberGym基准测试,83.1%。作为对比,Claude Opus 4.6,得分是66.6%。不是Claude Opus 4.5,是Claude Opus 4.6,Anthropic目前最强模型。
& u+ N" {' |5 L
) a! \6 j( c/ f3 `- p( t, qSWE-bench Verified,93.9%。还是SWE-bench Verified,不是那个容易一点的版本。Claude Opus 4.6是80.8%。1 q% J3 e ]: F# l. j+ O# {
8 Q& B. e! S+ L( v* J; U! y# t
差了13个百分点。
5 }, d) x* B4 Z4 Y4 c+ U( C1 _
+ P: r$ \% {& u6 A你说这13个百分点意味着什么?. z) w7 w3 A, p1 f
! }) a4 Z2 u+ S意味着,传统扫描工具漏掉的那些最刁钻的漏洞——那些藏在层层调用关系里、藏在异常分支里、藏在并发边界条件里的漏洞——Mythos Preview能找到。
: P1 N5 u( o5 V; Y0 m0 t
7 d+ s' D; I8 o3 k# u& Q意味着,27年的OpenBSD,16年的FFmpeg,以后可能不会再有了。6 W: l* e8 r. y* c" _% l( z8 P' N
6 U, Y' F9 W) ^7 W6 i. m. i! N或者说,这种级别的漏洞发现速度,会比以前快几个数量级。2 n4 G; r" S' c& N) v0 e' n7 P& y
0 ^5 Q0 j8 G. K- V说到这个OpenBSD的漏洞,我必须展开讲一下,因为这个例子太有意思了。
L* p( R; X( \( j# l! W
: N, B, P0 H" {. BOpenBSD是个什么存在?
7 u2 ^# B! c( h+ x# o# w+ h* G! m' x3 A
它是BSD操作系统的一个分支,最核心的设计哲学就是安全。代码审计之严格,在整个开源社区都是有名的。很多安全研究员的信仰级操作系统。
, @9 i) m$ G/ S/ V0 W/ r- }& M) l
8 ^. a1 v2 u9 l& A) T* y( H' Q4 G这样的项目,代码审计了多少年了?二十多年。
j5 f1 y2 u) K% r0 Q3 W1 u4 I# _; v. z( \- x4 M6 p) \
然后,一个漏洞,在里面躺了27年。
, m8 P- z" [, i: J: O
1 t& V* F! Z6 S这说明什么?
5 z0 E, l, P5 ]* Y! O& ^" Q" |8 f& r- [' O8 z1 c5 y' z
不是OpenBSD的人不行,是传统的审计方式有盲区。任何人工审计,只要时间足够长、人足够累、代码足够复杂,就一定会有漏洞漏过去。这是人性的边界,不是能力的边界。# q7 M, Q3 Q7 w) t: x
. T8 @ U1 k& W% ?, K: U: C. V% o但AI不一样。AI不会累。AI不会因为审了三个月之后注意力下降。AI可以在几个小时之内,把整个代码库的所有调用路径、所有边界条件全部穷举一遍。
* M7 o3 K! ^6 n5 _* Z: [4 m6 Y
: u- x! `. R/ N4 L6 ]Mythos Preview发现的那个OpenBSD漏洞,是一个本地权限提升漏洞。攻击者如果已经拿到了一点点访问权限,可以利用这个漏洞进一步提升到root权限。
8 ]4 @! j9 ~# p# ]- l( g" z; _0 H
# p0 H4 H1 o! l& H3 a这种漏洞可怕在哪?& N9 Y6 W9 J; ^ z$ n7 P
' ^! x3 O% M$ a F2 S( F0 O它不显眼。它不是那种"输入框里填个单引号就弹shell"的漏洞。它需要你对系统有相当深的理解,才能构造出触发条件。4 ], b( M/ U& X" O! x, g
: I; |* E% W/ X5 x: F传统扫描工具扫不出来,是因为它的payload模式不在规则库里。AI不一样,AI学的是语义理解,它不是匹配特征,它是理解代码在"想什么"。
; b& L$ R' F3 z2 S# S
* n1 k2 m8 G* s% Q% w! q; L8 ~) p2 ?FFmpeg那个例子更让我震撼。
1 e3 V, F1 V* V x
8 Z9 L8 ]# o, C/ v16年。
8 o4 D9 s: g1 v/ W* c& F: L% Y. p& X+ I9 ^- |
FFmpeg上一次发现这种级别的漏洞是什么时候?2009年。
! s8 Y8 i" J! |# l
8 g( m; ]9 \5 P# V) S, O16年都没有人发现。然后Mythos Preview扫了一下,找到了。% v% ?# o% i, x5 Z) X8 o
2 K: g# j. q/ L0 f4 R: F注意这个"扫了一下"的背景。SWE-bench测试集里,有大量是真实世界里的bug修复历史。FFmpeg这个bug在历史上真实存在过,是某次修复的时候被记录下来的。这意味着,Mythos Preview不仅能做代码审计,它能做的是:从海量代码里,识别出"这个写法有问题,即使目前还没有人报告过"。
% e* T; a5 U9 g7 ]& F( b
. W; v6 l/ X$ p& q6 V这是主动防御,不是被动响应。
. v2 k- m1 Q ]6 \- z
7 ?; S5 t# n- m$ B+ p传统安全的方式是:出了事 → 分析样本 → 提取特征 → 更新规则库 → 下次能识别。
" w9 N, b! e( t m/ \
" D/ Q/ V* p# J) I; G. [; gAI安全的方式是:不需要样本。直接读代码,告诉你这里有个洞。' n" B; B ]5 } W8 A
; N/ u6 W' v( Y2 \& {) b1 d这两者之间的差距,大概就是"等贼来了再装防盗门"和"在盖楼的时候看着图纸就告诉你这堵墙扛不住地震"的差距。" A% U) J5 N+ y4 ?; m
# ^ E5 N2 I4 G4 {
现在说说大家最关心的问题:谁能用到,怎么用,花多少钱。2 S# O! A6 a% F/ W5 w4 O! ^2 C* r
: r: o$ R8 A/ w8 X' G$ D! c% x' L3 C) x
Glasswing的AI能力,现在跑在三个平台上:Amazon Bedrock、Google Vertex AI、Microsoft Foundry。
0 q( `- I9 X8 v) l6 C% D1 k/ S$ ~
8 J# C: D7 `6 ?( j' J( g这三个平台,恰好是AWS、Google Cloud、Azure。全球三大云服务商。* F5 ^ F6 i7 Y7 `5 z+ y
, e& B, d6 F% ~: r& y( f; p
你在任何一个上面,都能调用Mythos Preview的漏洞检测能力。/ L2 N4 E2 h# u" h8 B' t3 a; K
2 m2 E6 Y7 S4 g9 E& q$ L2 w- F价格呢?过了初始的credits之后,每百万token输入25美元,每百万token输出125美元。
* B" I- U" C# B& I* A
& s r, f2 z) s( E这个价格贵不贵?
# ^5 B/ Z' l1 | a
, y% g7 g6 w- Q对比一下就知道了。现在市面上做代码安全扫描的工具,像Snyk、Veracode这一类,商业扫描工具的报价大概是每个开发者每个月几十到几百美元不等。而且它们扫的是规则匹配,不是语义理解。; j% `: F7 o$ L4 r/ l' y
! z! D5 a6 f4 T$ C! t( S) V L7 DMythos Preview能发现那些工具发现不了的漏洞。0 M$ W) d3 n( [* S; v8 N) X
, t9 K- O* {' ?" e! V这不是贵不贵的问题了,这是"有没有意识到你以前省的那些钱其实在交更多的学费"的问题。
" ~9 G: T6 N( `5 _ R8 I" ]' z* [' |% h
另外,Anthropic自己掏了1个亿美元的使用额度,分给联盟成员和开源社区。还额外捐了400万,250万给Alpha-Omega/OpenSSF,150万给Apache软件基金会。. O1 G3 `" m* Y- u, M0 ?- q: u
6 M$ N q+ C; H3 I3 w4 ~( V
这些钱是用来干什么的?让那些没有商业利益驱动的开源项目,也能用上最好的漏洞检测能力。, I8 m# Q2 k# ]6 G- \8 \
. \, M8 `7 h& NFFmpeg就是开源的。OpenBSD也是开源的。这些项目没人给他们钱做安全审计,但他们的代码,运行在全球几十亿台设备上。
6 q# s' J% a# c* w$ K" i
' L7 F8 ^- `% o还有一个细节,我觉得特别有意思。
1 U S7 L: J2 K; O; ~; J9 Z& w: M. s- ^" j4 g
漏洞发现之后,公开披露的时间是90天。
7 K& X2 N' r# f0 o$ ^+ v- H6 M# W g& u$ f* u& z
90天是什么概念?* C, y& `4 n/ q( ~$ v
) B) M" e, I. a: y$ U$ T
行业标准的漏洞披露窗口是90天。这个时间足够让厂商评估漏洞、制定修复方案、推送更新,但又不至于让漏洞在黑市上流通太久。3 T5 e2 r3 ]2 X( t) `
9 `7 I7 T: Q8 S- |1 ?8 M5 Y
但这里有一个问题:90天是针对"有人发现了漏洞"这个前提来说的。' j7 N1 Y g- ]" b7 K+ y
/ h+ w. r3 L) u
Mythos Preview现在能以前所未有的速度挖出漏洞。它一天挖出来的漏洞,可能比以前整个安全社区一个月挖的还多。
6 M: p+ s) n5 o: Z9 x" S" ]0 g& Z" r
这意味着,漏洞披露的节奏,整个就变了。
$ z( T( [" v% h1 N/ K; Z7 d' b
" E6 N& \0 `9 N; V; \5 L0 g, U$ C. M以前是"挖到一个,披露一个"。现在是"AI在持续不断地挖,每90天披露一批"。
h1 j4 g) l6 j; S0 t* w: S( B- h2 a; C1 o# ~* ]
厂商的补丁开发速度,能不能跟上AI的发现速度?2 e$ K) M7 o0 Q6 J+ N
3 j- y/ R, ^3 s% \0 @5 ?
这个,我说实话,不知道。但我觉得,这是整个Glasswing项目最值得观察的地方之一。
4 j( w$ F! B2 i$ N h: R. m9 h$ Y; f# W& `! n# @
写到这儿,我突然想到了一个更大的问题。 n# u; A, N. k. [
5 Q; r r5 j# g, M. k A- P }- ]1 \
Glasswing这个名字,本身就是一只蝴蝶的名字。玻璃翼蝴蝶。它的翅膀是透明的,像玻璃一样。 K- a9 W/ H8 x P
6 ]9 e! Y1 e; l0 P透明,意味着隐藏的东西变可见了。
" a" V. }$ F9 K3 |7 P
2 v" g( P- X9 i: z& @. i一只蝴蝶的翅膀是透明的,它就隐藏不了任何东西了。它在哪里,飞向哪里,所有捕食者都看得清清楚楚。0 {$ M ^9 R G. ?& C
7 I9 {) ]& I! }$ F4 ^& w这个意象,放在漏洞挖掘上,太精准了。" j. P- e3 k( M9 Y; s7 K
( h4 d! y3 [/ `, E9 [
代码里那些隐藏了几十年都没人发现的漏洞,在AI的"眼睛"之下,突然就透明了。
" E3 L5 F( R$ V+ I# W: ^; \4 r; M) e6 R7 V; h
以前我们说"security through obscurity"——通过隐藏来保证安全。你的代码不公开,漏洞藏在暗处,攻击者找不到。3 y: P9 D, a" ^: O4 i( r2 q
8 g) o, _+ z2 z7 t/ E( ~6 W; @
但现在,只要代码存在,AI就能读。Mythos Preview不需要你的代码是开源的,它只需要能接触到代码——不管是源码、还是编译后的二进制、还是运行时的行为轨迹。3 ~9 P4 G5 i# A# q4 H; D
) n$ z! x7 y) I1 t3 ]8 b1 L# W6 F
代码越来越难藏了。或者说,代码里的漏洞越来越难藏了。
( ~8 a8 b- }- M: S
5 J; G3 I$ U% d$ S8 e c这是一件好事吗?* G) R" j% p/ S3 J3 T7 P) t
I7 G5 x+ t7 X6 Q" A7 P+ o) h* u我觉得,短期内,这是一件非常非常好的事。6 P) g. S4 s, c( v( M
8 B9 z$ Y7 y8 Q
全球互联网基础设施里,有多少代码是10年、20年、30年前写的?没人敢审计、没人敢动、出了问题就打补丁接着跑的,有多少?8 P4 S4 c! L4 B
, t {' o) j: v2 `这些代码就像一颗颗定时炸弹,埋在整个数字世界的基础里。
- B2 r! T$ G3 V8 Z2 x' q% j+ C8 G8 {* ^
AI能做的是,帮我们把这些炸弹找出来,一颗一颗地拆除。
7 d/ }" p" A9 j5 e" R0 E, q8 `, G7 T3 T t9 S5 A
但长期呢?
! Y4 P+ B7 p$ r
% R3 U, _7 u: _5 u9 i9 S7 c当所有可见的漏洞都被AI清除干净之后,剩下的,是什么样的世界?
9 z( \$ j" T/ a) [% ?% Q' m" X/ s# c& F |
是代码质量极高、安全性极强的一个世界?还是所有攻击者也在用同样的AI,攻击的速度和防守的速度同步提升的一个世界?0 O; S/ h% k; U6 W
+ e1 D" w; [! r" V! W4 y6 G
我也不知道。
8 q: ~( R; _( K5 s( N( X6 }( E% ^
! u+ m9 K6 I- k- m( r/ A J但有一件事我特别想强调。
( d. T0 S0 H# I8 L( F( K W9 n- P, l3 X" c( j
这次Glasswing联盟里,有JPMorganChase,有CrowdStrike,有Palo Alto Networks。这些公司,是真正的安全重度用户。( K( L/ h" [* J! o, e; T
. v$ i( ?1 w+ W: S
他们自己有能力挖漏洞吗?当然有。JPMorganChase的安全团队在全球排前列。CrowdStrike就是做安全的。
/ l% B% J4 J- }7 u# O" N/ _) b' W; L7 f+ H& n
他们为什么还要加入这个联盟,用别人的AI?7 z. a4 I+ y! u0 P" ~0 s5 `/ K
_5 L, y2 e: }7 W我大胆猜测一下:因为挖漏洞这件事,规模太大了。6 N0 p3 k' w5 ~ O4 ]- s0 D- h" T
9 @3 @! y- Z5 d% u2 y! K
全球代码量太大了。每一家公司,即使安全团队再强,也只能覆盖自己的代码库。但外面的供应链、开源组件、合作伙伴的代码,你根本管不到。8 d6 s' N+ r! C
w' ?" v, ~4 I" r. q3 OMythos Preview的价值,不在于它比你的安全团队强。而在于它能同时扫所有地方。) ?8 G. V& P8 T% i) U
" c& l1 I( H+ i7 S( S( F这是规模效应。% A$ Y3 P" K6 t9 A! h
* J. y' S0 w8 i) z* z+ I
就像打补丁。手工打补丁,你只能打你知道的那些机器。自动化打补丁,你能打你所有的机器。AI扫漏洞,相当于在每一个代码提交的时候,就自动扫一遍。
7 ]1 [$ Q% v, E X& c+ l1 \ d3 h' {
这个规模,是人类团队根本无法覆盖的。" b& ^) V8 p) Q3 F0 C
9 E" R% k/ A2 r8 ]- r2 gGlasswing这个项目,还有可能往一个方向发展——成为一个独立的第三方机构。1 h4 |9 ~: a' o# }3 y H2 W
( B$ s/ k0 k0 T( u
什么意思?/ v1 D w% w: j$ ^( p, r/ v% m
8 Z1 v. e. B# R
现在它还是Anthropic牵头、11家公司参与的联盟。但未来,它可能变成一个真正独立于任何商业公司的安全机构。它的评估结果,有公信力;它的漏洞报告,有权威性;它给出的安全评级,整个行业认。
l! @& g' Q7 n1 T" s: `4 Z
# g, a1 c, C6 T2 ~8 e1 R: _0 W类似现在的ISO认证,但针对的是代码安全。
' |; l/ h. V/ x* F$ }0 z
# ~; ^) q/ `5 s想想这个画面。未来的软件采购,合同里可能不只要写"符合SOC2",还要写"通过Glasswing认证,漏洞数为0"。' a6 Z- @+ G$ T
8 s6 ]2 N, b8 J# Z9 m) _这不是不可能的。
8 O. S1 {+ r& G2 R1 d, o" ~; t: t; p1 Y/ I& P) R0 ?: ^
当然,路还很长。现在还只是第一步。但方向是对的。
( |% E6 B/ E z2 ~
" C1 v) B) D3 `8 K# [, {好了,写了这么多,让我最后说几句掏心窝的话。
& E @, T3 N D+ j
2 b5 M+ Y0 }( G0 ]+ a! J: w我这次看到Glasswing的新闻,第一个反应是兴奋,第二个反应是有点怕。# ~$ w9 w7 K7 v/ L% @
6 n6 p4 n/ A* t; U; M- c兴奋是因为,我真的觉得,这是AI在安全领域做的最有价值的一件事。以前我们聊AI安全,大家想的都是"AI能不能被攻击"——对抗样本、数据投毒、模型劫持。这些很重要,但离普通开发者很远。
7 C% M+ o: a e I) d6 Q+ E4 Q4 g* a, O0 b
这次不一样。这次是AI在帮我们发现自己的脆弱点。
. M2 T( f* F% Y" h0 i2 J4 l& q9 ~* t" D x6 Q
这种脆弱点,我们以前不知道,或者知道但没有能力发现。AI把它们挖出来,摆在阳光下,告诉你这里需要修。
& ]1 l9 g j5 P- x
. ~5 J9 P2 Y6 [7 q% V( W1 H这是AI在补人类的短板。不是在超越人类,是在帮助人类补上人类自己够不到的地方。! C, h; V7 {- W, e
* y' b* ^( J5 A我怕的是什么呢?
/ w0 x9 c: A/ R
" I) q7 V1 o p- G3 ?. H( H我怕的是,这个工具,只有大公司用得起。
( h; H5 r( b% E2 ]$ s
2 `- e P h1 J% w" q2 cAWS、Google、Microsoft,Bedrock、Vertex AI、Foundry。这些平台,都是商业平台。Cloudflare这种中型公司,可能用起来没问题。但那些真正需要安全检测的——初创公司、开源项目、十几人的小团队——他们能用到吗?
8 S. a ^( G% O! x# f: J: Q& Y9 l/ P
Anthropic捐的那1亿美元额度够用多久?分到全世界的开源项目上,每个项目能分到多少? ~$ Q( P! i, j9 Z9 _$ j; ^% y* Z
+ T/ `8 ~8 R* C* U' R% k这些问题,现在还没有答案。7 T7 m d9 H4 G5 S" g
! y; R; P; ~ b8 @5 a但有一点我特别想强调。
- A9 b* e1 c/ s) t: C
" [: Y4 {7 g+ X! A% PGlasswing这个项目,让安全这件事,第一次真正有了一种"基础设施"的可能性。
8 L& n# ? ]' G- S8 B$ A' a. O
5 w" V+ N/ V" d T以前的安全,是奢侈品。你要么雇得起安全团队,要么买得起企业级扫描工具,要么你就裸奔。2 t/ R8 x' D0 ^6 O- O( f/ y) A
" S7 \3 @, N. f/ R2 V9 pAI改变了这个等式。Mythos Preview能发现那些企业级工具发现不了的漏洞,但它的调用成本,并没有比那些工具贵多少。- ^$ D# M w; Y) n2 K
; s/ f: ~% g% K! d" c; N当漏洞挖掘的成本持续下降,当AI扫描变成每一个代码仓库的标配,我们或许真的会迎来一个更安全的互联网。
3 B& N d- N0 _# S3 s/ m2 c- }$ c& C& y5 Z! P& }
这一天什么时候来?我不知道。可能5年,可能10年。
- A6 i. {& E) t! O4 U, _
5 \6 z* ?7 J+ t% }8 @+ A1 L但Glasswing,让我第一次觉得,这件事不是痴人说梦了。5 ]/ M6 J5 [( d5 E0 F, h7 G! F
|
评分
-
查看全部评分
|