TA的每日心情 | 开心 2020-4-8 10:45 |
|---|
签到天数: 227 天 [LV.7]分神
|
玻璃之翼降临——Glasswing计划与Claude的Mythos Preview
2 ^# q; [, c- W0 U: G* ^1 \( N! r& M8 F6 b
9 b5 L' b* X- X% t
一个预览版的AI大模型刚刚挖出了一个尘封27年的漏洞,然后11家科技巨头都坐不住了……8 `% i8 W9 A. a5 }/ F
5 w* M h, Y5 ~; L+ t
故事是这样的。
2 @) C# E) d0 E0 Z/ e8 Y2 M' y1 [. X* I; o3 }4 G6 @
我今天看到这个新闻,看完之后愣了好几秒。
" _( T; Y0 C# R* N' w$ m+ A# N2 v. i" B5 `$ p
一家叫OpenBSD的公司——做操作系统的,算是安全领域的老前辈——他们有一个漏洞,在代码里躺了整整27年。1998年写进去的,没人发现。8 D4 Y% s& `" d4 O; Y- i
9 S8 C/ H5 a+ ? d1 Y结果被一个AI模型给挖出来了。
- |; G+ L1 u! z" y3 ]/ e! ?5 p3 i& A* P; @2 ^2 ~: l7 @
这肯定不是那种"我们用AI扫了一下代码库发现了问题"的挖出来。而是那种"这个漏洞藏在最核心的地方,所有传统工具都扫过5百万次,一次都没报过警"的条件下挖出来。( U. S3 l" A* ^) K+ T+ f; f
* Z" {) d% o* ?/ I5 S& U3 ?
然后,这个AI模型,顺手还把FFmpeg里一个16年的漏洞也给挖了。
+ j8 ~- X1 ~, j H9 S! Z" \5 U. u) J) K( g! b
FFmpeg,音视频处理领域最最最核心的基础设施。全世界的视频播放器、浏览器、直播平台,有几个不是建立在FFmpeg之上的?这个漏洞在里面藏了16年。5百万次自动化测试,没一次报过警。
* G W9 O8 m$ {8 q8 O9 R0 N( K7 ~* R" N0 ]* C- h
然后呢?
$ I/ U3 F3 `' O9 }+ C6 S# [4 ?4 [ F
然后,11家全球最大的科技公司——Google、Microsoft、Apple、NVIDIA、CrowdStrike、JPMorganChase、Google等等——坐下来,说了一句话:我们一起出钱,让这个AI模型,能被全世界的安全研究员用上。+ r1 d+ G9 w5 j9 n; f7 z1 z( `
& \" X8 \# ^0 v( V/ C% m+ C这个项目,叫Glasswing。/ p3 M. ~& Y7 q, q
U( C% i5 H4 ~! u: e* k; F- mglasswing
' @# M' x( v$ e m/ \9 O# l6 q" Q9 D: Y) L) J1 `" V6 d. o
; W* Z t/ y& V$ V6 V先说清楚Glasswing是什么。
9 ~: ?7 h% m. J S7 U i
' [$ d( N V+ E2 a: D/ g# d7 ]简单说,它是一个AI安全联盟。发起方是Anthropic,加入方是一堆哪怕是不关注技术领域也叫得出名字的科技巨头。它的核心,是一个叫Claude Mythos Preview的模型——注意是Preview(预览版),就是还没正式发布的那个版本——专门训练来挖漏洞的。 Z( e9 C5 P* w( ]6 U$ h( H
- h6 C7 u1 h5 k2 F4 }4 c
有多强呢?' p* f/ \8 v! u" |$ d2 V* c& J3 A" x
+ p: ?" L" {) g8 Y! aCyberGym基准测试,83.1%。作为对比,Claude Opus 4.6,得分是66.6%。不是Claude Opus 4.5,是Claude Opus 4.6,Anthropic目前最强模型。
4 t' z! O% V4 {1 V
$ e/ X' w" q% [SWE-bench Verified,93.9%。还是SWE-bench Verified,不是那个容易一点的版本。Claude Opus 4.6是80.8%。9 U( r& w6 Q p
7 e9 c: T* |( O6 b( Z. L差了13个百分点。# u7 z: X" f) g6 [: ]1 w
3 t5 B2 R$ k( O你说这13个百分点意味着什么?
$ b$ Q6 Z$ U3 |$ g) j5 }3 M6 H7 s; U: o* k2 i
意味着,传统扫描工具漏掉的那些最刁钻的漏洞——那些藏在层层调用关系里、藏在异常分支里、藏在并发边界条件里的漏洞——Mythos Preview能找到。( p$ b6 C; n2 W+ _2 y% t! I
# ^+ O0 g6 x5 v4 e6 ]/ ^
意味着,27年的OpenBSD,16年的FFmpeg,以后可能不会再有了。
2 d* J$ }% F, E" Z2 s
$ ?" K6 O, ~* B# I9 |) E或者说,这种级别的漏洞发现速度,会比以前快几个数量级。
( O& H$ |; o5 e( \; a, H3 H4 ?0 I1 P2 q" ?
说到这个OpenBSD的漏洞,我必须展开讲一下,因为这个例子太有意思了。
" ?4 Q2 P3 a" B- d4 k0 Y F5 c8 i5 K) _- x7 n
OpenBSD是个什么存在?3 t, x) ?# {- H3 ^! ^9 w; O# g, R
* [. W* P& V' J4 s5 H. f4 U
它是BSD操作系统的一个分支,最核心的设计哲学就是安全。代码审计之严格,在整个开源社区都是有名的。很多安全研究员的信仰级操作系统。5 B) W B) a8 t7 t! |
" O0 j6 T1 W3 W& W/ [: v8 ]这样的项目,代码审计了多少年了?二十多年。
7 ?8 E) v( X+ x/ N7 R3 c' Y, k$ F" T+ J
然后,一个漏洞,在里面躺了27年。* j: x5 o" R. Q$ y8 Z1 c' y, x
, o2 I0 c+ ]! u9 C
这说明什么?
; a4 J' H$ J2 b4 D
5 x3 J( E4 }, P! s. N3 O6 D不是OpenBSD的人不行,是传统的审计方式有盲区。任何人工审计,只要时间足够长、人足够累、代码足够复杂,就一定会有漏洞漏过去。这是人性的边界,不是能力的边界。5 d* M5 @* [$ a# `9 K9 W
, Q4 w' F+ n. a6 x+ U1 @但AI不一样。AI不会累。AI不会因为审了三个月之后注意力下降。AI可以在几个小时之内,把整个代码库的所有调用路径、所有边界条件全部穷举一遍。! h6 \: c1 `' `0 {9 z
( m! d4 m9 U+ A; a. [- AMythos Preview发现的那个OpenBSD漏洞,是一个本地权限提升漏洞。攻击者如果已经拿到了一点点访问权限,可以利用这个漏洞进一步提升到root权限。2 o1 d7 v. t2 a& _" `6 L
1 G# k! L" c; t5 A+ P) W @这种漏洞可怕在哪?0 s. v- U( E5 K/ b9 W
! V; \) Q. g6 j& p( t% S它不显眼。它不是那种"输入框里填个单引号就弹shell"的漏洞。它需要你对系统有相当深的理解,才能构造出触发条件。& N B) {- a; p
! S' n* z! X5 ^" y9 y, ?! y/ |
传统扫描工具扫不出来,是因为它的payload模式不在规则库里。AI不一样,AI学的是语义理解,它不是匹配特征,它是理解代码在"想什么"。
, Z# W" K; q5 z2 K* L
$ r) I# B0 K# ~FFmpeg那个例子更让我震撼。
% ^( Z6 Q' ~: k' i- U
" f2 T K* k/ w) z16年。
2 Z4 Z9 }8 d3 s/ J& f; c1 A9 {; r% P
" \0 h ]- c3 \" ^9 Y. |- uFFmpeg上一次发现这种级别的漏洞是什么时候?2009年。
( I# ~% s0 d1 A8 f
+ l" [ }) ~( G16年都没有人发现。然后Mythos Preview扫了一下,找到了。5 D$ X8 [% {6 G7 K
3 M+ l: j v7 v
注意这个"扫了一下"的背景。SWE-bench测试集里,有大量是真实世界里的bug修复历史。FFmpeg这个bug在历史上真实存在过,是某次修复的时候被记录下来的。这意味着,Mythos Preview不仅能做代码审计,它能做的是:从海量代码里,识别出"这个写法有问题,即使目前还没有人报告过"。5 j3 o; z3 M8 y; w
8 W3 M, a1 t1 u* p
这是主动防御,不是被动响应。
5 I4 X8 s% V$ Y" Y- u6 o% [" Z1 w b9 V' D/ g. R, ^/ f
传统安全的方式是:出了事 → 分析样本 → 提取特征 → 更新规则库 → 下次能识别。
7 I& m8 G: J' L- N5 W8 L
& h1 v6 Y7 n! G# |AI安全的方式是:不需要样本。直接读代码,告诉你这里有个洞。
9 r) ?9 F9 a3 R# `0 [8 J# t0 w# j: P
这两者之间的差距,大概就是"等贼来了再装防盗门"和"在盖楼的时候看着图纸就告诉你这堵墙扛不住地震"的差距。1 Y; u; y, D1 l- ^: i: u1 ]* q% i
- }, j8 R* ^4 P7 H) Q# f( B! N
现在说说大家最关心的问题:谁能用到,怎么用,花多少钱。
2 G# Y& n \. E7 w/ K% _! y$ r b% `) y% P) U2 E- G! n
Glasswing的AI能力,现在跑在三个平台上:Amazon Bedrock、Google Vertex AI、Microsoft Foundry。1 ^* n2 ^' Z" c- T
- J9 o" |- u& _$ H8 A$ {$ a5 b
这三个平台,恰好是AWS、Google Cloud、Azure。全球三大云服务商。4 ^# s3 r$ F1 X( B
' X; u' L+ i+ i0 x1 X. b: X你在任何一个上面,都能调用Mythos Preview的漏洞检测能力。3 Z) X* Y3 Y+ h8 {3 L3 F9 G- W
- G, U$ c* A9 e! {) j K
价格呢?过了初始的credits之后,每百万token输入25美元,每百万token输出125美元。, Z f" V. h1 l
: {+ f$ T2 Y' z$ n( D/ s
这个价格贵不贵?
% N5 P( k( `' V) k9 g& z2 [( r7 b, Y/ c. v3 R- K. E1 @4 N+ \
对比一下就知道了。现在市面上做代码安全扫描的工具,像Snyk、Veracode这一类,商业扫描工具的报价大概是每个开发者每个月几十到几百美元不等。而且它们扫的是规则匹配,不是语义理解。1 N! a6 Q4 }3 u" d0 x! J
0 n$ I- f) o5 p9 m, {# B0 m
Mythos Preview能发现那些工具发现不了的漏洞。 _0 u+ E& w% O: [! S' |, h
9 B5 ^) L+ @# n# F. j1 L
这不是贵不贵的问题了,这是"有没有意识到你以前省的那些钱其实在交更多的学费"的问题。7 [# R" ^6 O9 n& Q0 r
% {2 d% m, K0 D Z7 v$ e p& [另外,Anthropic自己掏了1个亿美元的使用额度,分给联盟成员和开源社区。还额外捐了400万,250万给Alpha-Omega/OpenSSF,150万给Apache软件基金会。: I+ p- V q. o/ e& ^
) ]6 M6 C! l! f# Z0 W) }这些钱是用来干什么的?让那些没有商业利益驱动的开源项目,也能用上最好的漏洞检测能力。
/ W- |6 G' V# F) [& Z9 N( j( S5 y ]" s' w' @( T# Z$ N
FFmpeg就是开源的。OpenBSD也是开源的。这些项目没人给他们钱做安全审计,但他们的代码,运行在全球几十亿台设备上。
. A2 \0 K/ b+ N/ _% u+ q% C T+ |2 j4 K0 B
还有一个细节,我觉得特别有意思。0 Q* @5 u) Y# d* q. l: U) N1 M
& ^4 w0 k8 c! U; ?! J( |漏洞发现之后,公开披露的时间是90天。
, r8 x" K7 E0 H7 L6 O( M% s
2 M! j* |' S- h5 C3 T7 U90天是什么概念?
2 ^% H1 \) u! @
0 C) T9 a# Z! W" K! q/ f行业标准的漏洞披露窗口是90天。这个时间足够让厂商评估漏洞、制定修复方案、推送更新,但又不至于让漏洞在黑市上流通太久。' d' P1 U7 @. ~$ l3 d. ] v* ]
' v [3 Q' ]8 {% g0 _+ U A; p
但这里有一个问题:90天是针对"有人发现了漏洞"这个前提来说的。- |# y4 V" ], Y$ E1 j6 g$ x0 u5 E
0 t; v; X% i6 w# s# |9 V4 Q
Mythos Preview现在能以前所未有的速度挖出漏洞。它一天挖出来的漏洞,可能比以前整个安全社区一个月挖的还多。7 M* z C( s; B9 ^6 i! j
: u/ k+ |9 g- K, o: a% t这意味着,漏洞披露的节奏,整个就变了。9 n6 e' y' X. P: }
) {# V! ?3 n( w0 P9 n
以前是"挖到一个,披露一个"。现在是"AI在持续不断地挖,每90天披露一批"。3 u) W3 E( B$ h; c! e
/ ^! Q) Y N8 K2 S* A1 q3 c* F: m厂商的补丁开发速度,能不能跟上AI的发现速度?
5 v$ w& a; _. j1 |( x8 ]. h) O- k; ?( I, J; \( c3 y/ u
这个,我说实话,不知道。但我觉得,这是整个Glasswing项目最值得观察的地方之一。; ]+ w. f5 s$ D/ \
! I- K$ R( A+ U
写到这儿,我突然想到了一个更大的问题。
1 p$ a9 p. A/ Z" H+ I1 V& z. L1 X4 k9 c0 U7 J
Glasswing这个名字,本身就是一只蝴蝶的名字。玻璃翼蝴蝶。它的翅膀是透明的,像玻璃一样。
: F1 e6 A1 |+ n" h* {- F
0 p2 q1 y$ n- G, ]9 K7 m透明,意味着隐藏的东西变可见了。
' I2 z) n% h3 m L4 n- p) @, t" s8 v R. G: H1 l7 T
一只蝴蝶的翅膀是透明的,它就隐藏不了任何东西了。它在哪里,飞向哪里,所有捕食者都看得清清楚楚。8 G3 `# q6 U; _- \; M3 R
# f, l( e* u5 A/ y这个意象,放在漏洞挖掘上,太精准了。
( U' ]. f, t6 s/ l, e$ G% N+ @3 X3 R/ v2 u( Y# h5 s
代码里那些隐藏了几十年都没人发现的漏洞,在AI的"眼睛"之下,突然就透明了。0 G% i. ^0 @* c+ b5 Z7 s! `6 S
5 W" i9 j- I1 j' p8 X
以前我们说"security through obscurity"——通过隐藏来保证安全。你的代码不公开,漏洞藏在暗处,攻击者找不到。
6 U$ r/ z4 r9 ~
b6 q% W2 W q但现在,只要代码存在,AI就能读。Mythos Preview不需要你的代码是开源的,它只需要能接触到代码——不管是源码、还是编译后的二进制、还是运行时的行为轨迹。
, o, ~" o3 Y2 f$ E$ ^0 _- {$ t' F7 c: @0 }, }9 O" S
代码越来越难藏了。或者说,代码里的漏洞越来越难藏了。' {, Z" @8 T7 u# D$ {, m
8 o% n0 G9 n1 b$ g* L这是一件好事吗?8 q5 I: Y. k$ g. @" z, D
8 Q( e O# D- `2 C+ F我觉得,短期内,这是一件非常非常好的事。* R; m! l9 q2 P/ Y
$ M2 u2 k! R% N/ D
全球互联网基础设施里,有多少代码是10年、20年、30年前写的?没人敢审计、没人敢动、出了问题就打补丁接着跑的,有多少?2 n) O* p9 b* U0 J* S- x
3 v& F9 Z! _- w; l( p4 N这些代码就像一颗颗定时炸弹,埋在整个数字世界的基础里。
# c! {! ]* f4 e( s! u- ]
8 t0 {4 R6 m l7 C' M* H( I4 TAI能做的是,帮我们把这些炸弹找出来,一颗一颗地拆除。6 Y' V. C1 O# g9 [) [
1 |) y0 Q2 ^3 c, e2 P1 [
但长期呢?0 Q/ G+ Q5 m# D& a" l# Q
5 N% I! @3 @: y( ?; n# \$ u( G/ g& j当所有可见的漏洞都被AI清除干净之后,剩下的,是什么样的世界?
* S4 D6 ~3 _1 K* A* u% \' k5 F
, A. `' Q0 G8 {$ @, }7 Q9 ^# Y$ P是代码质量极高、安全性极强的一个世界?还是所有攻击者也在用同样的AI,攻击的速度和防守的速度同步提升的一个世界?
7 I- N3 w( q+ _- [( X/ }- t( F/ j9 R6 X: `5 q0 h' G" F/ ?) U
我也不知道。: E9 u4 a* n& E
2 ?$ R7 `, b4 ?. T r1 b但有一件事我特别想强调。. w! p3 B+ e/ l8 k
; u+ `0 J$ q$ o/ ^+ y9 `这次Glasswing联盟里,有JPMorganChase,有CrowdStrike,有Palo Alto Networks。这些公司,是真正的安全重度用户。
' Y7 X1 Z% w. f7 t
( s: G& Z/ N- A) E1 J% |他们自己有能力挖漏洞吗?当然有。JPMorganChase的安全团队在全球排前列。CrowdStrike就是做安全的。: H. v9 W: k" v9 j
& x) o* }$ p/ [3 \* u他们为什么还要加入这个联盟,用别人的AI?
5 ?3 {- ?: _/ g4 p" I/ \
- o( u% |! I Y) d% ]我大胆猜测一下:因为挖漏洞这件事,规模太大了。. w# c K% B7 ^" B7 d. n
. W& L. ~( U* e3 C: E全球代码量太大了。每一家公司,即使安全团队再强,也只能覆盖自己的代码库。但外面的供应链、开源组件、合作伙伴的代码,你根本管不到。 ^- a6 {+ {4 n8 \
$ g" G. o7 b2 i' z6 FMythos Preview的价值,不在于它比你的安全团队强。而在于它能同时扫所有地方。' K! ]' m! H& v# _; b* R! T( Q5 a
; F5 O& |# u" n
这是规模效应。
$ n4 V/ B. j. r; T$ s* W& {2 f% p! F* R$ @+ W- b# a
就像打补丁。手工打补丁,你只能打你知道的那些机器。自动化打补丁,你能打你所有的机器。AI扫漏洞,相当于在每一个代码提交的时候,就自动扫一遍。7 v6 U: J; ]3 Z( R; C! w7 N
0 V; V* P, a. S4 E这个规模,是人类团队根本无法覆盖的。 i! S9 N! p% n% ]
3 _0 y) O5 ]$ U( q
Glasswing这个项目,还有可能往一个方向发展——成为一个独立的第三方机构。
$ J6 j& ^/ I7 N! B( Q2 Y( e
- b) X8 O w' S$ B+ R什么意思?
" ~$ d. c1 g: p7 s. a7 e
; Z# r! s: K. o, q/ {- _! `; W1 b现在它还是Anthropic牵头、11家公司参与的联盟。但未来,它可能变成一个真正独立于任何商业公司的安全机构。它的评估结果,有公信力;它的漏洞报告,有权威性;它给出的安全评级,整个行业认。
1 m) J; S* r# G" v, K9 q
0 N g% I4 I+ v$ j类似现在的ISO认证,但针对的是代码安全。( A- b; e2 u$ {' }! T- V( q
A6 w) N$ b2 G想想这个画面。未来的软件采购,合同里可能不只要写"符合SOC2",还要写"通过Glasswing认证,漏洞数为0"。' Y8 G5 I* ? `! y2 }
. \5 B: _! ~; i" r" x
这不是不可能的。
( m) h' u! m e6 j$ [
P! |4 X) q+ M- d* q% ~, ?! S当然,路还很长。现在还只是第一步。但方向是对的。
. v; |# n5 Y6 L! @) p5 k, g: E7 m0 n' D# y1 {) m* |
好了,写了这么多,让我最后说几句掏心窝的话。, b8 M2 B# w3 z0 k# R
& z4 f2 `& ]: S- ^我这次看到Glasswing的新闻,第一个反应是兴奋,第二个反应是有点怕。9 \4 ]6 K, p: j
! ~' e, c. g; s$ R. a兴奋是因为,我真的觉得,这是AI在安全领域做的最有价值的一件事。以前我们聊AI安全,大家想的都是"AI能不能被攻击"——对抗样本、数据投毒、模型劫持。这些很重要,但离普通开发者很远。
8 |& M8 t- A* B8 C, c
( _/ f2 n' z; S1 @这次不一样。这次是AI在帮我们发现自己的脆弱点。( h6 \* G# X* w% {" q8 S! t' A
4 R4 B; H, M. O3 {: E* M0 A8 C这种脆弱点,我们以前不知道,或者知道但没有能力发现。AI把它们挖出来,摆在阳光下,告诉你这里需要修。
% {8 F% |; ?$ V7 @3 z1 Z6 I
4 v* k4 o7 q! V5 S这是AI在补人类的短板。不是在超越人类,是在帮助人类补上人类自己够不到的地方。
: s% R0 P, x$ n4 q/ Q) V/ l$ T2 d
& w7 x% K% G- U6 n9 i" X) {/ ~- g4 a我怕的是什么呢?, x# Z! q( B0 B0 m2 h: t
( q) c" Y5 t/ N2 x+ p1 [我怕的是,这个工具,只有大公司用得起。
! f8 f- P! I# p! z1 b8 W6 O. g( j! d: a3 V8 t
AWS、Google、Microsoft,Bedrock、Vertex AI、Foundry。这些平台,都是商业平台。Cloudflare这种中型公司,可能用起来没问题。但那些真正需要安全检测的——初创公司、开源项目、十几人的小团队——他们能用到吗?
+ W' D1 ^* ]5 V/ t% v& x
( O* h0 ` J- q9 Z; @* m, wAnthropic捐的那1亿美元额度够用多久?分到全世界的开源项目上,每个项目能分到多少?
# R! o( W/ J6 E# |. V {* ~! t
) t! N. B+ ~8 w这些问题,现在还没有答案。
1 d1 L2 \# I' ^& U; M3 T+ v' ~! L+ ~) i5 F y1 `/ j
但有一点我特别想强调。4 g: ^4 Q5 i' b9 w$ P |* i$ ]
+ i* }# i; K* |9 ?
Glasswing这个项目,让安全这件事,第一次真正有了一种"基础设施"的可能性。7 `" ~; N8 |+ W0 _' P2 `
9 i7 p# Q6 }: r以前的安全,是奢侈品。你要么雇得起安全团队,要么买得起企业级扫描工具,要么你就裸奔。
) b% j, d4 w$ e, O- C
! q& |* m3 T# e- e' G) S, b# VAI改变了这个等式。Mythos Preview能发现那些企业级工具发现不了的漏洞,但它的调用成本,并没有比那些工具贵多少。
/ u+ j* c9 @. Z% @$ S2 I D3 f6 N, c* p- u! z9 }/ G
当漏洞挖掘的成本持续下降,当AI扫描变成每一个代码仓库的标配,我们或许真的会迎来一个更安全的互联网。3 ^2 s, c/ L' s0 t
( e. a7 ^8 W& K( M: d. @这一天什么时候来?我不知道。可能5年,可能10年。
4 t {. L0 O0 B3 P4 i& k8 V& }1 K
) g% K' t" Q) q" d2 P但Glasswing,让我第一次觉得,这件事不是痴人说梦了。
; U# Z# d b8 F |
评分
-
查看全部评分
|