|
: @$ y2 n, _; ?) I
6 V" e. D4 n" R2 i7 q W) w: _这篇文章设计的测验很有意思。从实验结果看,现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。5 _+ k$ h& F3 ^8 i( Y
& G4 ^+ b8 N1 F! f: s
最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。; f8 {1 O* _4 O, P' T( ^
5 c5 o& S& X) R( N( Y" Y给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth." m/ R8 N* R b
/ e& l( h) \4 m9 O5 v y+ X6 Z, ^AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:5 f$ V$ i$ V! Y. C* J0 o( O
我: A
9 x* ~5 h# X, [1 E3 s* S. FAI: B3 i1 @- X! R" k" R& p
我: B
: p8 S$ ~0 `2 w1 `9 WAI: C2 }/ M6 p/ f8 v. V: ] C% d
我:X; z, }' f. W3 d9 d2 z9 `0 F6 n7 k# c
9 }: b- t. s1 u( j/ Z
这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。
: g/ g9 p( g. m, G% n, t" B! F# U. y1 H
真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:
/ B; S, m% ?, P+ W- z我:Z0 j2 h. a: p! ~. r* p
2 v( f' Q) b0 V$ w; O这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。
7 R& ^2 K* \! C0 Z+ P' n- r; g
4 Z0 m% y/ i0 K' F6 }8 o8 ^而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。
S% s; p. l" Z+ ^# t
1 [* z, X( ~. L. b' M有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
$ {- U. w1 P; Q% u
: @* h# A& `, W1 ?) ]至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:9 ?7 ]5 _' K# v9 q
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。' Z, o2 r$ g' G/ e
: ~# s. n7 T- h4 P$ A" h Z4 x7 W1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。
! r) Q+ `& y( t: v& a4 ^1 S$ m) ?% P
2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。: S+ \8 F: m D8 @* j( r: N
) B& v% {$ x) d. P- O6 Y! o总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。 1 Z7 e, S! t2 R% ?& C' E4 @
|
|