|
|
2 n) G+ {) ]3 a5 r; c
6 S( M; ]4 T4 S( S这篇文章设计的测验很有意思。从实验结果看,现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。$ O& A9 o. a/ [ m1 J `) G1 o
7 J( O* N0 J/ \9 ^: @2 I, b
最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。0 X: a& R6 W. j8 r7 E( y- R T
% q# o. S" W6 R% h) r; |0 H
给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.5 J9 w. I9 L( o8 [, A
3 g9 t4 G6 C: P& ?AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:% ^1 ]( Z1 n0 K) C: n- k9 w, Z
我: A
" L* s; T' b& B0 oAI: B- {9 Q/ b9 u t- k
我: B
6 u: J3 d/ T" O0 [5 FAI: C! `3 q2 E# Y( j( Y4 M5 ]
我:X
, ?0 w! O/ I6 G% W; n. F% C" W
?' V) i1 l( g5 @$ M4 v" ~2 [这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。. t T5 O% }* y. r; }
( ]6 x+ n% z, S1 B$ n% e) Q6 c真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:
+ [: E2 E8 R$ j我:Z; J5 F3 a+ R' C7 o& c
8 U q: n% @& O8 U# u这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。
% R3 l) t& C/ A+ F+ O
; ~% E! P) z8 w1 C而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。3 U% w) A6 B7 Z7 _5 u$ X/ u
7 N( T. q0 t' |$ @! C: z) T# m' }
有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
/ K/ S$ p! _1 }7 p r7 \% _! L. \: e6 B2 {
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:4 _- ?7 f" a6 [5 O( m% G) i; C
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。
7 z( }4 T [1 @) E M; d& g
1 _5 _ ~* e+ t4 |& A" @: J1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。$ {7 S- K/ u }# q W1 C2 [
# C C3 L. A; z2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
) r8 L* a( l; i! Z7 `
* a0 _4 h4 k# X总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。 % q- {; q P: X7 [0 d$ x: ?
 |
|