|
|
' `; Z, t$ \# Y* H- J8 {0 f b
* @: ~; y8 Y) O# B7 h; m8 `* J
这篇文章设计的测验很有意思。从实验结果看,现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。& V8 O. V& @# ]) B' P
W# _2 S, m' J ]最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。$ M' {2 y- B9 f: W: L$ e
4 c6 M/ S7 Y9 K P' l1 V给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.8 I; `7 s8 M6 B. }, e+ ?
2 n! H9 t, k a5 RAI 回复表示理解了提示中的这个这个规则。于是有下面的实验:0 S+ u" s/ X# z; m: D/ ~- j
我: A
" I/ d1 P3 h, z% L2 m) [7 H3 d; JAI: B
$ z0 E+ A2 J6 j4 P" z O我: B
# D7 o" ?4 n; ?" _4 ~AI: C
+ y5 f6 a7 k8 `我:X. W( C& z! y6 p: `
9 p) Q% Z4 G* n+ k2 Z
这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。% x6 G( O4 _( J! C( N
8 c- p9 d) u' `" i. B' C
真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:% f" C5 I) n* j* l; ^5 [, T
我:Z
4 Q0 I/ e! _+ {, K: L! T2 b0 @* R" o9 M6 D/ T/ A; K% R; ?
这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。
/ P0 w: @0 n8 G& p7 i5 E8 m3 \! M' i2 E% L/ \) I& B
而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。
. ?9 b! U9 n* ~
* I" f0 B# k* d5 Y有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
/ r0 o. }; v+ J
+ b( h1 k- f' P至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:
) O! g' l' y I6 D3 n“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。0 P/ U: |2 M& r/ w6 \
& y9 z% M* M5 h& r. A1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。
6 m- u; i- F6 b/ O
' `3 I* o% w7 b; o4 Q1 I0 D1 z2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
$ ]! M+ x' s6 R3 X0 B
; _9 y5 l2 `5 E2 l5 x: M总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。 0 f# E* \/ k0 X8 m/ Q
 |
|