|
|
3 D9 w0 a3 g( c/ R$ g- x! J
5 @5 ~8 `& }: X5 O9 u H1 }1 S& o这篇文章设计的测验很有意思。从实验结果看,现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。% q# [% P0 ^/ K, O: N
- m' s4 ]! r1 V. w9 V最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。
/ `1 j: G( C, h* H7 y) n
% V0 a; H2 D8 R4 n1 x3 A给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.- ~0 J1 {/ V, X
* `4 ]5 s6 }4 {( S; D5 c- W6 T
AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:1 P- n1 P0 y6 e! j" R6 m* J) I
我: A
2 g- \8 S) ?5 N5 N+ g. q; A; iAI: B
" u3 V$ t# C r) a6 U. W我: B& ] P; R; F: V* {9 Y
AI: C, u5 i7 ?; |& @2 |. |8 i
我:X
# e# r& J: ]6 P2 _2 p! w, m5 j# i |; s: R {% g0 ]* [, i
这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。
* d5 b5 v: h b! j$ \8 a- @+ Y" e$ ~4 [, s Y6 f' P
真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:" X1 p- ^$ l. P, x) U! Y
我:Z
' S7 i# \( g5 n! Q/ E K
( L' E/ z1 Z* P6 S3 n9 C这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。- g% `$ a, c3 \/ z: R2 m7 {, ` N
4 H# g& l: O! F& k4 j' t6 M而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。 n' l8 n: ]) n; `
( j& k# E6 d; S; S" ]有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
2 ^) E5 e3 }) i0 A4 P' @( G1 {4 V- s2 `) ? Y/ m+ g" V: z- l0 r, B
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:
- ^1 \3 D' T7 c9 |“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。
# ~0 j [4 e M1 K+ z
' ^ s3 J% X J2 ?( F1 M+ M1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。- ^; S: s9 X6 `# B+ i3 H+ h2 j, F5 l
2 v: B6 i) P% K
2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。( n$ o8 }& v/ g
w& w- Q( h# U: t- t
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。 . d6 w+ e, [6 _: g. L! L
 |
|