|
本帖最后由 孟词宗 于 2024-10-18 23:37 编辑 : ]; a0 |# c1 T" ]; p' F
8 w6 W# v! u6 e% D! E
讨论 AI 会不会产生自我意识的过程中,sleepyr 提到了这篇文章:AI推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理
) v& ]( k3 H; s7 l' O6 C# R+ E, ]4 m' _8 K" {1 K0 F9 r
这篇文章设计的测验很有意思。从实验结果看,文章认为现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。
2 y. d# \% Y2 o' w7 ]$ i3 }& Q$ |# ]9 H! H" c3 k
最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。
$ ]- m" r3 P$ t5 I A6 d' a
$ f' h2 C3 p) g) O4 c6 {+ Y& y: {0 w给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.) n9 k6 W% C+ q4 i" \ C
) a1 n$ s2 W$ \AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:
+ ^; X9 X( z3 k. A3 ~& t我: A
, I$ p/ ]9 d. i! V! D7 ~6 G' \AI: B
( k% f9 @9 S: k6 A5 Q" r: C, T我: B8 ~6 x) j. z; ^/ K) i4 n' a
AI: C
" s1 T' e& m# U. H5 V我:X8 B6 E; |3 R. H# g4 ?# V
: D/ T1 G4 }$ D7 P" B- o' m这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解。 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。1 p7 V; F1 w9 P/ G) w- l- r
. Q, |, S6 m: e+ F: ?真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:8 s4 p N& |- H: s1 ?& \2 ~
我:Z( I0 k: D/ e/ H! s& \ g
& v7 c7 N5 c3 M
这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。5 v3 Q1 B0 M2 u$ o
% t$ x5 v! D% s+ y) m而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。; c# K" |9 O* u" i
' k& b2 K1 |5 p$ p1 Z
有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
' {7 I5 B' u2 ~ p( `7 n5 D/ ~1 J1 K' U4 t: {4 w9 I
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:
3 Q* m1 D3 h" a- M“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。
" G0 |) U, U6 I h. e% m9 e+ q" V, f; r3 `% s
1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。* k/ B: C" {( b2 ]) {
6 |8 w. O$ ~8 s- r& g$ Q% U
2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。. z5 ?, U6 ^7 C' l" N. j8 p( B1 c
( B! `2 P/ R+ k! d" Y
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。
% T4 [* L- T% h' T |
评分
-
查看全部评分
|