|
|
本帖最后由 孟词宗 于 2024-10-18 23:37 编辑
, V' K5 a2 p7 f: @
- I( b/ e+ D) ^/ [5 p' R$ p& Q: B讨论 AI 会不会产生自我意识的过程中,sleepyr 提到了这篇文章:AI推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理0 |5 N+ b% U/ `' h$ \! B t' e
* h0 s" N0 ]7 z) c& m
这篇文章设计的测验很有意思。从实验结果看,文章认为现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。7 A& E+ g6 G1 M
$ f1 g( Y# g0 W3 a, k6 |! r7 e; T; `
最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。1 _8 u& ~8 d) F w; ]- ^
" n7 i z7 L8 k" A0 t& Y
给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.
) E, Z6 @4 A: y, Y5 f
. j$ [4 [( F. X% h6 pAI 回复表示理解了提示中的这个这个规则。于是有下面的实验:: l0 N' L/ m8 K8 y6 C+ B
我: A4 h# F8 y. f7 J) a2 c
AI: B
8 ~, s9 `, g' _- E9 y0 H我: B, e" D% ]4 K6 J' |, W+ M+ `5 S
AI: C
( ?9 ]; @6 u; V- Y我:X
. W# K. N" l" y1 S) e
' k4 n- m" u) }, J+ L+ U9 D- {这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解。 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。
' c( E: p6 d/ Z. ~
2 D6 Y# M5 j$ M% R真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:0 i% m. n- u( w# }3 k
我:Z
% c! L w: z; ?# [" i- M; ?! o# ~
这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。
4 P8 T7 L1 j7 C4 v$ C2 J6 C& v" v- n. c4 k/ z9 J7 m2 H; d
而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。/ S' \- B" }3 f
: o# l9 l4 S% p3 d8 O4 t% w有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。( j" P |/ C5 U, r5 `; @; P
' b$ _! s0 ~/ w$ p
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:2 Y) j' }; \+ s& D) a1 e& d" [) N. w6 c$ ~
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。; l! X6 b$ C+ g
7 k/ Y& D. z- h0 f6 S; {: e) P; [ u- X
1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。& S/ [& P6 X1 C# h* U# Q% @9 q
; w' `( Q5 ~ g% R9 T N: X
2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
/ N! L& _. X: u! d8 ^8 O: w& c# U0 S* o" X
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。 / [5 Q0 [% I) B9 h' `8 h1 A) `
|
评分
-
查看全部评分
|