|
|
本帖最后由 孟词宗 于 2024-10-18 23:37 编辑 2 M: V n5 A$ v: q" e \
) X2 T* D/ ^2 f% b0 j: N, g7 U讨论 AI 会不会产生自我意识的过程中,sleepyr 提到了这篇文章:AI推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理4 v! e R- k' z' `3 V/ Q% k* S' B
( p( ^) G7 K0 F) \8 X' y! v" x
这篇文章设计的测验很有意思。从实验结果看,文章认为现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。
$ [" r: }( y/ a+ o* i! {$ f
9 W/ G% A; w9 A- O& j- `' q% R最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。
, t& |( f0 B7 B4 N" i4 y; ?& J* a0 I" y% f5 k i+ n+ Q
给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.
! j/ z8 e0 p6 y* G" b( d5 X
d( I3 a6 D6 c) V! \AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:
/ k7 E- i+ ~+ n6 f( j& c我: A
g* D9 M- ]& L$ ?2 Y1 a- g, u) }AI: B" F- _7 O5 S: U8 `9 f
我: B+ E& g- B; u( ]! O- ]" z. K3 ]
AI: C/ B& m5 k4 p- p8 l
我:X% s1 {3 Q6 y$ x5 {0 D6 d( l# W( P( Q
6 Z+ R+ a0 p: l2 M$ u8 r+ l0 F& W
这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解。 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。/ \. C, ]3 L9 `4 Y/ _
' p2 V3 K% ]* L# C真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:5 j) v0 l, a" x2 j, [( X# r
我:Z
D% Y/ }3 i( q: c$ e9 b0 v* \
# M' u) @6 ]1 X这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。! G3 X3 _" g8 m, `) ^
5 s6 D V; D- O' e
而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。
1 W8 H8 m' e: k% h. N
( }! M# ^$ t ~! y1 j& a6 F5 T$ [' @有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
* }. D. r7 M5 N8 j( i4 h- ~0 p/ O1 y; \
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:/ b7 W! [9 I% e: X0 V( H
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。1 ^3 v; U( W2 R
- D& \% }9 h5 ]/ j$ s
1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。
$ k8 O$ a- X* R
' s+ v# J; G7 z, B0 q9 l+ \2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
9 Z C* d( q& J/ T* Z! O! g! e0 y: z' I. u Z- S+ R' [
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。
' ~0 ?/ ` l% t7 Y6 \! ? |
评分
-
查看全部评分
|