|
本帖最后由 孟词宗 于 2024-10-18 23:37 编辑
6 a1 Z& l: _$ [# _# w$ A, a0 d& ]! S+ ~7 e0 x
讨论 AI 会不会产生自我意识的过程中,sleepyr 提到了这篇文章:AI推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理
* T; y" y7 u' y$ C* q
; I" D, ]8 V- E这篇文章设计的测验很有意思。从实验结果看,文章认为现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。+ ^' J5 g _1 X. z# {: ?. P
; J$ }( T# D, _( P0 X( g/ x& M
最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。
9 w. T2 A- ]% X: @8 z1 N) t) B1 m. f! M; k& C
给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.' ^$ m' z- H& Z
4 M$ ^4 C. I7 t7 \
AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:
% t- d# Q8 I$ D$ I5 y我: A
' A- R" ^1 ~0 C0 k- dAI: B' d* u& b" w! n0 {# o3 O7 _4 W
我: B0 y* B) w8 e, p- a9 L3 ]' b9 x3 k
AI: C! Q" x% n9 U. B! g
我:X9 t# d' c1 z% ]* ?9 s5 I# `: r% d* ?
k" _1 M) c+ O- Z" ?3 l
这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解。 很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。
. F) E* S4 d) t* i4 W
" }' p& O. M( ?. F; P真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:2 X5 p% A; h4 w3 R8 B) T* v
我:Z* q/ e. A/ h0 B$ i. V+ a, T
' y. i; b4 t6 l7 g' y+ S( I6 B这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。. o5 V: h8 S- V. U O
9 }* h/ Q8 F% R( u/ y
而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。, ^* @$ g5 _* }1 o0 M# D* o0 n' P
0 B& f9 S0 @) R( c% b
有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
- x% F F/ _0 N" O0 k! A$ D( G! S/ X- z( F
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:
4 b8 y+ n; O+ o% ~“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。/ u/ o9 w& S1 F# l& ]# D& w. Y
. e% n: J. q4 y
1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。3 _0 R% p7 V4 }1 R+ F
e$ L7 ^3 l& A" ?1 U2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
- j* S) w' f5 I W% d7 O$ {7 {2 o' u; ?, }: W
总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。 7 O9 b' h; l$ D0 L) d6 s
|
评分
-
查看全部评分
|