爱吱声

标题: 生成式 AI 有没有推理能力? [打印本页]

作者: 孟词宗    时间: 2024-10-18 23:36
标题: 生成式 AI 有没有推理能力?
本帖最后由 孟词宗 于 2024-10-18 23:37 编辑 , w8 }& G/ x7 C' [' Y8 z
6 ~. M  W+ F2 F6 H7 Q
讨论 AI 会不会产生自我意识的过程中,sleepyr 提到了这篇文章:AI推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理$ s) {& Y' ^9 d* A' ~
2 K2 ]0 L9 r+ H4 C
这篇文章设计的测验很有意思。从实验结果看,文章认为现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。, C9 g6 H% _9 X- A

2 B  Q; m( n- f+ T' P9 [最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。
8 l, X/ U; h' \9 t6 d8 H. e9 d0 G9 a4 y. [- a. P' ~; p
给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.+ Q( i* ?0 P$ a5 h

6 y5 e, W0 @# ]# b# H  `AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:
( v# Q  ^& e3 V4 s- U1 k我:  A2 ^0 \+ r/ r( o" J3 j8 [* r' D
AI:  B3 i2 k; ]% a$ c- B' q' M" w( m5 j  n
我:  B
% K1 @0 o3 _$ g/ {/ {1 |AI:  C( s/ Y& f6 v$ _0 x
我:X  R7 d% j( S% `0 Z

" \  k. X! D. V* r% A: u0 m0 U. V) ?这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解。  很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。
  Q, ~8 a- w% T) k: B9 r' H1 Y4 @3 r( U9 C: B
真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:9 G6 _1 x( W8 m$ |
我:Z  c4 K0 G* }5 s" I
. M1 I% Y; r" @, P, b! _
这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。- J/ `: i* e. |5 Y; @

  w: v% t+ l; a6 h而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。# O( [3 |+ F5 B1 c/ r: f+ X
- o- a! \0 W) k8 h, n
有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。
1 G7 z( E8 W' X& ?9 O* u+ Q& e2 P( i7 a0 \
至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:4 G% l* l  L6 V: b
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。  V, N% E9 U* E. z% \2 `: ?* z
5 N$ S' ?! r& W, J* K( g8 j
1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。
' _6 z+ s" E9 i9 W
: |3 O7 l  ~* X& `6 M2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。
8 C/ A. P! g# Q
, v! ^$ P4 N( p# Y总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。

, d/ Z+ `! k. A! W- i
作者: 唐家山    时间: 2024-10-19 09:02
本帖最后由 唐家山 于 2024-10-19 18:52 编辑 , s4 I6 R+ v! g$ @4 F8 u
6 c' C, F+ j8 o
推理能力也是分层的。交互式定理证明应该是最硬核的形式演绎推理了,在证明的过程中也分三种情况。第一种是直接照搬已有的证明,只在语法层进行修改,用于消解待证目标。第二种需要深入理解待证目标的语义信息,以及已有类似证明的语义信息,借鉴已有证明的构造模式,构造出符合要求的证明。第三种是还没有类似的证明,这种情况下需要从头开始,把大脑中的非形式证明,翻译成形式化的证明。
6 K! I# e0 p" C第一种可以认为是一种广义的模式匹配,目前大模型的水平处于这一层级。( U- R, |! S8 C2 u1 ]0 o
如果大模型能够做到第二种,那就应该认为它有一定程度的演绎推理能力。( m/ S( P/ L5 {7 y* C
如果大模型能做到第三种,那它就已经具备了真正的演绎推理能力。
作者: 孟词宗    时间: 2024-10-19 09:14
唐家山 发表于 2024-10-19 09:02
; F& K# Q, P9 x+ R" U推理能力也是分层的。交互式定理证明应该是最硬核的形式演绎推理了,在完成证明的过程中也分三种情况。第一 ...
/ p8 ~$ L! O) L- {8 ^' ]2 @$ p
yanei 刚才问: 有没有回答AA的 ?
4 m: _/ B6 x8 Z/ L3 t* {4 C; V, W: i: L2 H: t/ {7 U
这在实验中已经考虑到的。输入 ZZ 得到 AA
6 V" o, r6 I9 Z# k. r  Z' y# ^9 r% C; G/ |
甚至输入 ABC,得到 BCD。 输入 XYZ, 得到 YZA。还可以输入 ABCD 得到 BCDE。 输入 ABCDE,得到 BCDEF  
" U3 x; n/ V- u& B& @6 y8 ]: _
2 I: t! L4 ]" j6 _打乱顺序输入 NBC, 得到 OCD。
3 v# M" e! @! H/ b/ h  Q1 K& T8 U
9 L5 k5 H1 M1 E4 H这些都是建立在只输入主贴原始规则的基础上的。
2 I) M" z+ w/ b. V$ [0 d- g- i1 |1 I% z# M: P
由此可见,在给予一定规则后,高度训练的 AI 是可以表现出类似“举一反三”的推理能力的。而这肯定不是什么模式匹配。
作者: 唐家山    时间: 2024-10-19 10:48
本帖最后由 唐家山 于 2024-10-19 18:51 编辑 . o  _; J) i# V0 @
孟词宗 发表于 2024-10-19 09:14
2 `: @8 o" ~4 kyanei 刚才问: 有没有回答AA的 ?
# u, r- v8 b* h! O/ r5 V
+ R% j& I2 E0 |" G( X这在实验中已经考虑到的。输入 ZZ 得到 AA
0 H- x& G1 i: ?5 c0 i
! `" i# f( {: v0 m( v2 z# `
看了一下你的这个实验。实验使用的符号集是有穷的。这种情况下,只是简单的枚举就可以搞定,谈不上什么演绎推理。Z后面可能是A,也可能是大模型从其他语料处学来的公共知识。
% z# m3 o$ o. N7 z& c一个认真的演绎推理至少是要考虑递归可枚举的。能否请你做一个实验,先给出自然数的生成规则,让大模型学习,然后问大模型一个很大的数字,比方说999999,然后问其后续?0 ^6 c' s5 R! y

+ t0 c$ X1 q; z. d: d5 R3 o+ N: t  r* E& N) l
这在实验中已经考虑到的。输入 ZZ 得到 AA

  h8 F  G# I7 ^- I5 _/ \5 H& g; ?这个有点意思了,如果输入10个Z加一个Y,输出是什么?
作者: 唐家山    时间: 2025-2-20 10:25
唐家山 发表于 2024-10-19 10:48; e, g8 x3 k+ X
看了一下你的这个实验。实验使用的符号集是有穷的。这种情况下,只是简单的枚举就可以搞定,谈不上什么演 ...
: M. W  J' l( a7 A0 C
用DeepSeek试了一下:
0 U& A/ t# y. {2 b+ L. }第一次的回答是:; v# b* X5 k  @  b! w
Input: ZZZZZZZZZZY
5 ?* @0 g. V$ x) VOutput: AAAAAAAAAAZ
8 U! e$ C0 B+ Q5 k& Z  T/ L在我做了提示后:如果把ZZZZZZZZZZY看成一个26进制的数,那么这个数的后继是多少?
0 u' z' Y$ x, k! e% p% PDeepSeek经过了长时间的思考(用时285秒),给出了正确答案:
5 A( r- E, P  H% w将 ZZZZZZZZZZY 视为 26进制数 的后继(加1后的结果)是 ZZZZZZZZZZZ。
% D- K7 h9 v" p% t
作者: 孟词宗    时间: 2025-2-20 14:04
唐家山 发表于 2025-2-20 10:25! T/ r  T& q( j0 Y
用DeepSeek试了一下:
, C  D" C4 ?% y第一次的回答是:
# n2 D5 s" m( A2 m& bInput: ZZZZZZZZZZY
- b. [9 N5 J+ _2 L. Z4 o
有意思的是,如果你不增加最后这个“把ZZZZZZZZZZY看成一个26进制的数”的条件,很多 AI 还是有一定概率回答 ZZZZZZZZZZZ 的。只不过这个回答是随机的。即使是同一个Session, 你问两次,前后结果都有可能不同。从结果的稳定性来说,DS R1 的确是目前最好的。
作者: yanei    时间: 2025-2-21 01:31
孟词宗 发表于 2024-10-19 09:14
" \) p" O; P" m7 R& q( x1 v, nyanei 刚才问: 有没有回答AA的 ?( i8 q- \( c% `$ O3 a& v

' c9 K0 |& R) @3 Q/ x这在实验中已经考虑到的。输入 ZZ 得到 AA

' M. _% R2 |" }) U& \我的意思是我在列举事物时, 在A到Z用完之后会用AA,BB等等。如果把这个看成是26进制,Z后面也应该是AA,然后AB,AC,。。。AZ, BA,BB等等。
作者: nanimarcus    时间: 2025-2-21 02:20
本帖最后由 nanimarcus 于 2025-2-21 02:27 编辑
( b7 |9 c1 M- x1 D
# w5 h. T! f2 x5 D对于当前人工智能的能力不应该苛求。, M$ X9 S% M* q' _% Y2 P
人类乃至动物的智力发展也不是一蹴而就的。# v. ?! K' y% j1 G; |
只当现在是草履虫又如何,迭代就是了。
作者: 孟词宗    时间: 2025-2-21 23:55
yanei 发表于 2025-2-21 01:317 U" G4 Z0 u& n: }5 ]
我的意思是我在列举事物时, 在A到Z用完之后会用AA,BB等等。如果把这个看成是26进制,Z后面也应该是AA, ...
9 M1 ?  ?  ^  d3 W& t
初始条件中并没有“26进制”的限制。因此 AI 可以做出任何符合初始条件的推理。/ S. o2 k- h! t% f
/ ]2 `0 M5 J, M) F: L* d1 d
另外,AI 会做出什么推理,给出什么答案主要取决于其受到的训练和训练程度。这和人类是一样的。如果你问一个不懂除了十进制以外还有其他进制的人,他的回答基本不会是 AA。. N6 Q, l# M: H9 v2 ]' I+ U/ s
0 J7 n7 u# }) S) S) E, \% w, L9 U; v
有意思的地方是 AI 除了以上四种回答,还会给出一些莫名其妙的回答。例如有些 AI 会回答 "Z" 之后是 "[", 这是由于 AI 推理用的字母表是 ASCII 如果用 DS 可以明显看到 DS 考虑了这一点。但在大多数的 DS 的“深度推理”中都否决了这项。原因是 DS 认为这是在回答人类的问题,而人类用的字母表只有26个字母。
6 z  R# n; v! v% p3 q, v; M4 Z6 V) t0 c9 R1 A: d
但有些回答就莫名其妙了。例如狗屁通经常会冒出一个完全不搭的答案,好比“b!”。完全不知道从何而来。或许这是狗屁通“灵机一动”?真的像人类那样有了真正的创造力?




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2