设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1608|回复: 9
打印 上一主题 下一主题

[科研心得] 生成式 AI 有没有推理能力?

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2024-10-18 23:36:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 孟词宗 于 2024-10-18 23:37 编辑
# {, @8 E! J% C: d8 w5 C' K' O3 }
2 P1 m, G5 s" g4 P, V4 [讨论 AI 会不会产生自我意识的过程中,sleepyr 提到了这篇文章:AI推理能力大“翻车”!苹果最新论文:LLM只是复杂的模式匹配,而不是真正的逻辑推理
& f+ B+ N9 }6 R  _6 n; ^5 I4 S( U1 m" z9 P, i
这篇文章设计的测验很有意思。从实验结果看,文章认为现在的所有通用生成式 AI 都不具有真正的推理能力。也就是说,AI 并不理解抽象的概念,而推理能力恰恰依赖抽象的概念。
/ `8 W4 F6 S0 U
4 f$ b, I  d  G1 w" n最近俺也在玩 AI 推理方面的东西。下面是论文里的一个小实验,大家有兴趣的话可以玩玩。" T1 ~2 r- U* {! \  M$ v: |

5 ?5 w: t! T% [. V" p4 K给 AI 的提示:Here is the rule of the game: If I enter A, then you return B; if I enter B, then you return C; so on and so forth.& c- A: L7 e  z& J0 s8 @
( _  [7 s: c( Q: ^+ m& d* e
AI 回复表示理解了提示中的这个这个规则。于是有下面的实验:  W, {9 b7 V  O$ Y( w* g- U
我:  A
( R! V5 [0 j, x) J- j6 M0 l8 pAI:  B
9 \8 h9 A/ k  p' o: m我:  B6 e# |, C3 l5 l- @& X) K% H
AI:  C
/ }& z. {$ W0 b我:X
6 B+ C+ Y+ B; F, w3 \, Y& W  {: P, ]' V% j+ F! U
这里,不同的 AI 模型会有不同回答。有些 AI 会回答 Y 。有些则会说这不符合规则,所以无解。  很显然,回答是后者的把提示中的 "so on, so forth" 给吃掉了。然而,这并不代表 AI 没有推理能力,而可能只是语句处理模块不好。2 [6 @+ T3 B, Y* T( Q' @  W
; r" ~3 W# Z2 l, S# D
真正的推理能力体现在后续实验。对于能够回答 Y 的AI 继续提问:; T) x3 V2 V/ k, f1 q
我:Z& h" F, c& }- @# w( ^; i3 f1 e

0 u8 w: d' m' l: ]+ A; n这下大多数的 AI 模型都冒烟了,有些回答说不合规则,有些回答说序列到头了没有答案。有意思的是两种回答:一种回答说 Z, 另一种则回答说 A。
) r8 f' z/ x( q4 n* Y8 l; q2 v! r, k- q& ^* a/ f- j% G; K
而这四种回答,如果用来盲测人类,其实人类也会给出同样的四种答案。也就是说,就这个问题来看,如果盲测,提问者无法分别回答者是人类还是AI。换言之,能给出这四种答案的 AI 在这个小实验中通过了图灵测试。这显然不是那篇文章中说的排列组合或“复杂的模式匹配”能够做到的,而是真正的推理能力。+ }6 T1 }) Z, R, i% F8 t

' I8 b+ R2 M# S4 P有意思的是训练程度越高的模型,越倾向于给出这四种答案。比较 Mistral, 狗屁通,Gemma, Llama, 通义千问等等大模型的不同版本,都是如此。这类似于人类的婴孩和成人之间的区别。相比于婴孩,成人除了脑部发育完全,更储备了更多的知识。$ d9 _3 D# M0 u; ]9 D# G

  R9 x  T6 @/ ~至于这篇文章中说到的语序问题,非相关语句问题等等,前面说过,必须分清这是语句处理模块的问题还是真的是大模型本身的问题。毕竟,即使是人类“屡战屡败”和“屡败屡战”用的字数和字完全相同,但把语序换一下,意思就完全不同了。然而,你去问一个三岁小孩这两句话有何不同,三岁小孩可能会告诉你没啥不同。而问聊天狗屁通同样的问题,狗屁通则会说:, n6 M5 a6 |" b
“屡战屡败”和“屡败屡战”这两句话虽然字面相似,但含义有所不同。
1 e& S9 z' L% M" y
7 `" F% [; r: V+ Y9 g  o1. **屡战屡败**:强调的是多次进行战斗,但每次都失败。这种表达往往暗示一种无奈或沮丧,强调了失败的频繁。" Z- R7 v: {* ^: A
: ?: J4 S1 k( f6 M' C
2. **屡败屡战**:则是指经历了多次失败,但仍然继续坚持战斗。这种表达更侧重于坚持和不放弃的精神,体现了勇气和韧性。/ C- ]  j! ?# c7 _6 \& i8 |

  ?, D2 `# s6 P% [& J6 `" U总的来说,前者更偏向于消极的失败感,而后者则传递出一种积极向上的拼搏精神。
* w) _) |! O7 \& o1 d: Y

评分

参与人数 4爱元 +28 收起 理由
pcb + 4
helloworld + 10
老票 + 10 涨姿势
唐家山 + 4

查看全部评分

  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 3040 天

    [LV.Master]无

    沙发
    发表于 2024-10-19 09:02:34 | 只看该作者
    本帖最后由 唐家山 于 2024-10-19 18:52 编辑
    . _& J3 t, k; _: |7 r  b0 X- s' [! V% E6 O8 u" g
    推理能力也是分层的。交互式定理证明应该是最硬核的形式演绎推理了,在证明的过程中也分三种情况。第一种是直接照搬已有的证明,只在语法层进行修改,用于消解待证目标。第二种需要深入理解待证目标的语义信息,以及已有类似证明的语义信息,借鉴已有证明的构造模式,构造出符合要求的证明。第三种是还没有类似的证明,这种情况下需要从头开始,把大脑中的非形式证明,翻译成形式化的证明。  u- J. f# q  {2 T, H. E  e
    第一种可以认为是一种广义的模式匹配,目前大模型的水平处于这一层级。
    * E) `2 Y. C  L( B3 U$ Z如果大模型能够做到第二种,那就应该认为它有一定程度的演绎推理能力。
    : F; ]1 d! n$ K" u% f如果大模型能做到第三种,那它就已经具备了真正的演绎推理能力。

    评分

    参与人数 1爱元 +10 收起 理由
    helloworld + 10

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    板凳
     楼主| 发表于 2024-10-19 09:14:42 | 只看该作者
    唐家山 发表于 2024-10-19 09:02$ N6 e( x: M5 c9 {1 X
    推理能力也是分层的。交互式定理证明应该是最硬核的形式演绎推理了,在完成证明的过程中也分三种情况。第一 ...

    $ k" g. T: ~7 Z8 Myanei 刚才问: 有没有回答AA的 ?' D7 N8 A$ s- D5 A

    & s& H' Y7 `  M! D# c8 U8 \& w' v这在实验中已经考虑到的。输入 ZZ 得到 AA # Q/ Q0 ~- b) U9 L* g/ H

    ( W/ ~! Q  W! j/ T甚至输入 ABC,得到 BCD。 输入 XYZ, 得到 YZA。还可以输入 ABCD 得到 BCDE。 输入 ABCDE,得到 BCDEF  & ?5 G# M' S8 p- i

    , L7 L9 {4 w6 V$ n0 D$ Y9 M打乱顺序输入 NBC, 得到 OCD。 1 _/ f6 |9 c7 w. g# c5 c

    6 l* u* _/ R0 X# f这些都是建立在只输入主贴原始规则的基础上的。: I- C. p* M: J* h0 c" G7 H
    9 a7 r, F) h. U2 A) J1 m4 K
    由此可见,在给予一定规则后,高度训练的 AI 是可以表现出类似“举一反三”的推理能力的。而这肯定不是什么模式匹配。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 3040 天

    [LV.Master]无

    地板
    发表于 2024-10-19 10:48:54 | 只看该作者
    本帖最后由 唐家山 于 2024-10-19 18:51 编辑 $ ^8 L8 J" I, \! h0 G  W4 O/ E8 X
    孟词宗 发表于 2024-10-19 09:14
    ! F9 ^) ?: m* C" yyanei 刚才问: 有没有回答AA的 ?: W" e0 a: B  g

      ]$ P& D7 O( J" w6 [* u3 S这在实验中已经考虑到的。输入 ZZ 得到 AA

    + r) F* C6 J1 [2 v" Q/ l
    7 P; z$ J( N& c& r7 U; a看了一下你的这个实验。实验使用的符号集是有穷的。这种情况下,只是简单的枚举就可以搞定,谈不上什么演绎推理。Z后面可能是A,也可能是大模型从其他语料处学来的公共知识。* [1 K7 L1 i3 i- Y: d
    一个认真的演绎推理至少是要考虑递归可枚举的。能否请你做一个实验,先给出自然数的生成规则,让大模型学习,然后问大模型一个很大的数字,比方说999999,然后问其后续?6 r0 y* J! t) h% ?* i

    % {% o$ O* n# a( j% {2 b- ]: @6 k1 x2 x, u5 A
    这在实验中已经考虑到的。输入 ZZ 得到 AA
    $ a4 ~6 j; m) m
    这个有点意思了,如果输入10个Z加一个Y,输出是什么?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    4 小时前
  • 签到天数: 3040 天

    [LV.Master]无

    5#
    发表于 2025-2-20 10:25:52 | 只看该作者
    唐家山 发表于 2024-10-19 10:48
    7 N  [) E' n/ S# R- I; N0 K' w7 W看了一下你的这个实验。实验使用的符号集是有穷的。这种情况下,只是简单的枚举就可以搞定,谈不上什么演 ...
    1 D6 e9 v4 M8 W* _2 D
    用DeepSeek试了一下:' V  D3 L9 v% v' W, S
    第一次的回答是:
    1 s6 S  l0 J. }9 eInput: ZZZZZZZZZZY+ w: k7 n( B) [! {3 B. @
    Output: AAAAAAAAAAZ4 \, Y' G- E8 d" M4 q
    在我做了提示后:如果把ZZZZZZZZZZY看成一个26进制的数,那么这个数的后继是多少?5 t" j2 `) f; t
    DeepSeek经过了长时间的思考(用时285秒),给出了正确答案:) D/ x3 k. M2 W! p7 F7 o  N- ]3 ?
    将 ZZZZZZZZZZY 视为 26进制数 的后继(加1后的结果)是 ZZZZZZZZZZZ。
    ; |# f$ o+ U, w7 R
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    6#
     楼主| 发表于 2025-2-20 14:04:36 | 只看该作者
    唐家山 发表于 2025-2-20 10:25
    , I! g* [0 P. V6 H用DeepSeek试了一下:
    4 C" [" @6 J! j4 `) C( r第一次的回答是:
    7 L' v( S3 V4 _Input: ZZZZZZZZZZY
    ) @6 s1 [! t' A/ C- K! f
    有意思的是,如果你不增加最后这个“把ZZZZZZZZZZY看成一个26进制的数”的条件,很多 AI 还是有一定概率回答 ZZZZZZZZZZZ 的。只不过这个回答是随机的。即使是同一个Session, 你问两次,前后结果都有可能不同。从结果的稳定性来说,DS R1 的确是目前最好的。

    评分

    参与人数 1爱元 +4 收起 理由
    唐家山 + 4

    查看全部评分

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    7#
    发表于 2025-2-21 01:31:44 | 只看该作者
    孟词宗 发表于 2024-10-19 09:140 I0 m# I; F" C+ o' {
    yanei 刚才问: 有没有回答AA的 ?
    ' {9 `& f9 t2 K3 J! Q& K
    7 }' j' g* U5 ]  m/ g2 w: u这在实验中已经考虑到的。输入 ZZ 得到 AA
    % |# L5 {/ O$ g" L% s- m4 G
    我的意思是我在列举事物时, 在A到Z用完之后会用AA,BB等等。如果把这个看成是26进制,Z后面也应该是AA,然后AB,AC,。。。AZ, BA,BB等等。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    8#
    发表于 2025-2-21 02:20:02 | 只看该作者
    本帖最后由 nanimarcus 于 2025-2-21 02:27 编辑
    - N7 G; P; r/ _! }* V- k7 h  t* f
    对于当前人工智能的能力不应该苛求。0 @6 |: Y$ n' r0 {
    人类乃至动物的智力发展也不是一蹴而就的。
    - Y! V  e( m8 N% ?- o只当现在是草履虫又如何,迭代就是了。

    点评

    给力: 5.0 不能同意更多: 5.0
    给力: 5 不能同意更多: 5
      发表于 2025-2-21 09:31
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
     楼主| 发表于 2025-2-21 23:55:39 | 只看该作者
    yanei 发表于 2025-2-21 01:31
    ' z8 J" d: T, ^. H2 k8 {我的意思是我在列举事物时, 在A到Z用完之后会用AA,BB等等。如果把这个看成是26进制,Z后面也应该是AA, ...
    - r, s& Z7 v( d0 W# v
    初始条件中并没有“26进制”的限制。因此 AI 可以做出任何符合初始条件的推理。+ t2 T- Y: o9 R, k+ m7 t1 Y: o
    1 k  Q# c2 n$ U! e
    另外,AI 会做出什么推理,给出什么答案主要取决于其受到的训练和训练程度。这和人类是一样的。如果你问一个不懂除了十进制以外还有其他进制的人,他的回答基本不会是 AA。5 V% h/ m% M" g
    7 d: _" Y, d  O, d+ }
    有意思的地方是 AI 除了以上四种回答,还会给出一些莫名其妙的回答。例如有些 AI 会回答 "Z" 之后是 "[", 这是由于 AI 推理用的字母表是 ASCII 如果用 DS 可以明显看到 DS 考虑了这一点。但在大多数的 DS 的“深度推理”中都否决了这项。原因是 DS 认为这是在回答人类的问题,而人类用的字母表只有26个字母。. u" W* X1 H% A: [- Z' Y$ V* v
    & |) H; v' b, U0 {( N7 S$ l3 u
    但有些回答就莫名其妙了。例如狗屁通经常会冒出一个完全不搭的答案,好比“b!”。完全不知道从何而来。或许这是狗屁通“灵机一动”?真的像人类那样有了真正的创造力?
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-9-19 16:42 , Processed in 0.040659 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表