设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1174|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    * m9 w2 d' o) C) u$ h- h
    $ I- X, v4 T4 [' P5 b遇到一个数学问题,懒得推导了。习惯性让GPT推一下。9 g5 ~4 A9 D3 g0 Z% @

    2 V. e9 |0 n- O+ q2 P. ^8 E最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。& k) J' l9 F- H7 E% |# z

    " R$ _6 Y1 {; V! I
    . V: U" T4 D4 X2 m2 u9 b可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解3 q! ?. T: A8 [; s
    ) x% O' V, [& w. a

    6 j/ D, D. j5 N3 |
    $ \% ?; U- ]/ v1 X; h4 `3 }2 r
    % w" X  U% j) Q" H. W  s6 [6 K1 V, `& Y% S, n
    要么继续胡说八道。
    2 v# p, a1 ^% e  i
    - |6 R* t, b  D: C
      f5 R( w# _5 r) H% q抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    + _. K  {6 _- X. v. g, J4 A7 S9 m: r8 J
    # \8 [  A6 w0 y2 v' [; Sdeepseek速度快,结果也对,但是过程是不对的。1 V9 J* w$ b" D8 _/ b
    8 l2 e2 j' a2 E$ v

      e/ r) K& l/ N% }1 K豆包过程比较绕,但是基本正确,结果也是对的。
    0 O4 x6 f) P& W0 l+ d: c6 f/ R% m! S
    : k" l# i% D- F. l( R
    当然,都不如人推导的哈。
    * O( X5 z- |" S. {! c! M/ t: b% E2 X$ [- L3 u/ p/ x
    7 `  Q( b' d2 P5 S$ C
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    4 L5 f. n1 y' A6 h) H1 x: z4 D9 x7 q0 R1 O) m
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    % Z% q5 [9 }0 |: v% t+ `5 ^& v5 ~8 T+ R( @$ i5 Q- w
    $ X! J" x+ F" F2 `  j7 D+ {! o

    ' f* H# c- w* d2 L4 U* a3 a( }" [6 j8 T

    ) r8 m/ ]$ M% T7 f- C& ~4 ~1 q

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    8 H1 F7 Y5 e( M. {6 o! {9 F8 @0 F4 W5 D" U; M" }- k7 ]
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2025-10-6 22:20
  • 签到天数: 3580 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    , R( D4 @2 C% X# }' R0 @! X/ ^& l7 h5 Y
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。5 F1 }7 n5 Y. [/ K( o1 {
    " e8 c7 Y6 ]+ v* b
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI/ y: `, J2 l) Y8 P% o' A

    2 a0 \, ^1 z' r) `) c现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    * i$ t; X  k+ z% [2 l另外的一个笔记本我基本上只常规使用搜。
    2 s2 n! _4 `3 p- u% K5 z
    . O# _. G) n+ b" w& o我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    5 小时前
  • 签到天数: 2745 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43! P8 H+ W$ H% Z! _
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    $ z  |9 b1 m6 m) i. V- L4 x/ w
    ) G4 n# y5 Y. b. ]& Z2 g+ S要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    ! k% N, W* N2 |5 a$ l
    & u: A  R/ ]& ^% P" d
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2 小时前
  • 签到天数: 2369 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:9 g& D; P; G, o& h

    " w3 p+ g9 a: B0 i: _9.11和9.9哪个大' Y$ _7 }# N) E% Z8 [$ Z1 W8 X1 r
    ChatGPT said:6 i2 h8 t7 k- o9 ?7 A* e. P; B2 M8 u
    ChatGPT( ?: k6 m' m# J/ @6 Q/ c( K
    9.11 比 9.9 大。
      x( J9 i3 A% F2 o, g$ V- _( |6 w* S5 H, E" }3 R9 W) X
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    7 n# ?; p* j$ Z% r+ U# z4 O# H1 w6 N! n: W
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    4 Z* G& \2 g( R8 [% T9 v由于 1 < 9,因此需要继续看下一位。
    1 \- d6 a1 u# ?9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    ! G7 j4 g2 R7 {5 ?  s/ y' d因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2025-10-6 22:20
  • 签到天数: 3580 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55. h/ G* ]! E3 S' f( B% l; o
    所以到底哪个更好?
    0 c: m( [& k5 k) F
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-10-15 06:28 , Processed in 0.033601 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表