设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1388|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    3 a0 }' _; F5 v7 ]
    , ^& a$ X3 k* [7 h, r' |0 H遇到一个数学问题,懒得推导了。习惯性让GPT推一下。. |( K; m; G1 R  i  V
    ) a& x0 k, x; `
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    & o5 b' W9 A$ V% g6 B- B- K+ l3 V3 l. W5 C' h; b
    " E- [" a  v7 x3 |' X# e8 D+ I3 ?
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    % ]# u) t4 R# j; z. d9 {! _; p
    ! n: E; x' W& s" k0 I. ~' Q+ A( G: P7 w
    $ S  u1 ^8 r" F9 j$ ^
    ! d3 d0 q! [8 Q, X0 V+ L

    + ~5 |! a- g& t要么继续胡说八道。3 A( F/ V+ C) U8 N$ N, l# X/ ~

    9 I9 W1 F' V3 j' ?2 \
    2 [0 Q' x) \- w5 i抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    7 T3 i+ D  X, X  S* n( g% `: d2 Q' o* l- X& D) o6 V8 x
    deepseek速度快,结果也对,但是过程是不对的。( o, J% k# F; s1 `. x* [& G
    , Q7 i: B7 l4 y0 N; u- @' }: o6 }9 [8 ]
    ! }# ?  U: M$ ]) Q
    豆包过程比较绕,但是基本正确,结果也是对的。; }0 Z% o0 {; Q: D
    # u% A$ v9 q, t3 I* f+ x
    4 `3 ^7 g  v% b: i+ Z" R
    当然,都不如人推导的哈。
    7 Z: }* N% Q" C0 L' ^( m" l
    # E. z4 |0 s2 H! i1 C; U1 m2 S
    7 f5 j0 J: s5 k8 k; h" _. ~/ q过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。5 [1 f( H* l* D2 m. ]/ q1 b

    ' j( w2 Z0 q/ M1 }5 B虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。& @3 P. _& k4 `; ^5 f5 U
    0 T- J5 y) \# o. e# y0 ^# \# n9 Y

    & y2 G% D8 y" T, E' a8 {
    2 ~! g8 D- A: i$ p' H8 I) r
    ) f/ z% Y8 J# {! h  p" l- t( M: n% f. C* m

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    7 x" Z, w* j; N# K! l# U* I# A4 u. a) e* J) m1 `2 V
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3640 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    2 f$ L* w' o- O" |2 s: [- h* e- r6 h  t$ p6 l
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    9 R! A4 n. [4 x9 W. ]9 p$ b. S: h3 H2 a3 d. o4 N
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    # v! a3 Y; E3 n- [$ x: C. O% w6 t. z6 b2 q* b
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    6 I7 u$ X9 N5 D9 C& B另外的一个笔记本我基本上只常规使用搜。
    : V9 O( i( c/ q  m4 |! V1 M$ T4 a2 d, M4 E! Q# U" V; I) k2 T; }1 h
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    48 秒前
  • 签到天数: 2802 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    $ Y7 @7 A) }* c3 G$ `我没用过花钱的AI, 但是我觉得各有优缺点吧。4 ?! d3 M* D# n: Q( M2 H9 ~

    # @4 j7 {6 q& {- ~6 v要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    ) _6 p& z" D8 Y9 H) ~3 _$ |  y9 L  b

    ; o7 J. D9 T! U/ n3 b& {6 C6 e所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    4 小时前
  • 签到天数: 2426 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    : b  Y7 F! s* r: s! _/ x8 I
    3 P6 ?+ j5 J5 H5 \: w0 O9.11和9.9哪个大
    + R8 }  W& k4 y0 B" W2 I0 {ChatGPT said:
      C/ ?# h* T$ `  O9 X4 E: LChatGPT
    * s' o! \0 S2 T+ l/ B$ V6 ]9.11 比 9.9 大。
    6 l1 Z# F2 K/ R0 ]1 x0 q/ b5 N- j. n2 @0 G+ R) m- }2 |8 R
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    * _3 A1 T7 K, Q! }
    ( w/ Q( V$ M/ e1 q. m; [8 ~9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    - A0 I+ i, n3 }2 ^# t, E$ G( N# M由于 1 < 9,因此需要继续看下一位。
    " Z7 \5 ~( T- i8 [( _: ]9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    " j) f& h& }/ g) G3 y3 e因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3640 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55' g/ V( a7 q( U# V( N1 F$ {) I
    所以到底哪个更好?

    ) ]) R% E  }3 K8 F说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-20 05:13 , Processed in 0.027713 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表