设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1045|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 , P# m5 u& o- A' Q+ u/ A
    4 u) ?# ^- C; L1 s* N% R1 [6 v4 H! q  Q
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    7 N" x7 q2 Y2 y4 ?( G* e
    % _1 k$ }! H( o& X$ T) @# x4 Q最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。0 V% B1 G- u! c
    8 y$ ]) d' z( d) |6 C  ]: U; e: \: W
    9 s$ @* r/ w6 b! z. E/ V/ e; b
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解- m4 h) G, Z+ \6 `
    0 F# Y% T. S1 ?9 C( @

    3 @$ [, q; L% m  F) ~9 ~% \; T* z

    ! X9 Y  Q4 Q7 {2 i& P& ]# E5 w' v, D' G+ w
    要么继续胡说八道。
    ) T0 u) O' o# M$ [
    ( M0 n; i! K9 i: [
    8 U! P9 k8 n: c2 D9 o; Y1 L抱着试试看的态度,把同样的问题扔给了豆包和deepseek。$ ~# Q8 {: A5 l0 `
    8 ~) f  J8 @) }0 Q# L0 ?6 d5 r
    deepseek速度快,结果也对,但是过程是不对的。- |' n7 v* U( l, G* }8 ]
      O7 _6 f* o& O: w& }; z

    " [3 @( e1 g6 ^0 {6 }3 d豆包过程比较绕,但是基本正确,结果也是对的。* r6 M6 R& K# e# ~2 G

    # D% ?( M9 ]+ u  ^& U2 ], }
    $ b! Z0 k/ D: E: y当然,都不如人推导的哈。
      D+ W8 H' f- c! b3 H2 Z- c! _
    ) Y5 z8 e& p& H; ?. v
      |& |8 R; C9 @. N; ?' W过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。9 @0 y: V5 Y7 y$ Q( m; \# V
    , P) A; V: f2 c5 B3 c  ?& W
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。1 s6 _4 E0 K3 F6 K( [1 H
    " \& K: T) e: [1 z& u* G# V& ?
    6 u8 ^# }6 e4 E9 \9 D# l+ s2 r. }( ?
    % C$ g8 Y' w" |" s# g

    : R: S. _" r$ z3 u8 y3 u( Z
    / d; x# m! D) S) H8 O! I

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    4 |4 b1 ?/ u4 j" i# p# Z% }/ J* ~4 U1 b, `% Q& |8 B  K0 b7 I
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3567 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    ! t  G! s, u6 h& ?
    1 @2 @4 g' _, t' a% r5 z要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。; v/ o% V9 ~$ w7 `/ v( p9 N) {3 r

    + K& L2 k# ]8 V- A# z/ Y3 m即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    ( ~- L- G0 D% }2 Y6 W3 d- _5 {
    % \2 B! K; h( v6 `( T现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    0 i8 n" h& G+ m9 f另外的一个笔记本我基本上只常规使用搜。9 E& `6 K) D4 S- p

    + c9 F8 Y4 V& z) h6 j我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    10 小时前
  • 签到天数: 2716 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43" n& C" E3 {. G* X9 {0 p! M
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    3 s2 V' ^. C5 B5 y9 W
    ) a( c3 }! Q( y+ @- y9 H# I. R要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    : u3 Y" d! m8 g  i7 y) ~& C

    # D5 V8 N  w) c5 I' j所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    5 小时前
  • 签到天数: 2340 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:$ y3 x5 q! Y7 _# L9 E. p
    6 ]" O" U% O$ W. t9 w6 ]
    9.11和9.9哪个大! k! x: |8 V- M
    ChatGPT said:
    4 q2 \8 ?4 T9 [+ KChatGPT
    & T) i% H# M  P9.11 比 9.9 大。, ]$ o6 r- q- }

    0 h$ a% c. Y5 f; h9 b$ Z3 t8 B原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    2 D5 s! e( Q2 w$ s
    + l: a! ~% @2 d1 u9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    ( d) ?9 e( x$ W* h4 M& l3 ^由于 1 < 9,因此需要继续看下一位。
    * q7 ]9 {6 Q9 a6 Q( o9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。( E/ p) d: J4 p. k  h4 X, t# O* q5 f
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3567 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    & u: L4 p! K9 c9 X$ i8 p所以到底哪个更好?
    . h& T/ N$ g9 ]8 d; q
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-9-8 16:10 , Processed in 0.057116 second(s), 21 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表