设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 659|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    4 B4 l5 k- ~7 i% l5 {+ ]6 W. F7 e" ?) H, U( y3 e% I* G. X- t5 m
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    0 m. t$ S1 [+ k; i/ X" p9 M% y3 a) E  i3 z
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。, ~3 i+ {+ _, L8 A  u
    7 A- |# i% J4 V1 T7 c2 J1 l# J
    % l9 f; b$ w/ U) z3 @- L8 e
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    . Q- z8 k/ r4 d) R3 Y) Z
    , n1 U+ V/ ?- h$ i
    $ Z8 q$ y) a* z5 d7 r
    - @; v$ r  b: g
    . K( P# ~& C6 D+ @$ t
    + }$ s; k0 v  Z+ s要么继续胡说八道。
    , b: G  F( y4 G/ X2 Q
    8 K4 k" r6 u" W- W6 |4 g
    4 k$ P3 B9 S, d" T6 {1 l抱着试试看的态度,把同样的问题扔给了豆包和deepseek。: \. \% X  y) p* O$ [& i2 R& l

    9 s) K1 Q$ x7 i9 u$ edeepseek速度快,结果也对,但是过程是不对的。6 W; u0 v7 g! V

    $ o1 p: b9 J5 u$ j0 ~
    ( ]8 c+ s. z4 c豆包过程比较绕,但是基本正确,结果也是对的。0 z% ?* ?3 t! E3 ~0 H

    . J* f3 d9 o) |/ r
    * t8 O# o/ G9 D9 O8 v. M当然,都不如人推导的哈。
    % ^; f7 a% h% o3 ]9 b- N( u& c% V( n' w' S

    , M3 \3 M' J9 O5 h+ G( T. S过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。! E- o/ T& [: }4 p
    ' p' o; F3 q1 s& U# A- r! W; L1 W
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。' I/ W$ W) s& X
    2 d8 r; K0 p8 c8 N

    0 D: p9 ^5 Y  Y! i$ I3 q+ N7 v, C! O/ G% W: a: V4 l% Q
    $ S6 F4 @3 {; l& Z0 F& S$ i

    + g, U* w. x! U0 k

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    2 [; W2 R( K8 ?& ?0 f/ l  v/ I7 Q
    6 T3 n2 K0 u& t9 J9 t& _这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3452 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。  t! _: ~' n% R  u) ^9 J5 A
    : w: q5 o8 e/ R0 H/ z6 k  X# ]
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。0 Z) B9 q3 r- b0 ?7 t- x" t. F
    - u- \1 X1 b' E. x
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
      n, k+ W0 H/ Z' q/ H# s! |$ h/ O4 w/ h2 i- D# k; L  x
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    5 ]3 N5 Q5 a) \6 `0 F# B另外的一个笔记本我基本上只常规使用搜。
    / R" V& k& s1 _, |- k
    1 d% ]5 p  G. l8 l( P, }( ~1 r我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 03:34
  • 签到天数: 2604 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    ( T5 r; Y# J4 w我没用过花钱的AI, 但是我觉得各有优缺点吧。
      m, A0 E2 _" L0 v- V/ ^! \4 b$ s+ b+ T; T# s. v: S
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    ' x* n3 g( h. k& F# z  h3 b( d

    7 x' i, S  K: `# j# N& ]所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    5 小时前
  • 签到天数: 2266 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    ' q0 H6 `" Z  Y: d4 H
    , [+ x- M. p! ~3 y" Y8 |9.11和9.9哪个大
    $ H' q2 n. r6 E* ?7 }% rChatGPT said:+ ^8 t6 j5 v0 p$ O
    ChatGPT
    , f* D+ o" v$ h3 Q5 f) @9.11 比 9.9 大。
    4 J) q" Y7 s/ p& K! z& A& O
    : ], ^$ M* C5 }& g1 m7 s2 O原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    : V% k; D/ ^# x6 c/ [/ |% F8 j) b1 d8 R( x( \9 G- O7 b  I2 e% p
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    8 \" L9 u! {! |- J. W由于 1 < 9,因此需要继续看下一位。
    ! a5 N5 ^5 P" d9 B0 B9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。7 @. M2 T( z, |$ w+ ]  q
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    6 小时前
  • 签到天数: 3452 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55. u5 D6 f1 i0 n
    所以到底哪个更好?

    6 n  F2 u# w2 |说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-5-17 06:45 , Processed in 0.035750 second(s), 21 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表