设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 528|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 ; z& i) b% r8 [( T, j, }
    + z* @9 D2 |" F
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。' o0 s1 j' Q  D8 @5 V/ b

    ) _! `! f6 c( y. n' i0 {6 X9 b最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。8 V; ~8 T$ Y  I/ w) B" E8 S- S9 \; X
    5 s7 |) d: a! Z0 G: b: X- x9 f

    3 n8 L! ^( n8 F1 N可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解$ ~1 h( V8 [. ?7 I* T& ?
    ) Q$ X& S2 X. r. u0 t& }
    : T6 e3 X3 {' X% s1 P$ H

    1 l# H, ]) q8 Z  Y  ?: M: S. I9 ~' Q$ o& d9 R
    % Z( J+ ~. X' H4 q1 C
    要么继续胡说八道。
    2 o6 Z9 T: w' E( C0 a9 |# D) G  F' X/ i9 l+ v. m
    % }9 B% k, z9 {
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。  n  w  _4 i9 O

    5 u8 m+ b: ^& ?* u2 Wdeepseek速度快,结果也对,但是过程是不对的。
    ' h* W2 \$ V8 d+ s) D( F0 T5 C9 {+ d2 R" k3 g4 E8 z* t( o& v
    9 S# b- u5 U' W3 e& t4 s
    豆包过程比较绕,但是基本正确,结果也是对的。
    8 M4 Q' a: i) j, R1 l9 Z$ R' V: e3 W* x3 s6 J& ]: ~# O0 ~# m
    7 _; O- q& w; W& K
    当然,都不如人推导的哈。0 L- R1 Q/ i0 s+ s
    % K+ g/ B$ \5 P3 V

    - @6 O0 Q- a1 i& I  Z+ e过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。! Y$ H. \1 Z, V( D8 ?6 A: n
    ! I* s9 n2 @& v$ V0 t
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    # d0 e4 I6 ^& i# F. `( k+ S1 r2 }$ X( }& ^

    , G# W, i" P5 h4 h8 v+ Q# p: v. e4 J! m& `' g: l

    6 O9 F. ~5 {3 G$ t# k, V
    , m. v6 R. I8 N! V6 S* R

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. % g6 I/ S1 u# B! G  ~. x
    8 R7 N0 u1 ]  r$ m
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3407 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。. t! P2 _! O- B, d

    + A: u- w9 c: U要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。6 f# m1 h# z. S8 l

    8 [' _  u  \. x. `即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI3 ~% \& i: ^( l) R: |

    6 q/ P, ^  l6 Q! |0 i' X现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;9 w+ |  J2 k1 x- u" Q+ G( B
    另外的一个笔记本我基本上只常规使用搜。: R, q/ _, U1 K2 I7 Q7 C/ @

    ( u! U" q8 x# ]我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    11 小时前
  • 签到天数: 2561 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    ! G5 U) N$ u  i$ p我没用过花钱的AI, 但是我觉得各有优缺点吧。
    % i9 x/ t! P+ {' p$ |; N' d: D1 G% @- _4 @7 d* L
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    ! N4 |. x( H+ w2 K6 @& U4 n' k9 b, j
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    15 小时前
  • 签到天数: 2237 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    2 d1 M9 U' P' m7 h) {% o/ x" `% [: ]$ H6 h* D
    9.11和9.9哪个大% f+ `2 m5 ]6 n7 ?8 i7 n$ G" z! q
    ChatGPT said:
    7 ]; j# \2 V2 i+ W$ u$ hChatGPT* J: ~4 J7 s' R! y& }
    9.11 比 9.9 大。
    % w- N1 ~5 f- y7 k9 e8 ?& R3 b
    ) |% x3 G! S8 x. ]) J; m! m; c% D1 W原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:, _7 [, h* @  t$ i( M
    9 i  ]! b% `0 u2 L6 X! x$ X
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。% B" a  |3 M2 F0 j; T  [+ j; ~
    由于 1 < 9,因此需要继续看下一位。
    4 r9 O8 v' K: f: w! @! @9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。( f) p  d; d/ k1 o5 H
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3407 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55# }, G% e. O# g7 F" ?' R6 h. u& M
    所以到底哪个更好?

    & S2 Y& n6 _/ ]6 ?说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-4-2 16:18 , Processed in 0.037885 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表