设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1230|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 6 h6 Q9 A& P, O0 ^1 Q
    , f$ x. @1 K# B4 v* @
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    0 y) ?: O9 N# a& o+ o
    6 `, l1 ~0 B6 n/ J" K. j最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。2 H7 `8 R4 |9 c8 D$ `

    . P* I6 ]* p7 }$ g7 v& \$ ]: d: l4 k/ T6 @  L+ W4 P5 g
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    7 N  _/ V- F) a7 Z/ n# L; M+ N, S/ p7 x+ N

    & [, W0 |1 M- b7 a# q  c& k0 @' r# |4 d  t. c. _

    * e& n. y- a/ L9 U3 s& S% K& `
    1 C6 `, s, r# @1 a1 n8 l要么继续胡说八道。  @% F; g+ N; l
    , X# Q- g1 U  |4 V' s7 O

    3 M2 N  q6 n7 c1 B) o& V8 o9 _( V抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    2 ^( E" D$ P; X' }1 `; W- i. e3 t
    0 V" h" E& X2 H: ldeepseek速度快,结果也对,但是过程是不对的。
    & Q3 s% ^- X# s. c
    " }; \. B2 }* u7 l
    1 \  r8 p% N( F9 @& V! T7 X: E豆包过程比较绕,但是基本正确,结果也是对的。0 a7 Z# D- ^# R( [0 K& T: u5 d2 [
    ; r2 z2 U- r/ f3 x+ Z) g

    , p5 S6 U" Q& @6 t, g当然,都不如人推导的哈。; y3 \' E+ w% v7 @8 F

    # s1 k0 ~* p$ B, ?
    ) P5 i* N- l# |6 l8 A3 E: r+ |2 F过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。$ x+ m; W& o* ]1 u/ g7 \/ q7 i
    $ t) B# S6 ~9 q
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    % H9 N3 {  k* ~( e
    % T0 ?. v" d. x. O, h0 t" d
    & V; i0 @7 o% m' \( t4 z
    2 g1 M8 r% z0 G% h% @% X: U
    , `' M- v  w" _$ A" Y7 g% ]: }6 y- J

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. 8 R$ Z8 X3 o) T6 z4 w) b8 _; S8 u
      S/ w3 g/ C2 }" g* R( i
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 3597 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    / l* R! i' o( i5 D" _7 z
      {) d  s3 k; u& A5 u要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    1 M, }0 k+ ?6 J1 R/ e$ \
    4 O% [, u7 W5 ~% G0 U! E即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI6 h& ]/ I+ {; J( Z, L$ h( p
    4 A& x# P2 |# G7 y2 G* s  l
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;$ S+ Z* A" \8 S, p. m# G8 a
    另外的一个笔记本我基本上只常规使用搜。
    3 D% Y# ^4 T% u; i& J
    & z2 J6 r$ e+ u我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    10 小时前
  • 签到天数: 2761 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    $ o5 e. n4 n! j8 R; z! v  m我没用过花钱的AI, 但是我觉得各有优缺点吧。
    ; R" b7 V& x. X5 T7 `, K8 \* a( a0 Z; t% f& D" ]
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    ) O/ @' t8 e5 D2 W7 J( K
    3 F1 R# a% p! e0 N
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    1 小时前
  • 签到天数: 2390 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:/ }  ^5 ^5 N7 a: d

    2 w5 U* D3 b% v0 D8 E9.11和9.9哪个大
    8 Y7 e. |2 S8 q( F8 j9 ]- S( M8 W5 N- oChatGPT said:
    $ t9 g2 t. y; i& {ChatGPT
    ' a0 D) M0 g3 b/ M9.11 比 9.9 大。
    . V, g5 {$ n3 l5 |- w% a
    / ]/ d) w; V) M/ O4 B9 I# D  t原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:: L/ g& m6 b% N  \' B/ O5 Q# h, d; z, u
    1 J3 U& J( R! e( ^
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。4 X! ]+ V, R0 G8 U
    由于 1 < 9,因此需要继续看下一位。
    & k% T- f0 r. R6 f  S! b; Y. a9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    0 b( b4 m/ q% N- k6 e/ [因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 3597 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:557 Q/ r# M# J2 q1 W
    所以到底哪个更好?

    ; j& W: E  p5 `& H  p5 f说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-6 10:41 , Processed in 0.034574 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表