设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 585|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 9 r5 S7 P: p7 q# S; {- W% D

      }& t; o" m9 y5 I" D% I9 a& o遇到一个数学问题,懒得推导了。习惯性让GPT推一下。* F1 g( e0 U* ~# V6 ]

    & ^& X" N) {$ |3 T" p7 t最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。5 l2 p/ ]% }# U9 b' ~: W
    3 }# H5 r5 D4 v  w2 G3 ~+ ^

    % {/ F1 \( O) {0 F! M可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    # E$ o6 b* R$ {6 m0 x- ~) s. r, n* N  x, J

    ) F% V* Z. Q4 t# m+ n$ y% W6 B0 D0 f
    ) D) ~; ?' W- u& d5 m# V- _
    # h' ?9 P/ w! U; Z1 b
    要么继续胡说八道。
      A+ T8 s4 R. h* K# S
    6 U4 I. w' x; R3 e4 p9 ?$ g: y. l9 r6 A7 x  U) j6 W
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    1 {/ H* Q1 i- Q7 g1 h- X/ U  O0 U% J& E" }7 {1 G% s( M( _
    deepseek速度快,结果也对,但是过程是不对的。4 d: J; J& O4 h. ]! F/ q- [

    , H+ ^, b) f' `% v. G2 l/ X+ l. Q$ ^9 G( T
    豆包过程比较绕,但是基本正确,结果也是对的。
    * v5 |. [8 ]' l' \# @7 c0 L
    # d8 p/ O! m! h0 k# J" W1 i' K2 E9 n4 c9 O" D2 r- N
    当然,都不如人推导的哈。; ^; k2 m$ ]+ s3 Q& ~

    ' U0 V; P8 ]# H' {5 Z8 I1 z0 n/ i6 }! z* T, Y, X
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。4 x3 W: ]4 A3 O  L9 A3 q; e

    9 G6 f% w  [1 ]) o2 S. g' r虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    1 |( o. w6 v% X4 r( w. @5 z7 H2 S" c4 d) c5 }

    1 C: X0 Y  ]2 c. V& n! d5 c" a# v
    - l% L1 s+ J! U* |& \; Z4 k
    : S/ j4 W8 _' q8 ~) _! v6 S6 Q7 j# \9 ], T6 ~! Q$ p; @

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    ) E5 t8 e; {! A; D, O) j  N9 O8 t2 K
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3428 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    5 Z, I5 ~. \  x* ]0 Y* d" d) {( X! B$ ]  |6 @( r/ M! h
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。+ e3 ^4 [0 T4 b0 T3 d; H1 t

    * t& w  t5 ?5 J& d$ L即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    , E% m' Z- Y: W
    6 J, V  R/ y/ y" ?现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;: X6 k9 ?6 @, v: l1 y
    另外的一个笔记本我基本上只常规使用搜。/ D: s4 f6 Y$ e- ]

    5 c1 v+ n/ X5 w8 }& }6 R7 ~0 h我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 04:40
  • 签到天数: 2580 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    ) @$ h/ n8 |. T我没用过花钱的AI, 但是我觉得各有优缺点吧。
    ) J" W- m- V6 u# b( o3 H9 h+ S9 u5 n( E) K6 a1 }" f8 C$ [  }" q
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
      j; \; h8 ^( m2 H; |
    * e* L, ^6 u5 V* j
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 01:25
  • 签到天数: 2249 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    & F' H" G  c$ b. [" P3 c- P, m  Z( q. `( R$ i5 a! d( {# j$ Y
    9.11和9.9哪个大
    . k1 X: q2 B1 J5 \5 w1 T, QChatGPT said:
    5 t) u8 U; d/ h$ i+ @ChatGPT
    7 h8 [5 A; G3 F6 e9.11 比 9.9 大。3 u- u5 A6 n- x$ w8 s. F

    ( H/ D9 o1 Q+ b0 ^原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    % }1 [, I+ {* J1 j
    5 j# X/ q) J' c9.11 的小数第一位是 1,9.9 的小数第一位是 9。( ?  t: ]5 i9 G' W0 [, x
    由于 1 < 9,因此需要继续看下一位。7 d; b: a7 h. z. O" V7 f# E3 f
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    / l( I3 P4 y: o6 d+ m, [因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    3 小时前
  • 签到天数: 3428 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    0 T; Q. O  \$ {/ I$ y; ^# d8 B所以到底哪个更好?

    ! O5 F' l2 ^3 \# l0 j说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-4-23 03:45 , Processed in 0.034396 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表