设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1769|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 ! m; \6 T4 K3 |# C
    7 j' c: s1 w. C, R) I+ Z: Q- Z
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    , q) z/ B& L, ~$ ^1 L
    1 x! g" q' M: O" E0 S' ]+ |4 ?4 ^9 X# N最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。) u$ Q* S% @; C" x& ?$ m7 a. X

    3 [# x0 a% H6 B8 ~& n
    7 v/ r6 u' E4 @: J) J) [. f可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    ' g6 Z2 t5 _. @$ d: F. z6 U6 R3 r$ e" w$ f# F! C

    * F) s/ ]3 t/ K7 _
    ; B- s7 x- B/ E3 G
    7 I( C1 L! ~+ f& @+ k5 y. ?, n/ e4 o3 k* X' Q$ \$ d' N
    要么继续胡说八道。
    & h2 i7 G1 p2 r+ k3 X2 H6 X# t6 r% p% [$ p- q

      `; w8 e5 N( r+ ?3 o) V+ ~抱着试试看的态度,把同样的问题扔给了豆包和deepseek。2 e* i% }1 }$ g/ \6 E
    2 W, \" Y( @9 e% M. u
    deepseek速度快,结果也对,但是过程是不对的。
      k1 D9 r1 W' W0 p5 Z+ [& P+ L$ K, y* T( A) Q5 @3 T8 _
    0 \" c3 j. |" _$ d' n
    豆包过程比较绕,但是基本正确,结果也是对的。2 B* l* ^& t! l7 }  E0 w' A+ y

    . H7 u9 Q$ Y. H0 p' f3 X1 l( c8 W" [; K! h* F, q3 B; {: H3 L
    当然,都不如人推导的哈。
    ( `& Y  K4 s8 S4 O. P8 \0 {
    8 |  R7 X3 H/ b/ U6 x' [
    % W& f, l7 B: k/ Y. ~. Y# l过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    ! C+ h& ~6 A! V* D1 \9 n+ Q% H! @, u0 r' J  N# F" t# }, L
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    1 g5 n, B/ ]: `& g; ^% |( [3 R! d; T1 Y

    0 Q' D/ U5 x( c1 R! \8 p  T! h
    - _4 k2 @( q: [8 q/ o8 T/ g" R/ s( k7 q! C0 Z3 L6 l7 s& E$ k

    2 B$ W9 n5 M) F0 y+ t

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. / I( d" k) G9 H
    $ t1 G! `& R/ Y# M2 k/ a. r$ i
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3767 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    1 H/ o( B( |% u9 s1 m$ Q6 g- @! P- I
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。' p; _8 f- @% v( f# W( x$ r" W$ |
    , n7 I2 |- D( \% Z% B1 _- a1 G
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI& x. _4 K; V1 k2 b
    * d% M: K$ u  I8 p" ?. ^3 B% _
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    3 h! Q5 H  m" ^另外的一个笔记本我基本上只常规使用搜。
      g( f1 \/ h3 k. l' S2 T9 B# O$ g6 x0 T" ^5 k/ V
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    4 小时前
  • 签到天数: 2928 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43, f- f4 O& M# J: n0 n" w
    我没用过花钱的AI, 但是我觉得各有优缺点吧。, a; S4 P, }7 _" d# n" ~
    0 c1 I! }. I6 C0 G/ n/ z. K
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    , F! T) G: K. U& ]7 D4 B: g9 f* R
    " ?: ~* p% p# C1 S2 A# L9 e# }! S所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 03:57
  • 签到天数: 2538 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    2 N' v+ q  a/ g. R
    - x, z3 E1 h# x  K* N% e9.11和9.9哪个大3 t9 L# K0 Z8 B7 n% {# I2 J
    ChatGPT said:
    ) ?' v) W# o7 H8 w- {& m1 p2 y* k7 JChatGPT
    8 }2 p) @7 }3 p+ l7 M9.11 比 9.9 大。+ I$ y; j% Q& R/ m

    7 U: H1 r9 }/ o0 e& K: I原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:2 W( b7 h; D! ]/ |7 d1 g' l

    $ f+ m6 u4 J1 Y* P8 F. s1 s9 d0 ^" R9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    1 u0 W3 C" l: S. `7 @& I6 c由于 1 < 9,因此需要继续看下一位。
    3 ?) b) T; T% f* g4 M+ c; t9 g9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    7 c. N$ x4 ^# w9 B" S+ `, q4 o因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    5 小时前
  • 签到天数: 3767 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    , T. k/ y  G. M& v, G  k/ Z所以到底哪个更好?
    " \  K; c  t, d
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-27 05:04 , Processed in 0.058812 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表