设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 667|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 " M' D( E' w8 B

    8 n9 Z' g, V( @  p) u2 u遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    & \/ J! A" |' j9 Z1 `- c
    : i" h3 W8 n$ X! i/ x! ~最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    $ V+ z) H" s* b
    ' c0 J2 x8 h3 x% }
    ! f# z% c0 S+ j+ @, d9 c/ u* R可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    6 F4 z9 d5 D( a
    ) _" [5 v/ T7 {( E% q& v' |1 X- K5 N+ \/ Q' r! U

    / P# A0 E  C, e! b
    1 B) v& E9 c( H* J: H2 f
    ) b) {6 \6 V- _" g  {要么继续胡说八道。
    " |% I2 Z/ [4 v( {: V2 Z; n6 M0 _: @/ r

    1 z8 E! _$ v# m, k. K. E抱着试试看的态度,把同样的问题扔给了豆包和deepseek。) u* l: j+ Q3 r7 ~0 N+ Z" n, B- x

    " ]( A4 ]+ e4 P. `$ g' \& Sdeepseek速度快,结果也对,但是过程是不对的。* F+ z% w. ]: Y; J, {- B) B

    : j1 c% w' D3 L/ j
    ) ]( L9 Y/ w; H; N豆包过程比较绕,但是基本正确,结果也是对的。/ i1 h  J, r( W/ z" e$ c

    " [) J: R) P$ `/ M* g* K
    + [7 g. P$ ~& |9 P' r0 k当然,都不如人推导的哈。
    ' }% o! @+ v0 R
    4 t4 \- k1 P: c* ~1 n9 k+ w* ^0 @  p( [+ ]" V# v0 W- @' {
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    7 h2 w" ^9 r* R( I: H; v
    . R. Y! r/ x3 l1 @! o+ M6 T/ r虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    ! E+ x/ n9 B9 }* l6 }' t
    3 k( M) j1 a6 d* D
    " m/ [; }# B; i1 N7 }6 A$ J3 r9 K1 N. n; o
    2 A1 ?+ M# S1 P3 q: R

    - I+ h8 j9 @' K6 M+ b

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    ! z: W  [% r/ E. W" h
    2 l: j# |& d# K, X# Q% f这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3453 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    ( d( a7 m; w* e3 {5 z6 Z% |' z. v
    / `. y+ I: z2 d& I! t' A9 C要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。" e5 |: s) z/ f7 s

    / t  _+ ?& W. g, v即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    % T4 W' r2 X. h0 S- y$ O( U6 r, m" b% Q
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    ) i7 q6 S1 ]; U另外的一个笔记本我基本上只常规使用搜。# w" L) ]2 P3 U" R( F; j) _3 ]
    - \) Q1 @) L, C6 K" E. g3 A* V1 x
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    16 小时前
  • 签到天数: 2606 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43( c" {2 v5 |- y) _' h' @
    我没用过花钱的AI, 但是我觉得各有优缺点吧。& s! q9 Y0 y! f0 L! g) i
    1 h5 O' P% J; l+ o
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
      L0 c- N3 o1 v, x; u+ q
    - T4 \2 q+ g6 p4 q$ H
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 01:03
  • 签到天数: 2266 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:5 X% W) h5 o1 V9 Y8 ~  K) f
    1 T. Z8 t3 G1 D$ F* W# f7 v
    9.11和9.9哪个大. |+ }" ~4 a5 U" q1 Y4 }
    ChatGPT said:# r, _* e6 t9 f; C5 y/ Z; `
    ChatGPT
    ) y1 D: J" J: R3 e; X6 N# v& B9.11 比 9.9 大。2 x9 F2 ]8 Z0 Q/ e* ~
    1 X( V. O% m- |9 V: H
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    . s4 |  F( c4 L; r" l
    2 P: y% q5 f1 T$ Q  r7 f9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    " g. B. d( ?/ o' E! G& L% e由于 1 < 9,因此需要继续看下一位。' S6 B- g+ @' o) b0 }* }
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    4 M& f% n' `2 Y( T因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    16 小时前
  • 签到天数: 3453 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    : Q2 P  N% `8 L- ~  e, q5 D" d所以到底哪个更好?

      _: Z# h9 F7 O/ G3 V& v' \) e" d说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-5-18 16:46 , Processed in 0.033617 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表