设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1637|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    " \/ ~5 A! S3 ]8 |4 j8 O7 b( L0 _$ H% z  g  C: h3 b
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。: `( t6 J0 z; G0 k! p

    , B, r: V" |! o' ~最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    $ D- t1 G# N: G
    9 N3 Q0 ]4 W) u& [' t- C" O. ?" \* s
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解3 ^' b; K, W$ n# t7 o# Z) x
    " i4 x6 r+ z  y' J. R% x% V: ^
    9 R5 n8 D+ G6 S* r2 _, a: d& q9 Z

    ! @/ V. f1 c+ c+ y" R  M; k/ D  U3 |
    , ^) [$ K; z9 e5 I3 W
    ( y0 T2 L9 w3 N0 J! h- @+ B要么继续胡说八道。
    . `; O/ P- p2 r3 P( i9 S8 e+ V+ e  ]' |! ~. }
    7 f; u9 b2 C( d' k" E
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。7 u/ q" N. ?0 o' J5 j! ?- h' B

    2 K, B$ p- r. a4 k( Q: Xdeepseek速度快,结果也对,但是过程是不对的。, U. @4 z* {5 `. F3 S
    ; F, g0 J% J+ A" |7 f7 f+ v
    $ p- H2 a; s+ }& e0 u4 ~
    豆包过程比较绕,但是基本正确,结果也是对的。, q4 A/ u6 e* W0 c0 K2 u

    , h  _! w" h/ u9 l. L  f6 C) G, Y+ O$ L6 [1 }1 A; ^8 `$ X
    当然,都不如人推导的哈。
    * F5 H5 Q1 x5 H! F2 s( n" j! F. W0 d! h0 Q* H# w5 d- J  F

    - T; F$ v# f  A, \过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。( v2 P. [& S& o! U
    # e1 k  e; Y" C4 E
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    , S& ?* |2 y4 o# ?! N# k/ {4 L) r" u. r$ [3 j* n- w* q
    : Q+ r! o, B( H! {. H3 z/ W
    / ?, Y( {, s, {1 Z

    " a9 Z, v0 d+ e! P. ?  A- h, r3 ?

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    5 b1 @8 {; M5 u1 a% [5 P, M  s6 m: V0 I
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    20 小时前
  • 签到天数: 3725 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    1 `1 C6 g5 n9 u9 e6 }* d3 x. e' _% L4 |( w* I, w& W
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。+ r: c  X; I$ j+ ^+ u( N' y, l
    : k5 r& ^1 l7 w+ z. ]" \3 m
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    1 ?: s5 U/ a. G1 D: v; b6 Y' C% P5 x3 |) o* \( k* k
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    4 o  Y/ d8 O3 [# i另外的一个笔记本我基本上只常规使用搜。
    # T0 D0 }, e, ^  H# s/ x5 @; Z0 ]0 H$ c5 T  @) G6 E
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    15 小时前
  • 签到天数: 2886 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:433 @2 q' ~+ W$ k; z9 L' e7 N' U
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    2 f( v: c( @  R" X5 U: ^, G7 n; U/ _3 h! U0 q+ n
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    1 s0 {* i; C' n. e; v
    7 w# F. h9 X4 T$ s6 h. L
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    18 小时前
  • 签到天数: 2499 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    & O. l; N7 z0 F/ x% r% _3 V* p6 Z; I& h( a+ ~6 W5 K2 Z: _) i
    9.11和9.9哪个大) w( b- _! m) P0 x3 b$ {, K
    ChatGPT said:
    - q2 i7 ?, n8 N& \7 h% ^0 DChatGPT
    4 [. Z% K+ @* j! Z9 ]9.11 比 9.9 大。: R6 w  ]+ a& i( q  N; d

    . v* u; \8 x. [2 B原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:1 P8 ]0 d( M. B+ e9 _8 \. L

    " ^! b; A; E2 Q/ A3 f3 Q# o9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    ' I8 l* n' a! u" R由于 1 < 9,因此需要继续看下一位。
    ! ?$ T+ J& W) ~' X  ~9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。, T; Y9 B+ L: h' N
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    20 小时前
  • 签到天数: 3725 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55. ?/ g4 |+ k1 ?: ~" x- E; Y
    所以到底哪个更好?
    * M8 E9 ^) T+ g1 p2 {
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-3-16 20:06 , Processed in 0.058528 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表