设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1901|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 . u9 q4 K6 D$ P4 H
    7 d4 K- ^# W2 p) p/ a, e  k3 F
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。! D  u' L- y1 o

    - b* R8 C5 G8 k' S* S5 o/ y0 k2 f最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。$ ?4 v& v; V! ?* F: p7 M" q$ \
    4 k, `# w2 u9 R8 l
    4 {8 e1 d/ q# l! w/ \
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解$ x4 q* m, Q- {

    + b- Y: ]% T; o5 @: c/ @! C* r0 w
    ) |6 k: B. u. Z1 x% c/ {4 y. a9 j
    & f2 Q# Y4 t( h; a8 a5 S( L, H3 L+ D' |% {: v. @% {  X% m
    " v$ I1 A" V& h+ i7 C
    要么继续胡说八道。/ `- n) F  [0 h9 n6 [6 I9 B
    # l3 U1 {- x6 q* F/ ]
    . q- q; Z" ^. `
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。/ ~; v8 s7 g; T6 {- x1 w
    . ~% Y8 M* ~1 i
    deepseek速度快,结果也对,但是过程是不对的。! U* g; \+ B- u3 ^9 F$ m
    - p& S7 \7 l9 J/ U+ l1 `

    * R' j- M+ ~  E  T1 j3 ~0 K豆包过程比较绕,但是基本正确,结果也是对的。
    7 u: Z  G4 [/ B* D7 t
    2 v7 P$ `% |+ i. `
    6 @# a* k% W; T6 Y当然,都不如人推导的哈。
      g8 @2 ?! B& Q9 F1 j+ J
    9 T) t. s  c9 Z0 D. I  C6 ~' y1 O3 k+ o) t+ M
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。; c% s  z# H) p2 R, l+ D

    8 S' u% P6 _) ^: Q) F  ^2 V& \虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。6 F' K1 Q) K/ F1 _$ R
    ( a+ z% A) s) |9 \; e5 p4 U
    $ b1 M( d" z4 ]% c0 Z4 z1 G/ W
    2 [# L" z. t  k# `( q3 D  X! u8 U8 ~; p
    5 ~, e5 ~9 v) X7 o8 m- x

    ) ~5 t% y& a6 h4 @  a* O

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    , C5 C. `' L) ?7 M  z- z7 G- i$ C2 z; ~& M6 D$ z, W
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 3808 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。( @4 y/ _0 c) e2 v' H% Z

    0 Y1 w7 x% G0 H- ^/ ~- `1 e要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。/ c/ p" @2 S, V- f) \8 H
    5 ?( _2 ]; x3 [
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI- e' M* Q, U2 [

    + a* F; I8 X% T9 b, I+ I) E9 g) P现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    ' ^: v* l* Q* ]6 u8 L2 z另外的一个笔记本我基本上只常规使用搜。
    # A+ S5 r& Y4 }2 p5 p% A3 I; q+ E
    - B7 ]( z( Z9 g4 H$ F; W我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    5 小时前
  • 签到天数: 2968 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:430 t+ f$ M+ Z  _6 P8 X: S1 H$ @: M0 ^
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    & G3 H1 p( r  o6 r1 z3 \- ^8 @+ o% h7 e8 L
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    % y" p% m& ?3 }! X
    ! \. n  K, D7 g; x7 `9 M. k
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2 小时前
  • 签到天数: 2576 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    " o4 R0 W4 F9 o7 [& t  L4 P( J6 ^9 R/ `
    9.11和9.9哪个大
    8 j! ^8 f/ s( [7 v% DChatGPT said:& t. Q% T8 k* F4 m
    ChatGPT
    $ G: Z$ _& p; ?; M% X5 ?: r1 ?9.11 比 9.9 大。% j0 D8 t" X* ]+ s: Z4 ?  p+ F* l
    1 k  i) l& g: E6 F7 c' p4 z
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    , j, V' g! {4 g- y1 q3 L: |; ^* i( `9 }* ?  s0 B" v/ J3 E$ {. x0 B, X5 E( U
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    & Y0 Z3 `! k1 f- Y1 L* m2 o6 l& `由于 1 < 9,因此需要继续看下一位。, u7 a3 h3 G; z5 _! o
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    2 v+ e2 T( ]5 S9 E$ {因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 3808 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    & o5 r: L3 m1 Q$ I6 \! X所以到底哪个更好?
    4 G: C% i# X% Z: f+ D
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-7 10:13 , Processed in 0.066420 second(s), 21 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表