设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1501|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    - h/ A( ?- @/ A9 U7 [8 v! y6 f: J" \4 R$ K
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。7 c1 |/ V2 C4 O% E- ]6 P

    1 a7 S" |0 q$ |  ~最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    ' E! P2 M) a4 ~- ~6 R7 L
    6 A' p" I# U) L0 F. V
    " j+ E4 E* K. C" D可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    ; ~" Q8 a& r6 m" F
    7 e" f5 ]9 h5 s' k6 j0 Q* ?8 e4 d% F6 ]% r, Z

    " s+ [" @6 _3 j! {, C. ]) r" i+ q

    ' I6 S! [  O! E; w要么继续胡说八道。1 y* T/ j& i+ v/ G* v3 \: f0 x
    & o: v9 o! M$ g8 b3 h0 J
    2 _- d9 K1 m/ y; S( c- Q
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    ; _8 y- U& h  w2 @# L- s7 q$ o2 N/ g5 Y3 j- t- _5 z
    deepseek速度快,结果也对,但是过程是不对的。
    " F" O; W. T& Y, ^
    . C& h9 a5 W5 K$ q$ O$ l0 S5 f
    5 g5 Q5 p; j  J: F: Y4 o! w豆包过程比较绕,但是基本正确,结果也是对的。2 U  D, N+ a  {2 s; ^. [; `9 G- X
    % W7 ?; G2 V* Z  O% u
    4 B. i1 e/ w; H: w7 g; L% U
    当然,都不如人推导的哈。
    3 n9 m( Q% A$ l& o- U
    ; L) b. Q; z8 p) R5 a3 l2 [; p. k: ?$ }* A3 h
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    . m  q. C6 _, I! A/ a* T1 N. f
    ; M5 K/ N' g4 n; h7 @$ B( H虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    9 c4 m0 v) R/ z# q2 |) B: L/ L; \& k- K2 n$ t

    # K! f! p: p7 P
    . g0 G; E& \9 c+ q7 Z5 C, |5 q
    / U. }0 v7 z, `, C3 X  D% i  j; I7 @( |1 g1 \( V/ z

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. / A( K7 l6 r; {! |/ S8 N9 X; h

    1 S+ I0 Y0 |# U/ S4 s1 J9 g这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3685 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    * q1 c, z& R" n% R5 z5 E
    3 b" g3 _" _' |0 L0 |要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。# E0 S# A3 \% T9 V: c7 f. Z% D$ D
    5 Y1 u; Y( _: I" l+ V# r+ a: j
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI+ v. e; V% ]7 r$ f5 H: P% c
    2 i& w$ D7 C: Q2 e
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    2 k0 O/ J5 m6 c; K$ p另外的一个笔记本我基本上只常规使用搜。! y" i2 e2 s# O$ g( N

    : D3 |: L9 m9 l2 z5 @' V6 z我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    6 小时前
  • 签到天数: 2846 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    9 X$ d6 Y5 l# u5 p& X8 `我没用过花钱的AI, 但是我觉得各有优缺点吧。8 R4 ~* J& I: P) Q. f/ S: E
    4 k- t/ d$ Z) T: [' l0 O
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    - O* }, ~( ]: G; O/ T

    + \! k3 P; |- m/ k: T: }所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    3 小时前
  • 签到天数: 2464 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    ' P  p# I1 h& N% h
    1 u- X: I% N+ J" g. p9.11和9.9哪个大
    1 o, _/ R' V3 V# F; n5 UChatGPT said:; T* m1 J+ ^& g" T7 X  }/ C) g
    ChatGPT
    . U6 I* L5 L0 i/ A2 S5 Z; l9.11 比 9.9 大。
    2 e. m* t& a- l5 J+ p  e& _* }; }, P, z- R' V. o8 o9 Y) P
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:$ `, z7 V, i0 n) q4 `7 f
    " h$ i, x/ D7 B" `1 \
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    * a5 H1 ~: Z( R8 {2 b2 ~由于 1 < 9,因此需要继续看下一位。  q6 p- ~9 w, U+ i. s$ C* G! w
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。  x) ?! ]4 ~& P6 w; Z4 [( [
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    8 小时前
  • 签到天数: 3685 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    # a. B$ H$ ~; b+ K  H) @; T% H) o- M8 ]所以到底哪个更好?
    6 n' X+ r% M% e. V/ U4 K1 r; I
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-2-3 09:01 , Processed in 0.062557 second(s), 21 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表