设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1390|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    9 t: v  D6 |' Y+ g9 x$ \( n. I% z. b; m/ C5 F
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。' [# p" A2 C/ b' V5 `

    ; v5 x: _! @6 M" p/ t最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。, y& p# P8 K" x- a
    9 g" U; i7 R$ n2 |4 m/ F- b

    ( h, z5 S, T3 Z5 x/ D0 q1 C& Z可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解- c) G, t, @0 t$ t
    $ q: h* ~6 r% u1 Q6 ?* _
    : p7 H: }5 X  s, ]& o

    7 g1 T5 B" w  [  c  F7 P
    + C7 S# n" f2 z8 M8 R& T& z8 ^4 c. e% _1 S7 e- D. K' m" n7 |
    要么继续胡说八道。
    ( Y" G+ K' {3 u2 z3 e
    ( A& E& N% V0 N7 R9 A) @, i) V) G4 ]  J! x8 y! B) ~! }
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。  T* y1 d6 L& @4 s3 c$ i
    - K' n# z6 m& ?- e" `
    deepseek速度快,结果也对,但是过程是不对的。3 B' G/ e7 z$ u5 K  l  F! e

    , O) c. w% |/ G8 f3 j
    # ]1 m" m2 g" U; G, n豆包过程比较绕,但是基本正确,结果也是对的。
    9 R5 y3 |! z; B# ]% A' Q. _
    7 _  F0 X" G) }0 r4 ?6 J) I+ O2 _2 |% V
    当然,都不如人推导的哈。9 L0 n0 `1 E! X* |8 q0 t
    $ n4 ?+ J2 X) D: W

    % U6 D: X6 |1 X  e- \3 K% r过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。5 S6 t2 m- r& X2 P8 D' ?+ [% \8 \
    & \4 I- r+ N8 t- L
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    % ~' h8 ~6 I2 V* n( \! D4 f5 i% K$ z2 Y3 t+ ^; V9 D
    # P  u: B8 D- r. T) x

    * }4 }5 \5 v# f( C
    0 v2 V; v' a' z7 [# U! N0 i) _: J/ ?" s. U% V

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. : Q/ ?4 W4 J, U
    ) r- |5 z$ T; y( d5 ^2 p
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3640 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    . @% o( t; B7 e" ]" ^0 F  i
    2 I# C# ~9 i9 w1 p7 v) O5 m4 ~要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。- j5 H9 P+ _5 b, _/ ^2 w5 f

    : u8 a# `' D! Y- P. f/ N- H$ k! n即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI+ v& I: I4 y2 R; C& g

    / J, e5 ^% t8 }5 Q' l- J+ b现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    5 a, x! a/ o" Q6 V1 u! L另外的一个笔记本我基本上只常规使用搜。
    : N6 a, Q8 z/ M$ k$ M+ f. D7 {& L; i( C0 _
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    16 小时前
  • 签到天数: 2802 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43- _4 N# ~. p; N2 P" Q1 x
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    9 u6 `9 n! W( X! Q! p0 ~
    : }6 M5 n, X' C6 h要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    1 M; [0 S# N* |% |* S4 Q) f- _- \; J3 S. a0 t7 ]5 R8 p1 V8 _
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    21 小时前
  • 签到天数: 2426 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:$ g% o- ^$ O' l/ j  U
    % p: O: }8 M, d* s, Q% _" Y: ^& Z) v
    9.11和9.9哪个大. \- G  x* s: N) w+ f
    ChatGPT said:' v5 N; Z! T% u+ Y4 G# U! `
    ChatGPT. B& @$ h* `& `* j
    9.11 比 9.9 大。
    2 [# n7 D! t; \: m8 t' G+ n3 m# P2 p, D4 h1 X; E% t
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    $ z1 I. ^) n6 b; _* E, F; v# s, h5 U3 y5 o3 h7 y& x- P
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    ) u, p2 ~+ d' w; l$ O# o3 s由于 1 < 9,因此需要继续看下一位。- G  V& o* \# _' m0 y
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    1 d9 L/ M' o& s, ^" i; p因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    21 小时前
  • 签到天数: 3640 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:554 M7 X8 K( n6 v# z' u
    所以到底哪个更好?
    " c8 O. I  q  A
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-20 21:56 , Processed in 0.032310 second(s), 21 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表