设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 421|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    ) F' |8 U( P. Z+ e5 g/ S& k7 p: T- L3 k, [1 A+ ]5 R
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    " o: ]" v# X4 @9 u, J- `$ p& L8 t" G/ ]8 w" L# \8 Q: X$ d# K0 P
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。4 P+ b/ v  q+ r' [. y( H

    6 N% p; X' O: q' s* V7 p
    & z* Y4 L. h# n! @0 g2 Z可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解' m+ f7 ]( P) `$ [% u

    2 `6 n# ?3 u8 R9 y
    3 v- `( M8 U0 `, h; j0 ], X" y4 {/ u+ W4 _1 `9 \

    / A+ f) J0 {7 d* @# t! Z5 U# e
      N4 A+ Q& h( }  i要么继续胡说八道。
    3 R5 l, M9 u6 r7 q9 P; Q, R% b" c3 W1 b8 p! S# V

    & j  W6 B( j. k抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    ; c9 I' q; ]4 t* z5 x+ j. g  A7 c4 @/ k6 F0 J
    deepseek速度快,结果也对,但是过程是不对的。
    - i# x0 L" q  z* }5 Z: S9 n4 `& B
    ! |% m4 e( x% ~9 x4 N% s2 M1 m' |9 b1 H: k; ~" U* t
    豆包过程比较绕,但是基本正确,结果也是对的。
    , T# I. [- d* R; B0 r" n. Q" h  m1 s* m
    ' R% @7 ?3 B' M+ ?" |! o/ b4 ?7 M
    当然,都不如人推导的哈。2 Z) Z2 v% C& I

    . c" L& l6 D5 Y3 O: Z2 N0 I5 L# i& l/ _* a! d2 Q2 D# W* L. O
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。% N: p! w+ ?5 R. F

      Y) h6 T; v( P1 ?% a* |1 d虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。6 Y6 x* L+ M7 |: H* y

    ( e! m# b$ Y3 j8 y* t- G0 o' v1 H: j
    3 S- `% p9 I. }" ]  g

    - r$ l' J3 x2 d4 g3 r' {2 K
    " |& i# G. L- |1 I( j

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. - O. k" d. J) o8 q( z* k9 h3 U1 ]- I

    . g/ G3 a2 H3 A  k5 q  V) L这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3370 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。! B) H1 i6 ]& |' f9 P
    5 k) ~- h$ G0 O
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
      i7 V/ ^' i6 H" _' w1 _: y
    8 D1 ~! J$ F; _即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI8 f) x( y7 }" g$ u4 ]

    3 z7 ^. v$ s, G3 [% L现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;. y' ~8 ]& o7 }: w2 O
    另外的一个笔记本我基本上只常规使用搜。
    & n  `3 m* D$ f1 C6 }3 C7 ~1 F: c) w) K6 h8 C. l  f; G
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    10 小时前
  • 签到天数: 2530 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43; @' v/ y7 {& r. v# v4 W
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    3 t2 B" g) n+ W: k( B
    ( _4 P" Z& o+ Y: _# U要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    5 g+ K5 ^- }: I1 }
    " E, _" V) {) C9 m( u% w
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    11 小时前
  • 签到天数: 2217 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:- ^" ^6 g7 q0 [2 w( ?
    " d5 a1 O! n9 ]/ o" d
    9.11和9.9哪个大9 ~6 \- R- L2 K9 ^
    ChatGPT said:) v4 s  \9 ?8 X
    ChatGPT6 x7 p6 a# S6 x. |; m
    9.11 比 9.9 大。
    4 T7 ]4 F" H0 R* P, s# J
    + v: L* i0 E4 ~: _4 a% ~) E$ X原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    ! U; j2 L/ Y# c8 C2 a( v
    3 ]" r" G: P' Z) m9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    " s: b$ W/ @1 O/ R/ z) O由于 1 < 9,因此需要继续看下一位。
    5 L8 I" P$ q1 p# ^# d2 n9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。' d& ]8 P8 g8 ^6 \: A
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    11 小时前
  • 签到天数: 3370 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55) ~6 i" h- b& [9 ~$ n
    所以到底哪个更好?

    4 Y8 A' v. l* z* j6 h0 C说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-2-23 11:57 , Processed in 0.036729 second(s), 21 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表