设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1903|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 & L: d5 h  D5 e, ]1 t

    8 k  H% e, A7 a; A( ~6 T* v# ?遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    ! D' \1 o, G4 K5 h1 l9 `
    3 ?$ t% B1 ]! I6 \1 A: X( i最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    4 j9 M, L! L! o# f( `- W2 d2 @8 |+ M5 s" n+ X
    5 q) x2 y+ d& C2 }. Y: w  ?5 G7 i
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    1 i$ ]8 I5 w7 z8 ]$ w* }" v3 w* f
    1 m) X* b8 w3 v( ^+ Z% h
    0 M. L% g. s* C  _3 w8 b$ c% K, o- |
    1 l  b. @  p+ @+ l3 O1 b4 F  e! d- r. A. m5 m
    1 w% [( e# p0 e# d) S2 M1 d
    要么继续胡说八道。2 W. X- E! A+ T* R4 \  S. {( D$ H8 M

    % F- [" \, K2 U  g3 Q6 ~/ R( b
    . Q+ n0 c+ E( Z  ^" H抱着试试看的态度,把同样的问题扔给了豆包和deepseek。2 n$ `/ f! a+ R) A$ o2 Z5 u; g

    ( I7 e6 L4 T7 S! P5 Q; r# ^deepseek速度快,结果也对,但是过程是不对的。+ W/ m" C, s! f' J! u4 d

    % u  B; z$ _, [& o; I
    ) H; `9 C  d4 b4 G, T豆包过程比较绕,但是基本正确,结果也是对的。
    & Y9 @% {& D4 Z" N3 B( e/ X9 ^0 ?6 I( ~: a+ d% m4 k) v7 c. z" ^

    - \) z$ B- [5 G$ [3 C  Z/ L当然,都不如人推导的哈。1 s" k: P6 b+ G0 W/ j8 U$ j
    ) x. ^) J; F0 v8 X# U$ ]2 Y( B

    ) X6 [8 g7 B5 Z' k; l7 S5 d过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。9 j+ \+ ]8 L* e- V" J
    3 c/ Q7 B8 ]8 f3 L  Q0 m
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    * C& D' i$ ~2 }
    6 v. M3 Q4 |+ G: p+ R0 x) r$ f5 w+ l. v2 F
    . o6 Y8 E9 {1 A) ?% T6 z$ o
    7 e" x: n5 p3 ]3 _0 N3 J! d% Q

    " ?& D* O, v2 y. j

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    2 k% m, `' n$ Z* j, b0 J7 j
    9 e0 a  D1 m1 n: o% R这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3808 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    & [" o, v2 d4 j* ^& D/ u* }) n! x5 K& B4 ^2 P
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。/ |6 \- Q$ ]; R6 Y0 b
    & G5 G5 W7 ?( k5 s( R, b
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    6 U/ b! |, z  o1 W/ @: p# Z
    ; j# O( _4 M- u现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;# v  L4 `5 m5 d- b
    另外的一个笔记本我基本上只常规使用搜。/ S7 f2 d7 Q2 m0 G) |7 P

    # H1 B7 s! q" O/ ~0 H- d& |我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    10 小时前
  • 签到天数: 2968 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    7 U8 q, J& t: Y  s我没用过花钱的AI, 但是我觉得各有优缺点吧。
    ' ^" X. T/ @0 U4 Z; t' p
    1 C3 t" }9 Z( d要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    ) b+ m/ w4 |: h. k
    . j6 p5 ?( K4 R6 ], Z) E* U
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    7 小时前
  • 签到天数: 2576 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:8 A' z( z# {2 x0 M4 E

    ) `1 ~. f$ z$ H, X5 i! l9.11和9.9哪个大
    $ [, w+ f1 b4 t. @/ c. U# SChatGPT said:# M# M) [- E' C- K  g9 k/ C
    ChatGPT: X6 g# r6 a, ?- ?
    9.11 比 9.9 大。  K" ]+ \- j% R) S
    ! m& h9 w. R8 }0 `6 i
    原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:, Y  `1 z- ]& A) Y! P
    4 M# P/ R/ x8 W$ ?6 b0 @
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。
      r( i0 e1 E+ W: [8 [由于 1 < 9,因此需要继续看下一位。
    ) _! G% n7 A; P6 K  R; C9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
    & o) `! S; v/ H3 p5 x因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    14 小时前
  • 签到天数: 3808 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    & ?$ n6 ]9 i0 O  e, Z所以到底哪个更好?

    , f  M, @- H( C' J: `# f说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-6-7 14:55 , Processed in 0.064045 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表