设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 895|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 ( ?% ?6 o. m2 b$ ?( r; c
    % N. f4 S  T) {2 K/ G
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    2 S* @' z1 i$ Z9 @" q2 E
    ) u4 L+ g+ t) M最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。5 _! u+ j. S( Y9 |) }

    3 h! w3 e& g$ A9 z7 j% }0 n) f* p+ h- a$ D
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解: Q5 p" `1 ~- x4 C/ ^
    ; x9 H9 a2 _; l0 B& _
    7 k. H3 p5 k+ {8 e+ _" z

    3 E- v; S/ a" w0 |9 L3 ~" e. J6 O3 N8 r. u
    1 J2 @/ u/ K% k8 l5 Z- {
    3 p6 @+ b# k) l$ f要么继续胡说八道。
    7 y- m$ F  i( L# D/ Z! j; H4 H6 M0 a8 x

    5 A3 {# S, x9 L. [抱着试试看的态度,把同样的问题扔给了豆包和deepseek。) s. d! s6 o1 n3 V3 M. i& F) B
    2 d7 l" @8 o4 o' K
    deepseek速度快,结果也对,但是过程是不对的。4 f$ t# i" K3 x+ v5 a& a1 B
    9 K- x) o% i& ?
    / {4 _5 Y- @9 p; s- [
    豆包过程比较绕,但是基本正确,结果也是对的。& A, v% t8 _# W" n% H$ a- L! V+ B

    $ o- t7 O6 R  l8 b- ]3 P( P, \2 D: w3 i! B
    当然,都不如人推导的哈。
    ; F1 j+ |/ q/ q5 R* f5 P0 m7 }/ C* E0 G

    ' g3 z: j3 D$ k+ t过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    % Z- I+ l; r  }7 G: F6 m" O, M0 c7 ^4 Z/ `3 H/ S' x0 |* W/ H
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    ' R* D9 n2 s& T1 d. m
    7 `) T1 y' Y; i0 v+ i- V  U/ n" Z& r+ D- b% ?! f  k! w6 ^
    / J/ {) x2 A" b5 o: C! J% p/ G9 k& K

    $ h, D) X! ?$ D9 X6 C3 Y5 q9 _
    & p* A1 V$ @6 s9 \/ j

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    $ c- R9 x4 Y( _6 p! _' p0 u  W3 l8 y' A; H4 k' k& z: v) {
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3524 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。; l1 A/ X1 h7 l( T
    , k4 v+ E& P( d
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。, k! L% x/ U4 c& }7 L. b

    - J2 I* A. G! P# _2 {- l$ {即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI0 z+ G5 T9 w) h9 u0 H& T: n
    . s- ]. c9 p  R8 i7 O0 M
    现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;. Z4 C8 y5 h. e4 H4 @
    另外的一个笔记本我基本上只常规使用搜。9 J" I1 C5 {6 J2 X+ e( U
    ; ~4 p# u8 e/ ~* c$ }. ]& U; _. E
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    半小时前
  • 签到天数: 2674 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:436 |) b6 r% M" L7 e
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    / h4 G( B' _2 d, x; H% @0 N. E- I! K( n5 U
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    9 S9 `. Z! J8 |- n1 m( U0 j: O+ r# R  X1 |  B
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2025-7-13 03:24
  • 签到天数: 2312 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    1 x6 _% W( Y# e7 y; e0 B% X- R) B* Q  J( t
    9.11和9.9哪个大
    - s& j2 K9 I1 H" G) c2 |ChatGPT said:
    $ P- w% G! v. p  yChatGPT9 M) b! B+ Y9 Z
    9.11 比 9.9 大。
    * {7 K* |6 g/ Y! i
    & k$ S* C0 A4 M原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    - H. ~# t( {/ N  P* {. S1 I6 h- k; u
    $ P& r' j0 n% y2 L# W9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    & i, Y. b5 N2 k由于 1 < 9,因此需要继续看下一位。
    4 @# L+ ?- h$ B0 w3 p9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。$ E! f6 I( {' J0 s
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    1 小时前
  • 签到天数: 3524 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    & s( m7 N  _2 V4 z5 V' l8 @所以到底哪个更好?

    8 `$ A4 U0 C1 }3 j. b2 M; B说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-28 01:49 , Processed in 0.034512 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表