设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1355|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    % k; K' g8 k- s; ~
    7 W! L$ s& f8 E3 {遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    & Q$ N! o7 c/ i1 S# ~- f4 f
    ; @6 B" z7 ]" h6 v* b, @最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    # A4 T9 \: o: B. g, A5 U6 m/ }5 J/ A4 _  s# t

    5 r: t" C& j, v0 o2 @可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
    . h3 B7 K! y$ h  Q( E$ ~3 V/ l/ [, \6 _6 z* C; [% \5 A1 o% j
    , J8 S2 X8 N4 X6 Z7 R' |4 ^7 o$ w
    4 H" g3 y" W2 p* i$ G9 k& B3 d

    $ w0 [) c' M& |* m- }7 y: t* n4 y7 M( j- u; c; J5 Y: \
    要么继续胡说八道。
    6 M5 n3 E- |- H: D9 J- O' V' F- b6 H. }' J* y: i1 {4 N

    . f4 J; ]: h3 n& ]! U抱着试试看的态度,把同样的问题扔给了豆包和deepseek。4 K3 t7 y; H, L1 E2 E( Q& }- o1 w

    ( L: X2 M- O0 F+ Ydeepseek速度快,结果也对,但是过程是不对的。
    ; k( x5 }3 |% e6 k5 b5 F+ w, _4 P" r& k% f7 e

    5 B( _8 D2 t$ F  Q$ h8 Z, A$ ]3 g豆包过程比较绕,但是基本正确,结果也是对的。1 i. r6 e( k( Z8 g4 z( ~

    9 ~6 d- I( n7 M7 p4 S. K& Q3 j9 M( w0 ]" D2 }- N
    当然,都不如人推导的哈。
    2 d- a9 R$ W8 S7 |/ b) r$ u2 b# F& l# ]: Y
    : `; w! [0 G& s8 w; H0 \/ ^
    过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。- i7 _8 Q" e# u
    2 M% s8 l# V9 G. i2 I+ x& V
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    + V1 G( K0 i- y
    0 L7 l+ I+ z  {" ]0 A$ K. Y& n
    ( E+ ?% ^. j7 Y1 m6 a& S8 e7 x: W, I% E9 u" T" P) z

    % g) c2 {/ o9 @, l  |
    . p9 t( V" U3 l  e$ @5 P

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    6 J+ r8 Y5 Q' Y8 s3 O
    : N. h: o( F5 g; \这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3636 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    ! @: C# K, q( L9 T# N& @0 {- r( S7 P6 X" e; x! S5 z* o, q5 _
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    # q" [+ h  f  C) }% F; ?9 R: d1 J* X2 e- ~4 \3 x# W% Y; G
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    4 s+ }# r' o7 k! e2 _# c
    0 d$ O3 O+ ?( |+ R# U  V& E现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    * i9 Y! n3 U# Q2 I6 ]* k) Y" g0 d另外的一个笔记本我基本上只常规使用搜。
    . |0 V9 w  O0 o# I5 L1 n$ p* |- ?8 C$ l  u! q
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    15 小时前
  • 签到天数: 2798 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    ) z& j, W/ K) T* R我没用过花钱的AI, 但是我觉得各有优缺点吧。% \6 B9 T7 I/ J; [( s& t  f# P
    9 Y3 Z6 V2 N3 Z. y7 `6 r2 B4 F5 n8 g
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    . R' [- c( ~- r) D9 ?) X
    : C3 v) {8 e1 f* j6 U; r所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    16 小时前
  • 签到天数: 2422 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    4 I& A7 q4 W8 c5 q4 {7 F3 i' ?
    $ U8 ^& L/ T" g1 i& s9.11和9.9哪个大! @0 e/ ]) O3 L( _. T4 B
    ChatGPT said:( N2 q3 b% w' V( o4 d1 b
    ChatGPT
    , T( I3 S1 U9 o, ~* t9.11 比 9.9 大。
    " F3 n, z$ ~' H8 |5 t, c9 E
    2 U$ H: C& [& h6 c原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    ' J: u7 L+ [9 {, c5 P
    # M7 e6 X0 j- K" o& b9 |+ h9.11 的小数第一位是 1,9.9 的小数第一位是 9。* z6 M; m+ b) q/ m
    由于 1 < 9,因此需要继续看下一位。5 r4 Q! u6 [$ G  ~% [" r) s
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。3 I2 v) K: L3 {
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    22 小时前
  • 签到天数: 3636 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:553 |& ~4 G1 m! e9 G
    所以到底哪个更好?
    ' |  `- C- l. `2 x# q3 M. [
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-12-16 22:31 , Processed in 0.035815 second(s), 23 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表