设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1301|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑 ; T7 ]+ D2 j! {$ ]( z7 ], K4 f3 I

    , _& D+ V+ t6 s, l% g! j" _遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    8 @" }  C3 W% \9 `* [& N( h/ K# a6 S- k2 ^: t
    最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    ' p6 d& J/ L( T2 c8 T) u1 D, @. m  E: b( X6 }% e
    # c& P$ u. C* F5 o& J- o; t
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解: ^/ e6 U8 K' e. ?/ |
    0 D, G9 a' A. j

    5 I6 A& g- q0 x* h& t, X# [- e0 i5 e6 J

    # y2 i% F  O; S' e( X: h( [- H2 k" }4 H) ^5 \4 q. ?, O. ?
    要么继续胡说八道。
    ' @  R8 t  l2 `3 e9 X$ T( D' p7 [
    2 T7 x4 n' e! ]' i
    3 j" i$ E: s9 N- T# b. q$ U8 r抱着试试看的态度,把同样的问题扔给了豆包和deepseek。. Z6 P. Z; s- s1 d' ]
    3 ~- P7 V& v1 s$ `; X
    deepseek速度快,结果也对,但是过程是不对的。" O" e6 i$ U- U" h* j; o
    4 @% ~7 \( f; v4 w( j
    7 W1 H' U4 [. g& h  I* T
    豆包过程比较绕,但是基本正确,结果也是对的。! k2 K$ E9 {( Q, ?

    4 Z' f" \4 H; Z2 M% j1 ^" ^% x, N" R' g7 [  |! \0 A
    当然,都不如人推导的哈。
    : l0 ~. n. k/ w4 i, S
    + L+ J( j8 G0 g6 C4 {/ ]! }
    # b; C7 Z: {% F过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。/ q) Z) Y' Z8 X# w

    ' L, V( K. O. U+ M  J; F; W. e% J虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。3 J% W  y. R5 R: b
    3 T- J( B( K2 S) w6 L( r6 y6 v+ F

    $ I) x- P2 R# A4 G0 D
    ! V  Q: p5 @2 S
    & ~5 p, F1 F* t* q4 p6 c+ i" \
    0 R0 e2 U/ Z2 g$ X1 c) z

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    ( i8 ^# c+ t# U( [& p4 t0 n" X4 L4 T; J- i: \! E: r3 Y
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3618 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。
    2 b3 [- b! f; z+ n  b7 @9 H* C2 J* g, _" N5 c
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。( T& V! B6 T# _+ h7 P' E, Q
    " z* E, g( i1 |* K6 H
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
    ' p* c3 q. }, B
    / ^8 o+ R. @6 S  C* F现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;9 C/ K2 i5 |5 d  `! ^9 u
    另外的一个笔记本我基本上只常规使用搜。4 ]8 `' ~( R- X2 Z
    0 d# R! B7 M" A& B- b8 u
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    18 小时前
  • 签到天数: 2781 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    & E8 d9 k$ |0 e$ }我没用过花钱的AI, 但是我觉得各有优缺点吧。# f7 U8 ]/ N  K& i4 N+ M( c
    0 G, l  p8 Y* y% z2 c7 Y1 h
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    # P' u3 g  I$ T  S. c; S( L/ c# h) s, n% Y6 P* m7 t% Y6 D+ r1 u
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 05:56
  • 签到天数: 2408 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    2 F' f( a. P/ ]2 q- G
    6 S7 x7 A+ ?' b3 n( Z9.11和9.9哪个大
    ) g  x) r- |; E* E, f3 r9 BChatGPT said:
    * J* g# r; {0 aChatGPT) e% p# Y/ X* V( A
    9.11 比 9.9 大。
    ( O+ `8 o9 ~5 C8 L" {
    # d5 @: t5 {, M. k5 q原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
    + Q& p/ |8 `" M% [  _1 [
    , T+ U$ c1 C8 X9 [& W. u4 j9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    7 h3 l2 w& K- y6 Z6 G由于 1 < 9,因此需要继续看下一位。. L% l* v  I, N" `
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。- T' Q' e* P  W2 l
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    19 小时前
  • 签到天数: 3618 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    8 u( V( m, E% _* i所以到底哪个更好?
    9 s3 h  x. x, F" t' ?" G
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-11-28 19:26 , Processed in 0.032721 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表