设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 830|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    8 b$ j" ~/ n! h
    8 l3 Z$ V- O5 @6 z4 S遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
    3 m2 C. h& H4 c3 a
    5 V) s7 G- s0 g/ ^最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
      t+ k7 |6 T0 H+ u2 B1 k5 H3 b$ F6 D/ O7 j' T' H
    + z6 v% |4 u6 r/ c. r9 s9 \' @
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解- g& {/ _( w6 E. D
    8 _: H, z% \/ \' B, a) x
    : \/ m& S1 R# P  v" W5 b! ~

    5 j1 k9 U8 c8 f: Q/ t9 E0 n4 Z4 u# ]1 F. J/ {  `7 R4 p2 N- _
    4 r$ A! j$ }; ]
    要么继续胡说八道。
    + F$ n. ?7 r& m
    ( n1 W3 T( |' x/ ~! z2 Z
    : J1 Z1 g4 n! l; J' j抱着试试看的态度,把同样的问题扔给了豆包和deepseek。# N5 T5 v; J( M; @* S& j) H& F

    1 t1 k- }8 ^- f5 bdeepseek速度快,结果也对,但是过程是不对的。
    5 E$ N4 O6 {# f9 q! V5 @/ v
    % G* b' ?% T* h. ^& j. H8 \7 C7 B: _/ d) r7 G% t+ [
    豆包过程比较绕,但是基本正确,结果也是对的。( w, ]+ R0 y& w0 A! [* E0 f

    5 Q5 ~" A0 I; q% m  @! O4 R
    * Q& l5 c! P% r* }# l/ d! c4 W当然,都不如人推导的哈。
    " A' I3 j0 B6 f, y" V. g+ j+ Q
    . W0 L( Z" h, U) m2 z
    & I0 e  h+ z5 \. B过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    3 X5 i. e" c" W9 {5 Y5 i2 M& i
    ; p- U) z/ A& h, m虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。$ }! I& H1 l' Z9 Q6 K

    / K1 H+ g& G3 p1 ~* [2 W0 R" g) l2 _( P* ~  |, o6 d# D
    7 k4 }+ b& O$ H: v* ?7 t' H& n

    7 |# P7 R8 V: d* a) R: ~9 T: _; g4 e- Q2 m3 Y: {

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2. % ^4 E0 C2 S0 t
    " k8 e- u/ W3 T. {6 D
    这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    32 秒前
  • 签到天数: 3499 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。9 V: T. B: ?2 e

    ( V4 K6 I8 _" A/ @5 y) N/ [要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。) C3 p- j6 E! l7 B
    5 i  E  v# c$ M' v1 ^1 H
    即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI/ s3 Q+ w$ h4 n3 `) W$ D  X; K* j

    2 ~( g5 m) _+ C9 s现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;6 l+ f' D1 {$ e+ U3 m1 e
    另外的一个笔记本我基本上只常规使用搜。( f( _$ u* {4 Z1 R

    + t  F' j7 y' J$ A. s7 B0 U我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    昨天 00:15
  • 签到天数: 2649 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    " I! ]3 ~* p8 @5 @& X我没用过花钱的AI, 但是我觉得各有优缺点吧。
    3 f4 [0 V5 T9 f) @! X
    : x; g6 |9 Y3 t+ D, t要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。

    : E- o% G; ^* e8 d* T( x& O/ O0 o- W. a, t0 t6 J
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    昨天 03:44
  • 签到天数: 2305 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    4 W/ F3 o' `/ `$ b* h  o7 D
    , t: V/ T4 ~9 f! r/ A9.11和9.9哪个大
    + r  X( O; v/ L1 t: f2 C3 lChatGPT said:+ H3 n0 ?/ @( r7 ~
    ChatGPT# ~: `! U. X6 D2 X. J7 s* C. _: b% X
    9.11 比 9.9 大。' C) K) m, }2 `+ I

    ( @5 ?  N: r/ ^' U$ Y# f: t原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:; ^9 R4 Y. ~7 }$ d/ G: m; L7 a

    4 u! E7 M  O: V/ C9.11 的小数第一位是 1,9.9 的小数第一位是 9。
    & w3 U1 D1 @0 f, T由于 1 < 9,因此需要继续看下一位。
    & t: m. y# M& O. y. O. U9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。. W$ Z# O1 o6 ~' o
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    32 秒前
  • 签到天数: 3499 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55
    9 V* B2 x( J9 K' F所以到底哪个更好?

      @) \) o0 F$ K2 [0 n. m+ o说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-7-3 00:00 , Processed in 0.036017 second(s), 18 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表