设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 1708|回复: 5
打印 上一主题 下一主题

[科技前沿] 中外大模型数学能力比拼

[复制链接]
  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    跳转到指定楼层
    楼主
     楼主| 发表于 2025-1-26 17:34:23 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 可梦之 于 2025-1-26 17:57 编辑
    1 ?# |1 g3 ^: F6 t* q/ j9 d" @( _: g# R) y$ T
    遇到一个数学问题,懒得推导了。习惯性让GPT推一下。. }7 O  @0 u9 T/ l4 Q% w7 O

    : r* }% A! l! B& G最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
    # K0 k7 Q1 r7 v9 y% F0 u
    ' P' u  ]* B; ?8 s# Q4 K# B! R; }0 S7 E/ M7 X4 [: d: U6 E
    可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解! h* G4 m  I0 n; o

    8 \3 l' _8 d: F6 N. ~% e0 v; P
    , i9 Q+ Z- d& j6 Z% c. a) T$ H/ B) E

    9 g6 f7 c$ }( N3 T  K1 J1 x7 @
    4 y8 \! {% ]/ X  e2 `5 L/ y要么继续胡说八道。1 Q. m+ M, r$ |. a: P$ E

    % y& x7 w7 O1 J  l3 w- `8 t4 W8 V* a' C/ \% [& _& p  k
    抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
    ( K: A  W5 L/ f9 ^) s6 ^0 E, e9 N/ f& s
    deepseek速度快,结果也对,但是过程是不对的。# B1 @7 [# r9 O8 I( j. H

    " h: T: d8 e% l- m' z
    - }/ b" Z4 `" b1 _5 _% F豆包过程比较绕,但是基本正确,结果也是对的。& B% u& S. T2 j2 M

    , k; z: w8 O) C: h: y$ ]7 E6 a5 K$ h
    当然,都不如人推导的哈。
      y, a" Z7 h2 b, _$ Y& e
    ; X! A+ j9 ]1 W+ H
    1 ^$ R: j, j4 ?) n9 H4 \0 Q过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
    $ z6 J! R: E0 U* J" J# o3 D: ]% M! U2 ], v& n+ {6 T
    虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
    2 P: I8 W' [7 v, W* j
    9 [& X/ }/ d' i& i' W$ a* a$ U; p$ M5 f
    ' ^5 u. t& F  n- E- s- l& U8 B1 l5 r; R' r8 z+ O' j9 H
    : y/ J5 {: a( ]% M( K
    2 n$ t* L' K) C) Z- K. K# Y7 e

    评分

    参与人数 4爱元 +36 收起 理由
    helloworld + 10
    方恨少 + 12
    pcb + 4
    johnsonjian + 10

    查看全部评分

  • TA的每日心情
    奋斗
    2021-4-20 05:43
  • 签到天数: 300 天

    [LV.8]合体

    沙发
     楼主| 发表于 2025-1-26 18:52:01 | 只看该作者
    个人推导错了 落了一个系数2.
    . u& M7 o- l" W4 C# X* I# F
    ! m! A! K9 s  x: `这也是我们需要AI的原因啊
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3746 天

    [LV.Master]无

    板凳
    发表于 2025-1-26 22:43:24 | 只看该作者
    我没用过花钱的AI, 但是我觉得各有优缺点吧。; G/ A/ {7 A+ {9 e! I  O

    , V* s0 ^. m. f要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
    7 W0 S! F& s; v% ^& n
    . S9 Z3 B1 i: l% Y* u  N. \/ r即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
      v) u! V. K& y! [* _7 w# M4 [
    % d! g  _/ Y, A4 c/ ~现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
    $ ?, d! `9 [$ s2 n& W( I" e另外的一个笔记本我基本上只常规使用搜。; p9 m8 E9 f" B0 ?2 Q* p) r
      `/ y* |+ z3 X! ~- B
    我个人的本上装了好几个AI, 经常每个问一下。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    8 小时前
  • 签到天数: 2907 天

    [LV.Master]无

    地板
    发表于 2025-1-27 01:55:48 | 只看该作者
    马鹿 发表于 2025-1-26 22:43
    : P# }( r8 H* T+ h/ _; [我没用过花钱的AI, 但是我觉得各有优缺点吧。3 j+ P0 e$ _0 b- D+ I
    ; J3 e0 a9 O) }" V
    要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
    我个人的本上装了好几个AI, 经常每个问一下。
    . |' F, X* X9 L5 J/ c- _( B9 B
    : Z/ u( M9 o) [
    所以到底哪个更好?
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    6 小时前
  • 签到天数: 2520 天

    [LV.Master]无

    5#
    发表于 2025-1-27 03:30:40 | 只看该作者
    Chatgpt数学非常不行。以下是个典型例子:
    2 ^( I% |$ d% ^, U0 q5 W. D2 d$ Z  ^8 ~6 N9 k' x+ m( d& \
    9.11和9.9哪个大
    + \: A3 U- C1 b& kChatGPT said:
    # ]" `* G. {: PChatGPT, |- q% j2 g9 `- ?2 t, a
    9.11 比 9.9 大。' h( D# {- ~' t! J  N1 ]# p$ A4 [

    1 H4 g! c7 U0 v- l+ Z; Y' W原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:5 T  w# S5 i9 `; @; U$ k
    & j- v  ^; e+ f0 O8 X
    9.11 的小数第一位是 1,9.9 的小数第一位是 9。* a" L& m" m# e# s' R$ ^0 J
    由于 1 < 9,因此需要继续看下一位。* l5 @5 o+ x- C! M
    9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。  ^8 [. Y! f6 X# ~7 V2 \
    因为 1 > 0,所以 9.11 > 9.9。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 3746 天

    [LV.Master]无

    6#
    发表于 2025-1-27 03:44:05 | 只看该作者
    方恨少 发表于 2025-1-26 12:55+ u0 i6 a& V3 y! \8 _
    所以到底哪个更好?
    9 }) c. @8 |, {, E
    说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。
    回复 支持 反对

    使用道具 举报

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2026-4-6 09:15 , Processed in 0.079461 second(s), 21 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表