爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑
$ [! Y& ]# j; Y% P+ x# p: o6 ?& S- o7 \! a5 z
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。2 J5 U9 F& v$ W% _7 F

+ w0 Z8 [2 q4 a1 F  N- v% z. z最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
5 C. W6 c% j2 A2 P1 X
, Z/ J4 V$ e% Y# |* a/ \% z
; [5 x( y$ \5 X/ h7 \可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
* {% D6 m$ j/ O2 l$ e, V' K" X1 j
3 \  R$ L7 H# J5 S' ^* \' r. \
: c; N% N4 h; X5 r* ^: T/ R/ V, N
8 [9 }) e9 _* p+ W6 P# P1 i6 N5 k8 \0 {

% ]" f- t" _. I4 l  K6 Y$ |要么继续胡说八道。/ e9 k! X+ z9 W3 f% m" u

% c+ {7 i. c9 z8 n8 L
3 R# _& r' j' m" r9 j抱着试试看的态度,把同样的问题扔给了豆包和deepseek。. s9 B6 ]# R- n8 `

' A# u: ]! M$ w8 X8 b3 Mdeepseek速度快,结果也对,但是过程是不对的。
" `* h! l5 }' I6 \3 w
1 j' b2 u+ d: f* [7 O4 r/ H7 \$ j+ o  X
豆包过程比较绕,但是基本正确,结果也是对的。  u( n: x8 v, f- j
/ S6 t/ l2 K" Y0 s- T5 A
$ ^0 R7 T* B$ e' m2 \
当然,都不如人推导的哈。
) @/ ]5 U& n" N
3 g; o6 c  ^& J! `1 Q, J  {% i/ T. v. w0 k3 O
过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。* p1 h" a: n; s/ a

( {1 u: [) U" U& d虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
! A5 d( O8 x% L# C. B/ Z; q# o% z& p
6 @7 l' H/ }, B  d  C( Z1 I6 d( F( e
5 M3 x, d4 L6 w& d/ u  `* s- m7 O  R# A6 f# L8 r" U0 n( a, X
. C/ F8 u; P4 c; X

4 F4 Y& P+ z3 [/ T; o3 [* F/ x; H6 b
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2.
6 G( @; V4 X" ~5 q# B% o
. r* R( h( Y$ P这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
5 n/ Q. h9 n0 v0 W0 [  h2 k( l. k2 G/ Z* B; a5 B
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
& h# C: o0 x2 S) U- K
! J3 |, ~) z" v4 O即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
" b& d! P2 W/ r- u. G9 T) `0 I# p0 |% V) d& s  x" e9 L# T6 y
现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;; D% Q6 }+ W$ }( K2 f3 ^
另外的一个笔记本我基本上只常规使用搜。' ~" Q# G' L  W' i3 s  E" X
( e+ u0 B2 ?7 v' B/ [
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43
) }% S, z5 j7 m* d6 M9 q* s我没用过花钱的AI, 但是我觉得各有优缺点吧。
% S# ^+ N: {! @* s9 o) q6 o2 l  T4 ~
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

: P* I/ e. V  N6 x, @& j" o+ a% y, u  @& P' w6 ^: y
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:% [8 q0 l3 ]& A6 e( d, v! W- L

9 B- S/ o! |9 j9 T0 u# Z9.11和9.9哪个大+ w1 L% _4 ?4 A( r" m
ChatGPT said:
, @/ d, ^" z( x* {ChatGPT9 o" p& V7 T: A* [. d
9.11 比 9.9 大。
9 |" I" d, g( @" L, _9 M1 x# {" ^8 E+ T( N
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
* q" C! b- N* X' }5 G
% [& M+ E3 M: r: E# N* t9.11 的小数第一位是 1,9.9 的小数第一位是 9。1 w9 u6 E% k* C2 o3 I
由于 1 < 9,因此需要继续看下一位。
7 V5 b- ^& S4 N9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。2 F" z" _) W: J- m( Q9 d! A* ^
因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
4 O! C- U2 C6 Q$ J2 Q6 F! ^- t3 T所以到底哪个更好?

/ l. W8 A5 j% u7 {/ r1 ~说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2