爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 3 Q/ N, e9 ]1 T; x8 c
! g) C- o0 `$ _; N5 d7 R' C7 r) e5 N
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。
) `3 [% }  u1 P* l
& C0 x' ?& @( Y2 }* @  o% V最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。# @) B0 j4 m7 J& H2 B* k) M9 r9 Y
' f2 ?0 X7 r* Z, X2 {- s2 B- g
) Y$ y0 J) F4 J& E
可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
: O: h; ^+ q: M8 q& a! s4 j, m5 A; k$ ?; l6 ^6 P( p  [8 ?6 f

* V. H9 P7 \; c# G- c; n% s/ Z' i) ~2 g( O
) g/ H: p3 P4 V

+ N1 u; [' D/ h要么继续胡说八道。
+ [, F8 m# \7 S" s: v, a" ]
$ `4 Z% q2 J3 S# [2 V; K
( M4 K  h* z) J+ s* f& f3 s9 ]抱着试试看的态度,把同样的问题扔给了豆包和deepseek。/ e, p- q1 K5 L6 B7 f

1 W% n) U1 W3 ?+ p% ^/ |, U( [! l) Vdeepseek速度快,结果也对,但是过程是不对的。
# ^6 D3 ]* F9 }, r# p( D  u
: `% r) {7 r; c0 J7 O4 M* B# V: k$ ?( Q9 Q: X4 L! M2 q
豆包过程比较绕,但是基本正确,结果也是对的。( ?) T0 X/ p6 c2 _" i9 x/ r
' L- n2 w' U  j( h

% L. Y  L1 f* W当然,都不如人推导的哈。
9 R% i9 d5 R, {& |4 u9 m9 a
. W, W& X% @4 _+ S  s; I5 P7 F0 W; Y' [$ z( s3 G
过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
' W$ b0 e% \5 K9 P8 H) A( P8 ]3 ~
6 U8 I5 O2 G$ ]# R虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
* D6 o) \/ o) \: |
8 b* O' v, l4 m  r, J% i( @4 |8 b6 W, t+ k6 ]2 Y% F
# ?9 y# K) X& _4 z& l6 d/ g. l* P
* h  k# d6 y0 `( [% M6 O

  M% p2 o5 }  y+ I6 {
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2. 9 D; T7 u& _% k0 D+ y; T5 B- b

' U# G, y3 H: T0 i. n; b( J这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
/ Z' r4 M! J3 T, C7 _- P' E5 P3 N( E% |5 i7 }( a9 _, x7 J
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。" P: |. @( u5 H" v  S+ E) n

$ }3 m# r$ U2 u+ _5 t即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI1 F8 r2 x2 w5 W9 C9 }! l
" y" s9 [$ [( w* q2 w+ ]+ K
现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
5 @( x7 E. ?) q' X; x9 [& D另外的一个笔记本我基本上只常规使用搜。
9 j: o- P9 ^$ ]8 l
! l, E( u7 q2 r我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43# g) P, K$ c4 {5 p: t1 S" `
我没用过花钱的AI, 但是我觉得各有优缺点吧。& {1 ], e3 V! x: E
) K* W3 c5 O9 A9 U% e5 b
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。
& n6 F& a0 v3 d+ b

" o; n1 y0 h; u# ~; ^所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:
1 t0 d! N, d* M1 ~5 E% v, L4 o
7 ]% c" g6 I1 O! f+ _) O& P$ M% L9.11和9.9哪个大. Z. b0 a8 \- y$ [& c5 P
ChatGPT said:! Z* N$ \2 J* b8 R  z7 u7 x/ V/ ?; U2 @
ChatGPT8 B8 k+ g0 g, D1 N6 I% n6 V
9.11 比 9.9 大。" W% @4 u3 L+ q" e: C3 o! z+ Q0 h% C
" I% t! i0 ~0 d' r: Y8 b5 {  ~1 H
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
: o5 w  y9 z3 v8 w) U
1 `5 d" M5 ?5 G9.11 的小数第一位是 1,9.9 的小数第一位是 9。
  S! |# j& Y% D, T- v% o由于 1 < 9,因此需要继续看下一位。
8 E# P6 x& g( O( f4 j9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。1 u( F, S. p, ~& A
因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
# e! n. F7 d2 \1 ^9 u6 V, V所以到底哪个更好?

7 h( S* _' i6 E- r说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2