爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 6 G9 ?$ L) |: ^; L

0 m  J% I" t2 Z8 n( z% F遇到一个数学问题,懒得推导了。习惯性让GPT推一下。: p3 Y( K% }7 L% z
: e% ^6 r& h# d. X& g+ G+ ]; v1 c4 d
最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
( K" h) s" U7 k( m5 H' {# W+ C1 M6 p* `+ ]; P
( I5 j0 v2 a* c) i2 g! O
可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
1 I  U' ?& I: X: G' a1 D& D2 j' l! D  I  \

( H0 K: k- s: H9 f0 `
4 i1 r2 l- O8 h% O" I+ J( E$ Y9 _" `6 b
+ e7 @  P: v) E3 X% f7 e
要么继续胡说八道。  S8 g- {' P& @$ ?# `

# C3 b: G. r4 K* T( d! V8 w  J
& K* g* i0 E  W! b) Y抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
" Q0 P+ d) `4 L4 q
  N/ _; K8 t5 S+ q8 Hdeepseek速度快,结果也对,但是过程是不对的。* L* q2 H9 w( M* I8 w
% `# k( Q0 ~4 Q- }: N: I& P
% f- I- `1 g" h# |
豆包过程比较绕,但是基本正确,结果也是对的。0 y3 @9 M! }3 u7 v$ |5 ~7 z
- ^; d5 n! j$ t% v0 |, K: K+ h

$ e* P  F4 z" F5 h' G9 j: L( P% ^当然,都不如人推导的哈。
- L& I& `+ a- H: u" ^
6 d% m7 `- A( [4 M4 A) K& K( J/ C6 _6 c3 c" @6 V* R
过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
; t' J! ]; n) k7 E  j3 D
  P* A! H. s7 O8 d6 k虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。0 i7 |4 K$ o' n- f+ ]6 N

& A6 Z+ k0 e- |! L0 d. P7 u$ u/ d* @' \1 p* q5 A. E" B
, f( `) s4 f; \: I' F
" m9 k9 [, C7 ]7 L2 M

7 Y6 r8 V' J4 ^$ [9 c
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2.
  b; H2 j: W" T4 J: l. {% ]9 u* L2 J$ Z5 k' a
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
/ K9 w) z: s! D* z5 M$ }# g( e
! B1 Z$ f  j5 l2 F# N要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
, Y2 S* n$ V1 E' k- ~2 Y5 s* m5 n" [9 u+ p" h  W
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI6 u) E6 _) K5 d
! t' W. i% Z7 A
现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
$ U/ l, O/ G+ v另外的一个笔记本我基本上只常规使用搜。" [/ W- f. H4 A) [+ x

6 a% D2 ~/ z3 l- R: ]* g3 X我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43
0 g, ]" g9 j8 f+ I  H/ o我没用过花钱的AI, 但是我觉得各有优缺点吧。2 ^/ t) |* X5 x3 G3 ^) Z% ~9 B

; z$ M4 V5 D* J7 N  n/ A0 b要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。
# n2 z; o, Y7 Z$ Y  F
% [4 r4 Y% s# R0 G& w! p
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:
! I- a0 _& U' R6 V8 J2 ]( A) g+ q8 M6 \# y
9.11和9.9哪个大* b* a1 j; R  R9 f3 ]2 \; [
ChatGPT said:
: ]: I+ T! k1 JChatGPT
0 I+ W4 f9 O1 n7 D: E) S# u9.11 比 9.9 大。6 H& _. L2 H, u4 b0 ~; w1 `

% Y. e4 y7 N+ r0 d原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:5 e. n* B: @) b, K# W" y
1 R: W0 U' }. g
9.11 的小数第一位是 1,9.9 的小数第一位是 9。* L: `3 O+ S$ Z6 ?' Z
由于 1 < 9,因此需要继续看下一位。* w4 a- c- |* H- b! L
9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
* d5 `$ l' Z( r( Q1 b' ?  Y因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55, T4 Z$ D) g# l
所以到底哪个更好?

. w( q3 Q, F* b/ T说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2