爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 ' V/ n) W, L' R3 l& e! ]
% S) B' ?% V& A) b& d6 p
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。9 s! B, O$ s$ V- s) g) d
6 {. S  W8 ?+ {/ v7 H5 N
最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。' ^& i- h) \6 T- K# {: N! v  c
! P8 U6 m% |, q1 s9 ?2 Y
. ]# |! Q' z5 P3 ?0 i) X1 }# O% ^
可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
  n9 v6 W1 T1 b" |
1 C! U. K0 _$ v' i, e
8 i$ p$ E) l4 Y' R9 [) T1 k
2 u  c4 h4 R4 f# G: V  J: v/ W0 `- e2 \( U; \; `. L( L

! O( {1 M7 o3 E1 P5 W要么继续胡说八道。
3 U5 C0 @5 ?) C* o; w  l/ z0 M- J: E6 C* P5 d  Z5 r
8 q. \  `" M" u2 c# u) t1 R
抱着试试看的态度,把同样的问题扔给了豆包和deepseek。, [. h) q# P4 O8 z2 W* X

' ?7 V7 e# O% c- K  z4 S: }deepseek速度快,结果也对,但是过程是不对的。8 c: D8 o7 U2 v# D- M- n

# g/ t- x, v/ e+ b4 y& ?$ R- Q  i( P7 `3 v7 s: e0 a
豆包过程比较绕,但是基本正确,结果也是对的。
: R$ J8 i. H0 P, q
' s! @% C: J, n) o0 v3 ~) i" A2 Q$ M3 \+ Z$ z+ P
当然,都不如人推导的哈。
% S! N5 `0 U8 T  I+ c$ Q# j" H. X, ]7 [  \& g% ^8 |9 I: v

8 t7 l5 L0 A* Y" P: w过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
' {1 |3 ~/ w: g0 }9 {* K: C
* @8 R$ ]* b  F  o% q, E虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。* _  t9 ^) l1 H9 H7 p# W2 c, Q

/ f; o. }. J) |) b
- S. Z  X. p6 v
3 d9 d+ Q6 S& F/ B
# m: u% L$ @( R# k$ i
6 A* s1 h( N; _" A6 n: A7 G4 M
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2.
0 ^% Y  r3 W7 C% c  `; [, Q( ]1 I& L* T# g& K! }- X$ J! o
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
" q5 m& H5 i; z3 }' l
; A7 R3 g) }+ ^要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。3 I: S* \' q1 [3 ?+ t+ M
# ~& |2 p4 i/ S7 O2 O* R
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
. @( }/ l" T5 n" W# Q# k
7 I" Q; ?& Q; V9 c$ I) e现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;' Q$ G( P/ s$ I# i1 H% ]
另外的一个笔记本我基本上只常规使用搜。
; w1 v5 Y8 |- ?" t2 e8 X- |2 i, l) w0 L+ o- C1 V3 ], W
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:434 N& O: R0 Y# s, v
我没用过花钱的AI, 但是我觉得各有优缺点吧。
2 C2 F1 M& S! Z! b5 P
6 r* V2 z0 {6 G4 _' b2 P要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。
- q& o$ I" T; \; M6 I
  b) L' x' @1 [! w0 B, V
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:! k7 D7 Q$ J) g) J% k
6 |0 E8 |* S- `6 V! G
9.11和9.9哪个大! u  h7 M5 }1 q7 ~1 X7 j
ChatGPT said:
; H8 ?) S- M5 h( k  mChatGPT
9 h8 I* D! p8 u5 y  u9.11 比 9.9 大。
4 C+ o% }: `" [# @2 |) |4 }  Z& V
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:/ R0 s; e+ X0 V8 o" `7 R7 D
5 V, E: l( S" V; `% b0 _
9.11 的小数第一位是 1,9.9 的小数第一位是 9。2 ~) z" V* E: T7 y, Q
由于 1 < 9,因此需要继续看下一位。
; }8 F/ F$ s* I- w8 C/ d9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
8 e. G6 W; P, Y0 y9 E. w- {- F因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:555 l  z  I! Q8 y" T' q8 y" }+ W
所以到底哪个更好?
6 E4 t* \* B+ g5 `9 H# w
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2