爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑
& `+ y* W5 j5 R; `4 r$ E
  v3 h/ B8 V3 @/ b9 t, O8 ^遇到一个数学问题,懒得推导了。习惯性让GPT推一下。' j' I) j  U1 R. M5 ^$ W! M  ]
$ n, E" O5 B: {% o% P
最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。' v0 \% F0 B; @6 K2 m

8 w; G, w: J* _$ c$ \5 ]0 j) W" w
. f- C1 G6 x8 Z7 |9 a% {1 C可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
1 B9 f, J' o; \0 K
# W9 j, P" A# G+ h$ n4 K2 ^+ `5 n" R* [. w; \0 i
; J9 Y% p+ z7 s/ x
& W$ e+ D# p# F( U* I1 d

* C6 K7 H& ~3 W3 D/ s, g5 L要么继续胡说八道。
1 F: w( T& T, p! h9 d# o2 D& T) ^& q
! y) [3 l( |1 j, z7 ~5 X+ G. y) D7 t4 m# |
抱着试试看的态度,把同样的问题扔给了豆包和deepseek。- v* s; r! m! A+ c

# r* w6 M& r+ w+ [- ^! odeepseek速度快,结果也对,但是过程是不对的。. y" S! J+ k  i. U) |0 r' T& r
4 x5 q2 d3 A$ o' g, ^% w
+ b5 {* b: x5 ^9 J; Y% }* Q
豆包过程比较绕,但是基本正确,结果也是对的。2 \3 e% T/ J/ Q, d3 p0 B+ ~% Y
! E+ j/ o( e( }7 }: |. @, y. J) c

: a. e5 D! ^% C, a' m3 J当然,都不如人推导的哈。" J/ x. a, `* y6 j. K
+ v" h& P: M5 a. x5 [* b# |

; R/ {" Y, r8 X+ |) w过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。5 }; Y% `4 C9 b+ \+ {+ u0 r0 X

$ n3 I4 {* v$ m7 r4 e- N6 V虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
; ]  t/ r* A6 r$ p' }7 B& e1 e$ D. `" h9 H# n" t% i  G/ Q
- v1 X, j9 ?$ Y' M
5 _5 W8 d7 b' e4 R

3 X4 z5 `  g. ^2 X
: M6 ?1 P4 b7 z; [
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2.
& D, j: b/ M: k+ V( x: c3 Y4 v* T7 ]
这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。
# x0 T0 |; v* J2 O" \4 H2 g) ]+ {, j2 E' _4 F2 z9 ]
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
# E" p  n- a: E2 s5 r& |+ \7 S% ^9 F
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI2 T) p4 j# y! K* g9 W% F8 Y

) E; {* _# `0 C/ A! d+ @/ |现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;1 j/ [( \$ f3 d9 q' h1 O" V
另外的一个笔记本我基本上只常规使用搜。
, c9 C# ~5 x/ [" ^3 O2 F$ L
6 g3 h9 I- p8 }我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43
6 g: L5 J( C) F# O" H) ?5 x我没用过花钱的AI, 但是我觉得各有优缺点吧。- K& |, p( ?0 G3 W  i# F
3 d8 b5 r9 H# X: Q# e+ C; r& b' J' Q
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

9 r% D3 f7 D3 u1 ~: W
. u$ n5 [& `  W" f$ b1 p所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:) S& G+ n2 a" `! ]1 b) c! Z
2 H7 l. R5 T% Y' G8 W* `/ B
9.11和9.9哪个大
: w4 h" J' i1 }# Z$ CChatGPT said:' d2 O  ~1 q5 w0 }* ]9 _7 S* ]
ChatGPT4 G9 g9 |* N: V& S* Z! W5 U
9.11 比 9.9 大。% P1 D6 B% z( A" ], _9 \3 M

# \( ^6 T8 r( {+ i" D' i2 [原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
7 j6 E$ [1 k# e6 s2 z' C% D3 y! r! I6 n( d2 O! L
9.11 的小数第一位是 1,9.9 的小数第一位是 9。( S! O' e. p- Y1 ?6 R* U
由于 1 < 9,因此需要继续看下一位。
) `1 T: `# Q3 S7 S& e  t+ T9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
, n7 O$ t4 i9 e- D因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55
+ J* H9 B+ T0 Y6 n# N1 J; W所以到底哪个更好?

3 v. F( ^! A3 R% E; a! d8 ~说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2