爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑 $ B( W7 o: a& W2 [3 Q

  K; t5 Q! {7 @遇到一个数学问题,懒得推导了。习惯性让GPT推一下。/ ^3 }6 r: q6 G& m. _- i5 X
: E( {" Q4 b+ o" }/ ]
最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。
4 g/ D$ S, i! K4 x: {1 E! U
! V+ {$ E, S* s2 a2 w) j0 j5 \# S7 [8 L5 f/ n
可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
. C8 I# g1 {8 E0 o" ^' y1 W! B# N) E  s3 z! z

: s/ T4 B/ M2 s
2 n' Z/ [5 l4 }- T0 `* x  ~0 ]5 |  o# p! h8 O: f

6 S1 v8 e5 S2 r/ n5 q. L0 }" x要么继续胡说八道。
+ L9 v) d( w) o3 w; @# R7 H( V" Z5 Z. q0 Q
- r7 @1 a+ {: ^# A
抱着试试看的态度,把同样的问题扔给了豆包和deepseek。
2 M4 t$ g: G& p) p' @. H$ p- I9 n, Q9 t# P8 g
deepseek速度快,结果也对,但是过程是不对的。; b& i5 `# B9 x! w" Q+ c& f0 }1 b
, z/ x5 B5 {0 Z
. x# \" m4 s* V# E
豆包过程比较绕,但是基本正确,结果也是对的。
' X# N0 G4 F$ `& [; k9 Q
' n" w% ?) {  t# U* r
2 G" P3 z3 Q& o4 D* |当然,都不如人推导的哈。# @' g& ^! E9 W+ i7 Y6 I$ I& t+ N

  |* D0 w+ ~* ^* F$ e5 M
' F8 g: Q4 @/ H" ]$ W过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。9 N7 d7 s, T* F: y/ n

( Y8 ]( y6 ]) ]0 V虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
7 c( c5 r4 r+ v" D* t9 \( C% m1 z  x; n/ a/ m0 R" w: g# T  ^

" t% o  A( N- f; Y$ j5 V) S5 s; R9 ]. N/ {3 o
: E0 T" P4 A" }2 y

- [" d9 p- ?! }2 B% B
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2. 4 x; |! P0 a8 E! I

  \! e. s. O& X* R$ h: g% _这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。3 a9 A% I- D9 E- _% p5 e

) V$ I; S6 m, s. ]" `+ K要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。' i: f7 u) O! m7 j- q
% O: O- U6 A9 d& j
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
0 m% K$ q& V& e' v
+ C  B' e* {) Q3 }现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
+ I# m0 \0 ?. y3 `5 {6 K. g另外的一个笔记本我基本上只常规使用搜。
% x8 {* v. j5 Y
( W/ `. |$ {1 o: }我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43# Q$ J$ n7 t0 i1 a, g( K. A
我没用过花钱的AI, 但是我觉得各有优缺点吧。
. J  M2 b" d% w8 l) \8 |% E1 a6 Q( g9 r2 w$ Y' S* a% F
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

" a$ k. H% V  L# S& o" Y7 V, r3 X, H# s) t: G% I7 t
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:# S' e7 w, y' I+ |

7 s  V# Z# V( f9.11和9.9哪个大. S/ Y; E5 y* \$ [; d
ChatGPT said:7 ~6 I* K! ]- r& C
ChatGPT0 J6 k. Q! B, x# q
9.11 比 9.9 大。
2 ]$ q! ?" [, a8 t, F: ~! u$ D$ f$ N" _; A
原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:
( W# K3 R& v5 }  x9 D
9 i( E( ?' r4 y) ]- n9.11 的小数第一位是 1,9.9 的小数第一位是 9。
1 i% F: I2 b3 E8 _6 D由于 1 < 9,因此需要继续看下一位。1 t/ s) ^5 }. ~: o
9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。
# Y$ O! a+ C; r% h' I+ U8 ?因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55/ q4 Z  H. r* A$ e/ u8 ]
所以到底哪个更好?
4 f- g% w/ a& P. i% k
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2