爱吱声

标题: 中外大模型数学能力比拼 [打印本页]

作者: 可梦之    时间: 2025-1-26 17:34
标题: 中外大模型数学能力比拼
本帖最后由 可梦之 于 2025-1-26 17:57 编辑
/ w, y9 S+ h3 H7 d& x/ {4 B* o  k: _7 f4 L) K
遇到一个数学问题,懒得推导了。习惯性让GPT推一下。  h5 Y3 k) [5 a  m) m  v6 b

& [5 N  l) i, P  Z1 j! [最开始问题给错了,然后纠正了一下,貌似GPT就鬼打墙出不来了。给的答案也不对。6 j7 G  {, {5 f- r4 c" X
- U7 ]& s7 f- ]* a( d6 U% ?

& H2 @8 S: k8 ]; t$ D- S可能受上下文影响。那重开一个对话,结果还是不对。要么说没有解
1 I( j$ ~. [% r+ u, m5 ^- l
$ x# v+ _( f9 s1 T% N
! ~- A4 k- j7 H7 }$ D/ s+ ^. ]% j  S/ t

$ m  b1 ?; |( k7 {6 V( L; R* I4 z1 C6 H2 S& F* N6 K* v
要么继续胡说八道。
2 r: W9 k" {) Z0 R! F# |: p( Q4 S7 O& z0 _& Z, k0 n8 S

$ y  t6 X6 E& I) J抱着试试看的态度,把同样的问题扔给了豆包和deepseek。5 N: s) f1 R" p, Z' @

, _5 X) I9 y3 Q# P* |$ ndeepseek速度快,结果也对,但是过程是不对的。
* C. P! M5 t" o, b; O2 n1 E
' i) }  H$ h1 c4 R0 t( q  b% L/ e3 }
# `9 @+ M7 r4 @2 I, F豆包过程比较绕,但是基本正确,结果也是对的。. s: [) L' V4 [! I: \% O
/ ]! ^* g8 l7 H4 @

! ?8 e. O0 R* c: C7 t0 h当然,都不如人推导的哈。
& Z8 C+ ]6 R2 J8 ]3 `" k. c; H- Z2 t2 W4 s, r9 D% G

$ n( s0 d4 U2 s1 f过去一年多,算是ChatGPT的深度用户,感觉也不错,一直花钱买VIP。但是对国产大模型用的不多。一方面最开始用户体验不好,一方面自己内心还是有点看不起国内的大模型。内心是不希望ChatGPT输的,所以反复尝试了多次,还是不行。
0 T3 ~7 {* @3 J* R) Y- J. m9 w' ^* Q7 T- O6 ~/ A
虽然GPT可能被我误导了,换个账号也许就没问题了?虽然这只个例,ChatGPT比国内大模型表现好的多了去了。但却破除了我心中的执念,以后有问题,也会在国内大模型试试了。
, z9 X1 t4 G" [8 r5 L# ]' ~
8 z; B5 {9 h7 k9 h" l, \
* B+ b9 o, n- S  L$ `; z" ?
% Y! \1 o* D# N7 Y- i& v0 m
: s" y) ~/ U; k8 G: F) S1 P8 U
  ^1 b- w- W( z( p; d. W" V
作者: 可梦之    时间: 2025-1-26 18:52
个人推导错了 落了一个系数2.
9 f- J! D0 V; K7 k0 `
3 A  y) x  s9 V这也是我们需要AI的原因啊
作者: 马鹿    时间: 2025-1-26 22:43
我没用过花钱的AI, 但是我觉得各有优缺点吧。: Y  S* ]- n& A% Z) U
# }8 r; G/ o  J
要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产AI我会特意指名用英语搜国外的资源。
5 {) h5 ?' \' I. u+ C$ Z& |* i, u7 z. c3 h2 |4 c" u
即使美国的几个AI, 答案也不一致, 我都是一个问题问2,3个AI
. V6 z4 ]; Z2 m4 h$ C: n0 m, ~* b4 ?9 N; a: h& v4 N# q
现在搜索喜欢上了AI搜, 平时看我在用哪个笔记本, 工作上有一个笔记本上有vs code,所以顺手用了copilot;
1 D! Z: K7 n1 O另外的一个笔记本我基本上只常规使用搜。
% K6 Z  o9 p0 v- B: u. }" H1 f/ X1 t. R
我个人的本上装了好几个AI, 经常每个问一下。
作者: 方恨少    时间: 2025-1-27 01:55
马鹿 发表于 2025-1-26 22:43
8 f, J9 |0 Z# o4 P, y* x我没用过花钱的AI, 但是我觉得各有优缺点吧。
" A2 X( l1 e. N! c9 b9 s) H+ y
7 t0 |4 f/ o( s要是用中文问问题, 我喜欢国内开发的, 要是用英语问国产A ...
我个人的本上装了好几个AI, 经常每个问一下。

8 I6 [- P2 c* p* q* s+ k2 Z8 m7 b2 b) y: S  j- ^
所以到底哪个更好?
作者: 松叶牡丹    时间: 2025-1-27 03:30
Chatgpt数学非常不行。以下是个典型例子:+ @2 a2 }- {# R$ B8 L7 ^0 w
5 _( J, [3 v/ Q( E5 G
9.11和9.9哪个大. `1 _: }% Q2 s9 t0 @) }" z
ChatGPT said:/ a: z6 d  N. m8 g, o: U3 N. h
ChatGPT# d1 P5 A0 p; w' j2 C" S2 @
9.11 比 9.9 大。
. J0 E- }, ~1 [. |
( V4 h' B( o/ w& ^! z原因是比较小数时,先看整数部分:两者都是 9。然后看小数部分,从左到右逐位比较:5 A4 @4 X% b/ |
) G& C( k$ D* X
9.11 的小数第一位是 1,9.9 的小数第一位是 9。
0 G, R" C  P$ g由于 1 < 9,因此需要继续看下一位。
+ V2 e& g& Z, _% n1 M8 f6 Q9.11 的小数第二位是 1,而 9.9 的小数第二位可以看作是隐含的 0(即 9.90)。, N$ U# ?9 B6 L% v% w: p
因为 1 > 0,所以 9.11 > 9.9。
作者: 马鹿    时间: 2025-1-27 03:44
方恨少 发表于 2025-1-26 12:55+ v6 b1 v6 h0 f/ R  I  ^7 i
所以到底哪个更好?
4 a+ q% z' G2 t9 l
说不上哪个好,真有要问的问题 都跟个遍, 看看哪个答案适合自己。 就连平时的搜索我都是bing 和google互相验证。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2