爱吱声

标题: 附议xiejin77兄:大模型加海量数据只是超级刷题大师 [打印本页]

作者: 晨枫    时间: 2024-10-17 12:15
标题: 附议xiejin77兄:大模型加海量数据只是超级刷题大师
多谢xiejin77兄好文(http://www.aswetalk.net/bbs/foru ... read&tid=160739)。想了一下,有点感想,请不吝赐教。! `0 L' `- n6 F! O4 p- p( q, N
) Z1 F- {" w( x& N( }, s6 c# M& U
个人认为,大模型没有奥秘,还是靠模型参数之多来更好地“捕捉”现有知识的量变,而不是产生智慧的质变。知识依然来自海量的数据,也就是人类世界的现有认知。" s$ s9 `" j- V9 t0 ^
2 F  b( k; O6 {8 B9 O4 T( I. s
大模型加海量数据依然在本质上是超级刷题大师。比“查表”式的直接找答案要高级,能填补现有数据之间的空隙,但不能跳出现有数据所代表的知识的框架。在本质上,刷题能解决的,大模型最终都能解决。刷题解决不了的,大模型最终也解决不了。刷题也不是直接照搬解题,还是要判别题型不是嘛。
7 [4 b1 S. u" _' b% O+ I$ B
# c. j" B2 ]; B% _# l; Q1 l# d2 ?' X. y& z世界上的“题”已经够多,所以海量刷题是能刷到很恐怖的“智能水平”的。但依然只是超级刷题大师。沿着这条路走下去,不可能走出创造智慧、具有独立判断的“强人工智能”的。大模型“有创造力”的印象来自吟诗作画,但不是还有“熟读唐诗三百首,不会写诗也会诌”吗?画画也是一个意思,只是从文字介质换成图像介质。
; I# w- t! i' I% v; Z
) c+ v+ K7 G- a9 F8 ?; I. d% n用围棋规则自我训练是另一个问题。那是有限空间里确定解的问题,是极大规模的最优化问题。在本质上,这与“深蓝”早年打败卡斯帕罗夫相似,只是算力极大提高了,算法极大改进了。
& p$ h( E+ y: n  K- G# ~& E! z$ w5 O6 U9 G3 P2 @
这对中美的AI大赛意味着什么呢?/ b  @: r6 ^; {
- j4 J; E, F; {3 u$ H  e- `0 L
AI的最终用武之地是在应用,应用型的AI的厉害来自数据,实践才出数据。# `/ @7 f/ ]3 z0 B; ?7 I
8 n4 Q' \% v6 y  N! i/ C5 R  S
在军事、艺术这些方面,美国有足够的实践,美国AI会很厉害,可能超过中国。必须说,中国军队打仗没有美国多,中国影视没有好莱坞能折腾,音乐、美术等也是一样。
7 [2 `# ]7 V1 a7 y" c
/ x, E# v9 P8 U但中国人在制造、建设、物流这些实体方面的实践更多,数据丰富得多。社交媒体和广义通信方面,抖音、微信出现在中国也不是偶然的。个人认为,这些与经济和社会相关的AI应用可能中国会领先,如果不是已经领先的话。
& [, y* e9 z! z: N) B: V
+ ]9 d4 u7 g6 k! b7 |美国式AI训练凭借算力和算法优势,把天下所有圣贤书、垃圾书统统海灌进去,希望“良币最终压倒劣币”,也因为搞AI建模的人没有能力筛选圣贤书、垃圾书。他们需要的是“通用人工智能”,而没人是能在所有方面都成为专家的。
; @4 s, q) t% `- X* P* _) d. k
1 K% o! l3 k2 E& u中国式AI训练在算力方面吃亏,算法再厉害也输在起跑线上。但中国人有有用的专业知识积累,中国AI也聚焦专业AI,专家参加训练,所以大模型训练时只灌圣贤书,不灌垃圾书,最后在形成有用但专业AI应用方面成绩斐然。* W- i2 [: u% x; A' e2 q

% ?1 l; f9 y" W" r, ]3 d最终,算法、芯片这些都不足以决定性地改变中美AI的走势。
作者: 宝特勤    时间: 2024-10-17 20:29
回晨大牛的话。! {3 a0 y' j: [

; T- v9 t2 |& @0 v3 K( a1 B我确知美国至少有一家公司是鉴别反向信息的。他们负责AI的是我的密友。% K; i" _$ b7 c- v/ O/ z% _

5 C9 t# l5 j' J; M3 P我下面引用他们的话。我先声明我不同意他们的话。7 d" M7 B. S; X& G; G" i! ~

) b6 }3 }. c6 n- w9 F5 @1 s他们的反向信息是中文网络材料。作为唯利是图的美国商人他们对政治不感兴趣。他们这么做的理由是中文网络充满逻辑错误和事实错误。
1 Q0 V/ \# K6 O. g/ Z# v
) ^3 p' W0 m* o& d1 k逻辑错误和事实错误是不可避免的。但是多了不好。咱从自己做起,用事实证明他们走了弯路。
作者: 赫然    时间: 2024-10-17 23:16
宝特勤 发表于 2024-10-17 07:29: @9 d3 a" U/ \1 f  \1 }) t
回晨大牛的话。
$ X* ^+ ]# i( D1 S1 x
& G7 H% d1 m' b' I5 f我确知美国至少有一家公司是鉴别反向信息的。他们负责AI的是我的密友。

# K, N: z. c# f咋感觉你的朋友在缘木求鱼呢。+ c. N6 W# o% s' i. G; |0 _
众所周知,中文网络的信息量相当小,宽度和深度都不行。这个在几年前就有广泛的讨论。过去几年某种程度上更加是倒退的。掌握中文信息最多是中国政府,第二是国内那些互联网大厂。所以,你的朋友在中文互联网上找内容,感觉完全是门外汉的做法。4 ]  P$ \3 I2 v' J. h

- p6 ?& m; R$ f: u" q! q, B. H这种封闭带来了信息垄断。其好处显然被美国互联网大厂也看到了。于是,过去几年里信息越来越闭塞,爬虫能去的地方也越来越少了,大量信息开始从英文互联网上消失了。这个其实成为堵塞AI后发企业的秘籍。这点上,感觉美帝在向中国学习了。% F: G  n0 ^# \0 O7 j& V

作者: 宝特勤    时间: 2024-10-17 23:29
赫然 发表于 2024-10-17 23:16, [: I, R8 N, U0 u4 @4 p  E8 q* S
咋感觉你的朋友在缘木求鱼呢。
9 i; Z. f7 r# i( g$ B1 H' T众所周知,中文网络的信息量相当小,宽度和深度都不行。这个在几年 ...
7 F5 ?" u) u) k; n* ?  x- h
赫大说得对啊。我朋友不是在中文网上找学习的内容,而是找反面教材。和赫大的观察是一致的。
作者: 征久仁    时间: 2024-10-17 23:30
宝特勤 发表于 2024-10-17 20:29* E! ^, U4 u/ z* \' k
回晨大牛的话。  F& H' T$ y# ^" J/ e' L3 F

6 w8 H: X6 L6 }* H我确知美国至少有一家公司是鉴别反向信息的。他们负责AI的是我的密友。

: H9 u& e* P; z2 w2 l以我大美利坚为例,Truth Social , X, Reddit和TikTok 同主流媒体的区别,让我有了一种平行时空的感觉。& i! e6 n6 ~2 U1 Z: j' F* @
+ |8 q# a4 o, e- y0 d* X& L
回到中国,小红书抖音快手,知乎网易豆瓣,同官媒,也肯定不在一个层面上。
" d$ S$ z! E  H: \$ G- B: g: e$ V' A
. T1 J) t4 Q5 ]3 F% c& y+ O所以逻辑错误或者认知完全不一样都很正常,不宜轻易下结论。
作者: 征久仁    时间: 2024-10-17 23:32
AI在总结现有数据上先天性强于人类,但将AI用于开拓新领域必须小心求证。, _5 k+ |5 Y" m. J5 c
0 [  {0 p* A0 C$ ~
我天天用ChatGPT改邮件和论文,但我不相信ChatGPT写的论文。
作者: 晨枫    时间: 2024-10-17 23:39
征久仁 发表于 2024-10-17 09:32
( b/ c1 }2 j4 ~3 LAI在总结现有数据上先天性强于人类,但将AI用于开拓新领域必须小心求证。
. y* Y* E; C3 N% V( G; y" ?( b5 [: O) X! u; z% O) W# c. l
我天天用ChatGPT改邮件和论文, ...
+ j. t! |1 t- t& L2 S1 z! E  }
AI总结现有数据能力超过人类是自然的,就像雷达、光电红外的“视觉态势感知”好于人类一样。AI的输入通道比人类多太多了,运算速度也爆棚,要刷题,人类是不能拼得过AI的。谁要是无聊到开动AI狂写诗,乾隆都要羞愧。但事实还是一样的:乾隆不是真诗人,AI也不是真诗人。
作者: 赫然    时间: 2024-10-17 23:47
晨枫 发表于 2024-10-17 10:39& I7 f# @; C$ k2 J) ^: [
AI总结现有数据能力超过人类是自然的,就像雷达、光电红外的“视觉态势感知”好于人类一样。AI的输入通道 ...
, p( H- N: J" ~' ]5 [! B1 P* B
感觉AI遇到理论瓶颈了。。。辛顿老先生害怕的超过人类的AI看来暂时还没有影子呢。
! r8 }% @: e5 `: @$ K4 w5 t0 ?9 V5 h
好在AI现在还在进步,等几年看看最后能落地什么。
作者: yanei    时间: 2024-10-18 01:24
宝特勤 发表于 2024-10-17 20:29
# m* x  z2 @8 q, J回晨大牛的话。
, N8 @( l! _! {; k
+ U6 P/ F6 `! Q" e3 v' s& b6 B/ V我确知美国至少有一家公司是鉴别反向信息的。他们负责AI的是我的密友。

9 z* h, I! r0 u  |% H5 \' \  l3 y7 o行啊,他们高兴就好。再说他们软件能读得懂多少有高中大学水平的中文?
作者: dopplermaxgamil    时间: 2024-10-18 02:02
宝特勤 发表于 2024-10-17 20:29- F% k2 x1 @' V  F) _7 S6 U' Q5 `1 c
回晨大牛的话。8 S2 z0 z3 g8 L$ o

/ Z3 h5 r3 u3 P  Z) T/ I% I7 L$ i我确知美国至少有一家公司是鉴别反向信息的。他们负责AI的是我的密友。
; k! J6 H8 ^( N2 T
不知道你出于什么动机不停的阴阳攻击楼主,也许楼主在别处的罪过你?  I8 V  p) @3 n( Q
一个整天自诩大公司高管的ID,不停在每个楼里秀你的小肚鸡肠,说怪话,整得像个怨妇似的。# n0 n3 j& i# K9 I9 y
- k. v& L; q& j* C! |
劝你呀,还是集中精力cosplay忙总,深度创作傻白甜的职场小作文。那才是蓝海的网络赛道呢。
) q" s2 s" u) Y* a6 \, l; t' r1 E8 x/ p9 z# c) |+ O
你在西西河cosplay忙总,用力过猛,已经被扒的裤衩都不剩了。又跑到爱坛碰瓷晨枫,好不容易积累了一点人设,这么快就要败光了,何苦呢!
作者: 宝特勤    时间: 2024-10-18 02:04
yanei 发表于 2024-10-18 01:246 N8 C7 }/ s6 \+ |5 D* }
行啊,他们高兴就好。再说他们软件能读得懂多少有高中大学水平的中文? ...
: Y- H$ F7 x; ]8 Q2 {
回yanei 坛友的话。他们软件有中国大学内容啊。我随便问了一下 ChatGPT.1 q2 E) L$ O4 }+ k; T; b
- D% X3 L" W6 x' y+ d

作者: 征久仁    时间: 2024-10-18 02:38
晨枫 发表于 2024-10-17 23:39
% m3 v# ]9 G" S0 tAI总结现有数据能力超过人类是自然的,就像雷达、光电红外的“视觉态势感知”好于人类一样。AI的输入通道 ...

2 a* x" M. ^# o+ p! z$ w+ y& P* @最后一句绝杀了,太牛了
作者: 孟词宗    时间: 2024-10-18 04:13
征久仁 发表于 2024-10-18 02:38/ Y" J7 A  C# o! ?2 }. y) v+ j6 t
最后一句绝杀了,太牛了
) ~# o& K  H' ?
乾隆也是真诗人,首先是真人,其次会作诗,做的水平如何不提,但起码都合格律,就是写得有点多。基本每天一首,总量相当于《全唐诗》共四万三千多首,强烈怀疑他是带着 AI 穿越的。
0 F8 O2 x- f0 w0 O5 [" B8 C" N( \1 l4 n3 }/ h, Q. m2 h+ k
乾隆诗作虽然总体水平不高,但也不乏上品的,毕竟量变还是会带来一点质变的。例如:6 a7 W1 e& v; S* u! y4 y/ I5 C1 Y
+ G9 J8 v) q, Z( w4 [# _
谁氏园林择胜开,山环抱复水瀠洄。
: N5 q$ |/ A3 _川横桥喜路不断,岸转船如峰自回。
7 V# [3 T' e7 g5 }1 o1 N, j/ [意入敞亭趣有永,目游高阁望无埃。( B3 z/ e5 E$ V6 l) t  L# A
分明层叠浅深处,欲问丹青能是哉?
" ^' U) z0 x- [4 I5 q, p, G$ R, F: t0 |" K, D0 w% w
还有这首:! x7 Y! H. e( I4 }+ J7 s$ y* [. n3 }
三秋别忽尔,一晌奠酸然。6 Z& T& ?! `0 Q4 P! J! i
追忆居中阃,深宜称孝贤。- t1 F- m- I# L/ R! D; ~4 P) k
平生难尽述,百岁妄希延。
# u! U2 l9 c% n夏日冬之夜,远期只廿年。
2 q, T  n* F* k* }8 f
3 h/ J# S+ W2 r* j1 Q这是乾隆思念亡妻所作,平铺直叙,但情深意切。如果把赋也作为散文体的诗来看的化,乾隆的《述悲赋》也是很好的。
作者: xiejin77    时间: 2024-10-18 11:01
感谢晨大翻牌子。% _$ m- Q$ q5 v  t; e9 c3 A

# Q5 i; S, Z0 x& `$ G% g我是金融科技从业者,大模型领域的进化不得不长时间的持续跟进,同时也不得不面对非技术背景的人的询问。甚至是有些德高望重的前辈。2 Z' L2 {% F% p
4 `, A1 o; F9 Z
AI这个领域的发展,虽然常有一些意外,但还是跳不出唯物辩证法认识世界的基本观点。/ J& {) D* |7 a) h! K
$ z/ b5 n  C0 i+ U% [* {
晨大的论断,很有一点战略的味道。其实教员同志当年的实践论,矛盾论都是可以拿来理解这些现象的利器。但是国内没有这样的舆论来讲这些话。领域内的只想搞大新闻或者闷声发大财,也米有一个权威来讲讲这些战略上的东西,而用官话套话说这些又显得格格不入。
7 a, h- ~  q$ J: D9 z' O: I2 n% ~0 L
: k! S) I* ~& V9 C1 P) P所以,舆论的阵地,如果我们不占领,就会被人占领。
作者: xiejin77    时间: 2024-10-18 11:03
孟词宗 发表于 2024-10-18 04:13
, w6 r9 V# n0 E乾隆也是真诗人,首先是真人,其次会作诗,做的水平如何不提,但起码都合格律,就是写得有点多。基本每天 ...

9 {1 b( O: k9 }# q; c# A; B8 F孟老师可以移步诗梦小轩,看看俺的这篇解读http://www.aswetalk.net/bbs/foru ... read&tid=160605$ c  y5 k4 f$ W5 g# x9 f) D

5 R2 T* E) c8 Y, o# e作为一个长期有写近体诗习惯的入门者,俺对于AI的近体诗还是有一些体会的。
作者: 征久仁    时间: 2024-10-18 21:22
孟词宗 发表于 2024-10-18 04:13: d7 s; S7 @$ A( `9 q
乾隆也是真诗人,首先是真人,其次会作诗,做的水平如何不提,但起码都合格律,就是写得有点多。基本每天 ...
3 ]0 [; {- s; B( D) {8 }
很多字我不认识
作者: 潜水员    时间: 2024-10-19 00:01
做中文专家AI系统确实是个好主意。通用AI如果是基于中文互联网确实太难了,污染得太厉害,到处是海量重复和不加甄别的信息,无效甚至有害。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2