|
|
本帖最后由 晨枫 于 2025-7-5 13:28 编辑 + o' d; B) I7 y _* ?3 O% A& g( h0 r
( ], x- ?2 ^' r. j% f% K: a
据说中国东北和贵州在发展数据工业,很有意思。这会成为中国的新兴经济增长点吗?
# K' T5 Y, p9 z, S- V' K$ j: ]7 l q$ N4 O: V
AI是未来科技增长点之一,发展前景不可限量。但在可预见的将来,AI还是数据驱动型的。也就是说,从人类活动的已有数据训练的“归纳型”AI大模型为主,而不是只基于有限数据、以AI模型自身逻辑推理为主的“推理型”AI大模型为主。理由有两个:0 O. b$ g$ w. W2 M3 X P: ^
- W t* a$ x- o% z
1、人类活动积累了海量数据,能做到“模仿人类、有限推理”已经是非常大的突破,就可预见的将来,天花板之高目视不可见,根本不用担心触顶# Y8 Q9 k6 G9 F
2、人们对人类推理机制并未有足够深刻的理解,模仿深入不下去,让机器推理独立于人类推理独立发展有太大的失控危险,步子不敢迈得太快
5 [' U4 p8 Z" I* \# F7 x) F z) N+ S# U
ChatGPT、DeepSeek等现在的主要数据来源是书籍、网络等公开来源。书本知识只能是“一般智能”,网络数据鱼龙混杂,还有因果混淆的问题。比如说,到底是观点带动舆论,还是舆论凝聚成观点,这个因果性不搞清楚而不分青红皂白喂进模型训练的话,训练出来的模型就跑偏了。真正形成生产力的AI更是需要依赖大量专业数据。各行各业都有海量数据,他们自己根本没法AI化,但专业公司也有局限。
0 ^/ O4 V* ^) f& h% \5 Y
\ V2 P! Z& [; f8 O$ |0 q9 m专业公司对AI模型的技术细节熟悉,熟谙训练中的各种技巧,但对数据预处理不在行。大数据的前提是“数据中自有颜如玉、黄金屋”。但要是数据中垃圾遍地,甚至邪压过正,那模型训练就是“垃圾进、垃圾出”。弄来一只嘴巧的鹦鹉,但总是教鹦鹉脏话,鹦鹉就肯定脏话连篇,因为鹦鹉是不知道好话、脏话的,学什么就说什么。AI专业公司就是那只鹦鹉。& ~1 p3 ^ ~5 N. O
- E+ W( _2 C( u. ?2 V, \# @7 n! [
其实没有“好数据”、“坏数据”,关键是什么数据都要标注明白这是在什么情况下得到的,然后训练的时候就可以把情景数据一起放进去。这样的模型比单用“好数据”训练出来的更加有用,因为不仅知道正常时候该是什么行为,在已知的异常时候也知道该是什么行为。异常情况分已知异常和意外情况。在工业上,已知异常包括产品转产、设备开停车、检修(还要分清检修类型)等等,真正需要“抓出来”提出警示的是不属于已知的意外情况,以为正常或者处在已知异常状态,实际上跑偏到不知道什么地方去了,这才是要特别注意的。意外跑偏大多是坏事,但也可能是好事。商务数据分析里,发现意外跑偏就是抓住新苗头的开始。1 H: }/ L- L8 K, h3 P1 Y2 e' |
0 X4 l! g1 x: Z+ D' ~ G但专业公司的人对于具体行业数据里正常、已知异常不懂,行业里的人来做数据预处理最好,但实际上他们根本没有这个时间。这又不是他们的主业,人家还要正常生产、科研、该干嘛还干嘛。这就是中国优势可以发挥的时候了。
5 R, T1 X1 u# `+ U2 A1 a
! o( Z5 [- T8 m2 K+ s6 ^8 `中国现在每年毕业约1000万大学生,其中理工科不知道具体比例,假设一半吧,这也是500万。现在找工作不容易,每年这500万中有100万人找不到工作的话,就是很大的社会问题。$ s8 ]0 C. j7 E0 A% e& L
7 z- m- P, j% i/ \9 e [3 i& O. j但是换一个角度,他们受过基本的理工科训练,从事数据工业的话,具体项目知识由用户公司集训2-4个星期,在很多情况下就可以胜任基本的数据分类、标注工作,然后就可以放手让他们去干了。可能会时不时需要再咨询用户公司的有关专家,这人家应该乐意配合。这样,大量的行业数据需要大量的理工科人手从事数据预处理,8 i( ^2 I% ~+ T! R# d) a
; \7 z) a+ ?* e1 Q这些理工科人手不需要太专深的专业知识,只需要对相关工业有足够的一般了解,并得到具体问题的集训提高。还要坐得住,耐得住寂寞,因为他们的工作结果是别人的开始,他们自己是看不到结果的。但这是“劳动力密集”产业,需要的初级理工科人手不是三五百、三五千、三五万,随着AI工业的发展,这可能是几十万、几百万人的大规模,而且需要处理的数据在可预见的将来根本看不到头。中国和外国的公域数据已经海量,中国还有海量的私域数据。由于数据安全和不得出境,这活还只有中国人干得了。当然,同样的理由,外国的私域数据中国人也接触不到。9 `# h% t3 X& Y2 i7 M: U
) x1 T. P& K: f, j3 j1 X几乎所有公司在这几十年和更长时间里轻易积累了多少TB甚至PB的数据,还有海量的非数值数据。现在有一些以统计甚至AI为基础的辅助工具,还有自然语言输入工具,但驾驭这些工具依然需要理工科人手。同样,不需要太专深的理论基础和经验,但不能是“理工盲”。' G: V! F% K% z( C9 e
- n4 d, M" o- q数据工业的数据集可以来自具体项目和具体公司,也可以是广泛收集的行业共享数据。有的时候,行业成员有动力共享技术和商业数据,供跨越具体业界公司的行业测评(benchmarking)公司使用。一种做法是只公布最后统计分析的结果,这样谁都可以自己和行业标杆相比较,比如能耗、劳动生产率、单位排放、资金周转速度等等。只要数据里不包含具体公司,就没有泄漏商业机密的危险。另一种做法是连部分原始数据都提供给参加测评的成员公司,同样抹去具体公司信息,供成员公司进行自己的分析。3 t. t" R/ P+ i3 ?, J3 Z5 ~
" B$ w0 n) A9 w
类似的做法可供AI-数据工业借鉴。! Z$ j9 X0 [; \ M. r
+ i+ E7 p9 v: K- P1 m, O这只是在“进”的一头。AI模型训练完毕,还需要模型测评,确保如何实际。这里,再次需要大量初级理工科人手,他们甚至可以来自数据预处理的同一批人。
! C! @; p3 d* B' Z7 R5 i' P
# e7 i! \) k- S9 E0 v对于中国来说,发展AI-数据工业还有一个好处:无所谓地理条件和自然资源,不需要多少基础设施,有电,有网,有吃,有住,就够了。传统工业陷入瓶颈的老工业城市,水电交通发展起来但还是缺乏增长点的三四线小城镇,都是适合数据工业发展的好地方。老少边穷没问题,东北老工业区、黄土高原上、吐鲁番果园里、沿海发展中心之间“被遗忘的角落”都行。贵州等地已经在大力发展数据中心,但这只是数据仓库,存储大量“数据矿石”。数据工业好比冶炼厂、化工厂,把矿产和资源转化为中间体,供最终制成品工厂使用。) P- N8 Z4 u& M. b+ \7 C& E6 T; A
, S5 l- I& F/ m# X: k* ?数据工厂那里能吸引足够的年轻人吗?哪里都有足够的年轻人,愁的是没有足够的高质量就业机会。数据工业未必是发大财的行业,但比排队考公不会差。
/ f1 Z g1 G( y; ?
) R( T9 T% f- T! I# M入门门槛不太高,不是非985、211不可,入门后还适合自己拉出来单干,客户大小公司咸宜,适合远程和网络化办公,发展天花板很高,发展潜力和速度很大,还等什么?4 K8 A, @" z$ Q2 s- ~
7 F5 g; x, G- ^当然,滥竽充数是不行的,糊弄事害人害己,但认真做,这是值得重视的新赛道。 |
评分
-
查看全部评分
|