|
|
本帖最后由 晨枫 于 2025-7-5 13:28 编辑
& x( }" p3 I) N& [5 h( b( [$ e* |8 `9 _
据说中国东北和贵州在发展数据工业,很有意思。这会成为中国的新兴经济增长点吗?0 N- u" f" Z7 w) |$ T3 m0 e9 W5 @. T
9 Z6 {4 S1 ^0 [' X
AI是未来科技增长点之一,发展前景不可限量。但在可预见的将来,AI还是数据驱动型的。也就是说,从人类活动的已有数据训练的“归纳型”AI大模型为主,而不是只基于有限数据、以AI模型自身逻辑推理为主的“推理型”AI大模型为主。理由有两个:+ n5 G) V6 E1 k! e( k3 v
' w2 F6 }; h0 y5 z) P1、人类活动积累了海量数据,能做到“模仿人类、有限推理”已经是非常大的突破,就可预见的将来,天花板之高目视不可见,根本不用担心触顶5 P; u8 B( w( g( J+ N2 q
2、人们对人类推理机制并未有足够深刻的理解,模仿深入不下去,让机器推理独立于人类推理独立发展有太大的失控危险,步子不敢迈得太快$ E% S* i* `6 C# f; N, O: r7 Y' M
4 C- V& @2 R0 x, L9 K# r$ Z
ChatGPT、DeepSeek等现在的主要数据来源是书籍、网络等公开来源。书本知识只能是“一般智能”,网络数据鱼龙混杂,还有因果混淆的问题。比如说,到底是观点带动舆论,还是舆论凝聚成观点,这个因果性不搞清楚而不分青红皂白喂进模型训练的话,训练出来的模型就跑偏了。真正形成生产力的AI更是需要依赖大量专业数据。各行各业都有海量数据,他们自己根本没法AI化,但专业公司也有局限。6 h; E1 y2 ~4 @+ w* ~/ h& O( K
7 D8 `; L, U6 \! {0 I专业公司对AI模型的技术细节熟悉,熟谙训练中的各种技巧,但对数据预处理不在行。大数据的前提是“数据中自有颜如玉、黄金屋”。但要是数据中垃圾遍地,甚至邪压过正,那模型训练就是“垃圾进、垃圾出”。弄来一只嘴巧的鹦鹉,但总是教鹦鹉脏话,鹦鹉就肯定脏话连篇,因为鹦鹉是不知道好话、脏话的,学什么就说什么。AI专业公司就是那只鹦鹉。& j/ r y: o6 x# B
$ ?8 {! I2 }3 N4 j. K8 L& R% |其实没有“好数据”、“坏数据”,关键是什么数据都要标注明白这是在什么情况下得到的,然后训练的时候就可以把情景数据一起放进去。这样的模型比单用“好数据”训练出来的更加有用,因为不仅知道正常时候该是什么行为,在已知的异常时候也知道该是什么行为。异常情况分已知异常和意外情况。在工业上,已知异常包括产品转产、设备开停车、检修(还要分清检修类型)等等,真正需要“抓出来”提出警示的是不属于已知的意外情况,以为正常或者处在已知异常状态,实际上跑偏到不知道什么地方去了,这才是要特别注意的。意外跑偏大多是坏事,但也可能是好事。商务数据分析里,发现意外跑偏就是抓住新苗头的开始。
4 f2 z- d0 Q* @( I0 e$ | n1 h1 s8 ^, T
但专业公司的人对于具体行业数据里正常、已知异常不懂,行业里的人来做数据预处理最好,但实际上他们根本没有这个时间。这又不是他们的主业,人家还要正常生产、科研、该干嘛还干嘛。这就是中国优势可以发挥的时候了。& I0 k3 t0 B6 [* {- U; W) A4 [( G
3 f, f' n) {: }9 c7 Y! Y
中国现在每年毕业约1000万大学生,其中理工科不知道具体比例,假设一半吧,这也是500万。现在找工作不容易,每年这500万中有100万人找不到工作的话,就是很大的社会问题。
; X$ j% m4 `# d% w: e' W
' ]$ d5 C0 ]* A! A+ ~* d( D( j但是换一个角度,他们受过基本的理工科训练,从事数据工业的话,具体项目知识由用户公司集训2-4个星期,在很多情况下就可以胜任基本的数据分类、标注工作,然后就可以放手让他们去干了。可能会时不时需要再咨询用户公司的有关专家,这人家应该乐意配合。这样,大量的行业数据需要大量的理工科人手从事数据预处理,( X# ]& A( |/ s: `! y. J o
$ m% h1 [9 r! t! a7 w
这些理工科人手不需要太专深的专业知识,只需要对相关工业有足够的一般了解,并得到具体问题的集训提高。还要坐得住,耐得住寂寞,因为他们的工作结果是别人的开始,他们自己是看不到结果的。但这是“劳动力密集”产业,需要的初级理工科人手不是三五百、三五千、三五万,随着AI工业的发展,这可能是几十万、几百万人的大规模,而且需要处理的数据在可预见的将来根本看不到头。中国和外国的公域数据已经海量,中国还有海量的私域数据。由于数据安全和不得出境,这活还只有中国人干得了。当然,同样的理由,外国的私域数据中国人也接触不到。7 ~6 u2 T! I6 x5 A9 u# d
8 [: T& h, ~& F$ n& d+ p. c几乎所有公司在这几十年和更长时间里轻易积累了多少TB甚至PB的数据,还有海量的非数值数据。现在有一些以统计甚至AI为基础的辅助工具,还有自然语言输入工具,但驾驭这些工具依然需要理工科人手。同样,不需要太专深的理论基础和经验,但不能是“理工盲”。* ]; O) O$ L+ e! `
/ J# J0 g% G0 H' t
数据工业的数据集可以来自具体项目和具体公司,也可以是广泛收集的行业共享数据。有的时候,行业成员有动力共享技术和商业数据,供跨越具体业界公司的行业测评(benchmarking)公司使用。一种做法是只公布最后统计分析的结果,这样谁都可以自己和行业标杆相比较,比如能耗、劳动生产率、单位排放、资金周转速度等等。只要数据里不包含具体公司,就没有泄漏商业机密的危险。另一种做法是连部分原始数据都提供给参加测评的成员公司,同样抹去具体公司信息,供成员公司进行自己的分析。
; I$ O4 S- g8 H$ Z! _
( S4 v1 H1 t) m, F0 O# w" z8 {类似的做法可供AI-数据工业借鉴。
J( m- w% G3 s! c
; M$ F1 x+ m; }0 e- U" Q这只是在“进”的一头。AI模型训练完毕,还需要模型测评,确保如何实际。这里,再次需要大量初级理工科人手,他们甚至可以来自数据预处理的同一批人。1 }5 F' c& c+ }
% \; n/ F; W+ S1 e' F0 o
对于中国来说,发展AI-数据工业还有一个好处:无所谓地理条件和自然资源,不需要多少基础设施,有电,有网,有吃,有住,就够了。传统工业陷入瓶颈的老工业城市,水电交通发展起来但还是缺乏增长点的三四线小城镇,都是适合数据工业发展的好地方。老少边穷没问题,东北老工业区、黄土高原上、吐鲁番果园里、沿海发展中心之间“被遗忘的角落”都行。贵州等地已经在大力发展数据中心,但这只是数据仓库,存储大量“数据矿石”。数据工业好比冶炼厂、化工厂,把矿产和资源转化为中间体,供最终制成品工厂使用。, V( J! ~1 k- x( r$ `* v$ Z
% E% c7 k( W& y" u* L2 U" G数据工厂那里能吸引足够的年轻人吗?哪里都有足够的年轻人,愁的是没有足够的高质量就业机会。数据工业未必是发大财的行业,但比排队考公不会差。
0 a* C/ h( ]/ L; Q6 p9 f0 F- H0 {1 [( [$ C0 F6 Y' k! M
入门门槛不太高,不是非985、211不可,入门后还适合自己拉出来单干,客户大小公司咸宜,适合远程和网络化办公,发展天花板很高,发展潜力和速度很大,还等什么?5 v0 z2 i7 l! [( l5 I6 p9 B
0 F A* B, |% x) T1 h. |
当然,滥竽充数是不行的,糊弄事害人害己,但认真做,这是值得重视的新赛道。 |
评分
-
查看全部评分
|