爱吱声

标题: 数据工业会成为中国的新兴经济增长点吗 [打印本页]

作者: 晨枫 时间: 2025-7-5 07:17
标题: 数据工业会成为中国的新兴经济增长点吗
本帖最后由晨枫于 2025-7-5 13:28 编辑

据说中国东北和贵州在发展数据工业，很有意思。这会成为中国的新兴经济增长点吗？

AI是未来科技增长点之一，发展前景不可限量。但在可预见的将来，AI还是数据驱动型的。也就是说，从人类活动的已有数据训练的“归纳型”AI大模型为主，而不是只基于有限数据、以AI模型自身逻辑推理为主的“推理型”AI大模型为主。理由有两个：

1、人类活动积累了海量数据，能做到“模仿人类、有限推理”已经是非常大的突破，就可预见的将来，天花板之高目视不可见，根本不用担心触顶
2、人们对人类推理机制并未有足够深刻的理解，模仿深入不下去，让机器推理独立于人类推理独立发展有太大的失控危险，步子不敢迈得太快

ChatGPT、DeepSeek等现在的主要数据来源是书籍、网络等公开来源。书本知识只能是“一般智能”，网络数据鱼龙混杂，还有因果混淆的问题。比如说，到底是观点带动舆论，还是舆论凝聚成观点，这个因果性不搞清楚而不分青红皂白喂进模型训练的话，训练出来的模型就跑偏了。真正形成生产力的AI更是需要依赖大量专业数据。各行各业都有海量数据，他们自己根本没法AI化，但专业公司也有局限。

专业公司对AI模型的技术细节熟悉，熟谙训练中的各种技巧，但对数据预处理不在行。大数据的前提是“数据中自有颜如玉、黄金屋”。但要是数据中垃圾遍地，甚至邪压过正，那模型训练就是“垃圾进、垃圾出”。弄来一只嘴巧的鹦鹉，但总是教鹦鹉脏话，鹦鹉就肯定脏话连篇，因为鹦鹉是不知道好话、脏话的，学什么就说什么。AI专业公司就是那只鹦鹉。

其实没有“好数据”、“坏数据”，关键是什么数据都要标注明白这是在什么情况下得到的，然后训练的时候就可以把情景数据一起放进去。这样的模型比单用“好数据”训练出来的更加有用，因为不仅知道正常时候该是什么行为，在已知的异常时候也知道该是什么行为。异常情况分已知异常和意外情况。在工业上，已知异常包括产品转产、设备开停车、检修（还要分清检修类型）等等，真正需要“抓出来”提出警示的是不属于已知的意外情况，以为正常或者处在已知异常状态，实际上跑偏到不知道什么地方去了，这才是要特别注意的。意外跑偏大多是坏事，但也可能是好事。商务数据分析里，发现意外跑偏就是抓住新苗头的开始。

但专业公司的人对于具体行业数据里正常、已知异常不懂，行业里的人来做数据预处理最好，但实际上他们根本没有这个时间。这又不是他们的主业，人家还要正常生产、科研、该干嘛还干嘛。这就是中国优势可以发挥的时候了。

中国现在每年毕业约1000万大学生，其中理工科不知道具体比例，假设一半吧，这也是500万。现在找工作不容易，每年这500万中有100万人找不到工作的话，就是很大的社会问题。

但是换一个角度，他们受过基本的理工科训练，从事数据工业的话，具体项目知识由用户公司集训2-4个星期，在很多情况下就可以胜任基本的数据分类、标注工作，然后就可以放手让他们去干了。可能会时不时需要再咨询用户公司的有关专家，这人家应该乐意配合。这样，大量的行业数据需要大量的理工科人手从事数据预处理，

这些理工科人手不需要太专深的专业知识，只需要对相关工业有足够的一般了解，并得到具体问题的集训提高。还要坐得住，耐得住寂寞，因为他们的工作结果是别人的开始，他们自己是看不到结果的。但这是“劳动力密集”产业，需要的初级理工科人手不是三五百、三五千、三五万，随着AI工业的发展，这可能是几十万、几百万人的大规模，而且需要处理的数据在可预见的将来根本看不到头。中国和外国的公域数据已经海量，中国还有海量的私域数据。由于数据安全和不得出境，这活还只有中国人干得了。当然，同样的理由，外国的私域数据中国人也接触不到。

几乎所有公司在这几十年和更长时间里轻易积累了多少TB甚至PB的数据，还有海量的非数值数据。现在有一些以统计甚至AI为基础的辅助工具，还有自然语言输入工具，但驾驭这些工具依然需要理工科人手。同样，不需要太专深的理论基础和经验，但不能是“理工盲”。

数据工业的数据集可以来自具体项目和具体公司，也可以是广泛收集的行业共享数据。有的时候，行业成员有动力共享技术和商业数据，供跨越具体业界公司的行业测评（benchmarking）公司使用。一种做法是只公布最后统计分析的结果，这样谁都可以自己和行业标杆相比较，比如能耗、劳动生产率、单位排放、资金周转速度等等。只要数据里不包含具体公司，就没有泄漏商业机密的危险。另一种做法是连部分原始数据都提供给参加测评的成员公司，同样抹去具体公司信息，供成员公司进行自己的分析。

类似的做法可供AI-数据工业借鉴。

这只是在“进”的一头。AI模型训练完毕，还需要模型测评，确保如何实际。这里，再次需要大量初级理工科人手，他们甚至可以来自数据预处理的同一批人。

对于中国来说，发展AI-数据工业还有一个好处：无所谓地理条件和自然资源，不需要多少基础设施，有电，有网，有吃，有住，就够了。传统工业陷入瓶颈的老工业城市，水电交通发展起来但还是缺乏增长点的三四线小城镇，都是适合数据工业发展的好地方。老少边穷没问题，东北老工业区、黄土高原上、吐鲁番果园里、沿海发展中心之间“被遗忘的角落”都行。贵州等地已经在大力发展数据中心，但这只是数据仓库，存储大量“数据矿石”。数据工业好比冶炼厂、化工厂，把矿产和资源转化为中间体，供最终制成品工厂使用。

数据工厂那里能吸引足够的年轻人吗？哪里都有足够的年轻人，愁的是没有足够的高质量就业机会。数据工业未必是发大财的行业，但比排队考公不会差。

入门门槛不太高，不是非985、211不可，入门后还适合自己拉出来单干，客户大小公司咸宜，适合远程和网络化办公，发展天花板很高，发展潜力和速度很大，还等什么？

当然，滥竽充数是不行的，糊弄事害人害己，但认真做，这是值得重视的新赛道。

作者: 老票 时间: 2025-7-5 15:01
贵州日报消息：

本报讯（记者陈玲）6月27日，记者从贵安供电局获悉，贵安新区全社会用电量三年间年均增长42.97%，连续三年领跑全省，彰显区域经济高质量发展活力。

“用电量激增主要源于工业、大数据及民生领域用电需求爆发。”贵安供电局市场部总经理刘运兵介绍，以数据中心集群为例，用电量从2021年的8.6亿千瓦时增长至2023年的18.3亿千瓦时，增幅超2倍；今年1至5月，数据中心集群用电量增幅高达452.67%。工业领域，以宁德时代等52家规上企业为代表的产业集群用电负荷持续攀升，三年间用电量从2.3亿千瓦时增长至6.9亿千瓦时，增长3倍。

为支撑区域经济发展，贵安电网近年持续强化主网、升级配网，供电可靠性显著提升。目前，贵安新区年平均停电时间少于1小时，成为南方电网供电范围内西部首个供电可靠性进入“1小时”的地级行政区；配网自愈覆盖率达100%，自愈有效复电率86.04%，位居全省第一。

当前，贵安电网已建成220千伏变电站3座、110千伏变电站8座、35千伏变电站2座，形成“一环两核三区”网架结构，供电可靠性达99.99%，数据中心集群实现“零停电”。

*** ***

‌华为贵州数据中心是华为全球最大的云数据中心，位于贵州贵安新区，总投资300亿元，占地1521亩，可容纳超100万台服务器，存储华为在全球170多个国家的管理数据。

贵安华为云数据中心是华为技术有限公司在贵州省贵安新区建设的全球最大云数据中心集群核心节点，总建筑面积约14.4万平方米，包含地下室6.26万平方米和地上8.14万平方米。作为华为全球IT维护工程师基地和华为大学战略预备队训战实习基地，该数据中心承担华为云业务核心承载节点功能，支撑流程IT、消费者云等关键业务运营。

项目分多期建设，一期工程于2021年交付使用，二期高端园B3地块规划总用地面积204,951.91平方米，数据中心用途占比达95.83% 。采用欧式建筑群设计并执行绿建一星标准，通过算力基础设施支撑企业数字化转型，成为贵安新区"数据入黔"战略的重要成果。

作者: 晨枫 时间: 2025-7-5 15:22

老票发表于 2025-7-5 01:01
) R% Y2 j( d. L) x! v K贵州日报消息：9 v+ `7 Q1 a) L. l+ k8 r5 k
4 {5 _" j. F. Z, F/ U) F2 G
本报讯（记者陈玲）6月27日，记者从贵安供电局获悉，贵安新区全社会用电量三年间年均增 ...

好。但这只是开始。数据中心好比数据仓库，下一步是数据加工厂，这才是数据工业的意思。

作者: 老财迷 时间: 2025-7-5 17:19
前1、2年和一位数据仓库-金融领域的专家（贵州人）聊过，贵安的数据中心发展的不错，但只是数据中心，对数据的使用都在各家企业的总部。
国家的“东数西算”工程规划了8个国家算力枢纽节点，贵安集群（贵州枢纽-贵阳）肯定是最宜居城市。
目前还没有IT大厂在贵州开公司，哪天大家在一线城市卷不动了，可以去二线后排城市贵阳，山清水秀、气候宜人。

贵州只有一所211大学-贵州大学，在国内几项排名中都在90名左右，在自然指数最近一次学校排名是232名。
贵大计算机学院最近有本科生到某大厂拿到80万的年薪，5月底还出了个新闻：
【近日，华为ICT大赛2024–2025全球总决赛在深圳华为坂田基地举行。贵州大学计算机科学与技术学院大北农创新班的学生团队凭借扎实的ICT理论储备、出色的实践能力和高效的团队协作，在激烈比拼中脱颖而出，荣获实践赛昇腾AI赛道一等奖。】这团队中一个学生是本科三年级的。
目前，TOP2之一正在对口帮扶贵大计算机学院。

作者: 五月 时间: 2025-7-6 00:39

爱坛有这么多干IT的，可以组团搞个数据工厂外包嘛。既可以接国内的单，也可以接国外的单。

作者: 晨枫 时间: 2025-7-6 00:48

老财迷发表于 2025-7-5 03:19
* I+ X1 w2 ^ b& Y前1、2年和一位数据仓库-金融领域的专家（贵州人）聊过，贵安的数据中心发展的不错，但只是数据中心，对数 ...

这就像沙特、阿联酋，坐在石油资源上，现在大力发展炼油厂、石化厂，将资源变为初级工业品。贵州也需要从数据仓库走出来，进行初级加工。这能消化大量本地人才，甚至能吸引来很多其他地方的人才。

作者: 晨枫 时间: 2025-7-6 00:48

五月发表于 2025-7-5 10:399 Z+ J5 G/ Z7 J4 u7 `" I* g* v# a
爱坛有这么多干IT的，可以组团搞个数据工厂外包嘛。既可以接国内的单，也可以接国外的单。 ...

这事情跨境搞可能难。国内数据不准出境，境外反过来。

作者: yanei 时间: 2025-7-6 03:19
这个想法不错，有希望搞起来。世界上像样的信息资源除了英文，就是中文了，而且大量英文信息中国人也照样可以用。不会错失这次的工业革命了。

作者: 老财迷 时间: 2025-7-6 09:11

晨枫发表于 2025-7-6 00:48
/ b% \9 w' [2 y& I2 T这就像沙特、阿联酋，坐在石油资源上，现在大力发展炼油厂、石化厂，将资源变为初级工业品。贵州也需要从 ...

非常希望啊，先进行初级加工，进化到做数据应用

希望贵大的计算机专业能上个台阶

作者: 晨枫 时间: 2025-7-6 10:18

老财迷发表于 2025-7-5 19:11
2 i: L5 O# m w' j) v4 ^$ \非常希望啊，先进行初级加工，进化到做数据应用
) c4 \1 z4 g8 { r" F% l. z& c* P# ^希望贵大的计算机专业能上个台阶 ...

这活儿一众二本、大专都有戏

作者: 老财迷 时间: 2025-7-8 21:44

晨枫发表于 2025-7-6 10:187 r- X/ V; |1 T
这活儿一众二本、大专都有戏

得有大公司、技术大拿带头去贵州创业才行，目前还都在一、二线城市卷。

作者: 大黑蚊子 时间: 2025-7-8 22:52
东北做IDC其实可以的，地方大，配套全，跟北京的物理距离近，人力资源啥的也都好说
贵州可以做数据存储中心，做CDN之类需要响应速度的就不太行
我有个同学以前在微博，他说他们测过把后台数据库放在贵州行不行，结果来回时延就100ms，不符合主要用户的需求，放弃了
不过这已经是起码10多年前的事情了，不知道现在是个啥情况

作者: 晨枫 时间: 2025-7-8 23:08

老财迷发表于 2025-7-8 07:448 S9 J6 X0 p$ d# j, H0 [4 O1 S: ]
得有大公司、技术大拿带头去贵州创业才行，目前还都在一、二线城市卷。 ...

这事不一定需要大公司，只需要能打通通向大公司之路的人。有点像杭州六杰？他们都不是大公司，成名之前也谈不上大拿，地方相比很近的上海更是优势劣势并存。

数据工业真不需要在一线、二线城市卷，地理近便没有好处。

作者: 晨枫 时间: 2025-7-8 23:12

大黑蚊子发表于 2025-7-8 08:52
( ?$ C6 c0 V4 K7 k# ]东北做IDC其实可以的，地方大，配套全，跟北京的物理距离近，人力资源啥的也都好说
0 q- ~2 l7 V" ?" T- x, ?贵州可以做数据存储中心 ...

这和物理仓储是一个道理：仓库不能离用户太远，否则运输就成了问题。

但数据工业本身就是数据的最大用户。这好比快递的分拣中心。要是运进来和运出去的问题解决了，分拣中心偏僻一点不是个问题。

对于数据工业来说，数据的实时性相对不重要，用户需要的也是分拣好的数据，同样实时性未必是第一位的。AI模型训练没有那么分秒必争，和从数据中心直接调用速度不同。

作者: greatangdy 时间: 2025-7-31 21:12

大黑蚊子发表于 2025-7-8 22:523 i7 |- _9 H* x+ ]+ ^% ^
东北做IDC其实可以的，地方大，配套全，跟北京的物理距离近，人力资源啥的也都好说6 l) h; J4 R2 N( B
贵州可以做数据存储中心 ...

我在菊厂搞传输那几年，三大运营商都建设了覆盖全国主要城市的OTN专网，理论上两点之间可以一跳直达，加上两端光电转换的时延，应该单向能做到30毫秒了

欢迎光临爱吱声 (http://129.226.69.186/bbs/)