再谈人工智能正在成为国运之战
深度求索及其开源通用大模型R1突然成为炙手可热的全球性关注话题,不仅因为深度求索以低成本实现了“以小搏大”,其成功故事也成为国运的写照。人工智能的作用就不多说了,有关论述汗牛充栋。简单地说,人工智能可能像几十年前开始的芯片控制和数字化一样,将深植于几乎所有新科技的创建和老科技的升级之中。但低成本带来质变,不只是量变。
汽车是德国的卡尔·奔驰发明的,但直到美国的亨利·福特发明了流水线,海量生产低成本的T型汽车,汽车只是有钱人的玩物,豪华马车的代用品。在福特之后,低成本汽车迅速改变了人们的生活方式,也在本质上重塑了世界经济,成为世界经济和政治中心从欧洲转移到美国的重要推手。
低成本人工智能有望起到类似的作用,深度求索的开源路线和“蒸馏技术”使得“白菜化人工智能”成为可能。
再通用的大模型也会是“万宝全书缺只角”,开源路线使得其他人可以在开源构架上打造自己的人工智能应用,“蒸馏技术”则可以用小模型去芜存菁地保留需要保留的方面,有针对性地加强大模型不足的方面,进一步缩小模型,降低训练和运作的门槛。
开源化和小模型化可能开创新经济,比如说,私用的购物和生活小帮手。
现在,电商平台上的产品信息浩如烟海,人们需要自己到一个又一个电商平台上去看、去比较、去判断,或者根据亲戚朋友的口口相传来缩小选择范围。私用的小模型可以做这个工作,根据电商平台的产品和服务信息、点评(包括平台的和公共的)、个人和亲友推荐的加权、一般科技和生活常识的验证,加入个人习惯和偏好,精准推荐购物和服务选择。
这样的小模型是私用的,避免了平台的垃圾推送,也避免了隐私外泄。更重要的是,这是跨平台的。简单说,是把常说的“上网一搜”自动化、人工智能化了。
推而广之,私用小模型还可以用于家教、职场、健康等,关键是私用化、定制化。
这需要足够小、低成本、低训练和运作门槛,但居家旅行教育职场是海阔天空的市场,容量无可限量。
开源模型不是深度求索发明的,但深度求索把开源人工智能推到前所未有的高度,并且提供了基本的开发工具包。相比之下,OpenAI、Anthropic、Google都是闭源的。
开源vs闭源,或者更加广泛地说,开放架构vs闭合架构,是信息科技发展史上几番出现的主题。如今人们只说PC,已经忘记IBM是PC架构的开创者。在差不多的时候,苹果推出自己的架构,其实还有Atari、Commodore、Next、Sparc等其他架构。
最后,PC所代表的开放架构胜出,因为开放架构可以调动几乎无限的资源,为相关生态添砖加瓦。这种乘数效应是靠一己之力的闭合架构无法比拟的。开放架构与寄生开发是共生、共荣的。
在软件方面,与PC对应的是从DOS到Windows的开放式发展道路,同样打出比iOS更大的天地。实际上,iOS已经在相当程度上开放化了,更像“不一样的Windows”,而不是苹果独占的软件生态。
PC和WinDOS架构是为家用电脑推出的,简称WinTel架构。在今天,网络化和高性能化使得WinTel不仅继续“霸占”家用市场,也逐步取代了专业应用与工业控制和武器控制过去常用的专用架构。计算机辅助设计(CAD)和数值分析早就不用专用工作站了,而是在WinTel上运行。工业计算机控制系统(DCS)用服务器级的PC和工业规格的显屏(更加长寿、可靠),但在架构上与办公网络没有本质区别;机场航管甚至“宙斯盾”系统也用WinTel架构,以至于早年Windows NT的故障曾经使得香港赤腊角机场和美国海军“协同作战能力”宕机。
在安卓vs苹果时代,开放架构再次胜出。苹果有大批铁粉,但安卓的市场份额决定性地更大。
开源不是完美的,容易有升级路线和相容性问题,但开源无疑具有更加强大的生命力。闭源依然有性能可靠和相容性有保证的优点,所以依然占有一席之地。但在几乎所有市场上,开源的份额都决定性地超过闭源。
这一大趋势将大概率在人工智能上重演,而深度求索及其代表的中国式高性能开源路线正在引起美国的深深忧虑。
美国继续死抱“小院高墙”思维,继续闭源是主流思维,一方面控制人工智能的发展方向和速度,另一方面独吞人工智能的经济效益。
但有了开源、低成本平替,“小院高墙”可能成为死路,至少是支路。既然最好的开源技术来自中国,美国的开发界就将基于这些技术构建他们的系统,成为中国领导的人工智能生态的一部分。开源的活跃性和包容性将进一步扩大中国领导的人工智能生态的影响,使得中国成为世界新科技的中心。这对美国霸权是巨大的危险。
开源也意味着新经济。比如说,私用的购物和生活小帮手需要海量的公域数据,每人每家的小帮手都到网上“搜刮”差不多的数据,这是巨大的浪费,也是巨大的成本。专业的“公域数据批发商”可能应运而生,集中“搜刮”公域数据,提供云服务,用于训练私用小模型。
相关的小模型训练也会应运而生,好比人工智能时代的云上“驯狗师”,帮助个人用户训练、调整、更新私用小模型。
一方面,这依然把隐私和数据自主交给了“别人”,另一方面,这个“别人”是自己可选的,而不像平台,没得选。如果有足够的自信和技能,自己动手也可以,那就没有“别人”的问题了。
小模型和大模型也是相辅相成的,这是自驾和公交的关系,不是相互替代的关系。
人工智能可能意味着颠覆性的科技发展,意味着全新赛道,意味着重新洗牌和重拉起跑线。在航空科技的历史上,喷气时代就是这样的颠覆性时刻。
苏联航空科技的启动很早,但由于科技实力和综合国力差别,直到二战时代,苏联航空科技的水平不及欧美。但在喷气时代的重新洗牌中,苏联一跃而进入第一梯队,米格-15和F-86打得有声有色,同时代的欧洲喷气机落后了。肯定会有人以米格-15用罗尔斯-罗伊斯“尼恩”发动机来说事,且不说米格-15用的是苏联自己的改进型,他们应该说说英国为什么没有用“尼恩”造出至少和米格-15一样好的战斗机。
从这里开始,苏联航空的辉煌一直延续到冷战结束,苏-27的篇章至今在中国续写。
苏联科技决策错误使得苏联错过了战后更加广泛深刻的电子科技和数字革命,经济和科技的过度军事化最终限制了颠覆性时刻在更大层面上开花结果。
中国是完全不同的情况。宽广深厚坚实的科技和制造业基础提供了土壤,庞大、勤劳、聪明的人口提供了水份,以民为本、“发展是硬道理”的政策提供了阳光,和平崛起、共同发展的基本国策提供了空气,颠覆性的科技革命就成为种子,重新洗牌和重拉起跑线就是历史性的起飞时刻。
在社会层面上,深度求索也有重大的提示意义。
梁文锋这个“新杭州人”突然成为热点人物。他来自广东湛江,浙江大学硕士,2008年毕业后留在杭州创业,2015年创立对冲基金“幻方量化”,2019年成为中国首家突破千亿元人民币的私募量化大厂。2023年全球AI热潮爆发,梁文锋宣布转变赛道,同年7月成立深度求索。
在他的旗下,汇集了一支小而精的队伍,139名研究人员大多由中国本土培养,其中许多是清华、北大应届毕业生甚至在读生。据说,深度求索“只招1%的天才,去做99%中国公司做不到的事情”。
一段时间以来,“寒门不再出贵子”的说法甚嚣尘上。梁文峰估计不是豪门出身,否则毕业后早该回家继承家业了,没必要留在杭州创业。广东是发达地区,但发达集中在珠三角,“粤东西北”是广东的特有名词,专指珠三角之外的“欠发达”广东,湛江是其中一部分。追究梁文峰家的财产有点无聊,但推测起来,他不是富二代,并无“豪门红利”。
浙大是名校,梁文峰的成就绝对有浙大的贡献,但也打破了“非北清不能出人才”的迷思。深度求索确实招募了很多北清的人,但主心骨并不来自北清。梁文峰是浙大的,按照“第一学历为王”的思路,被小米用1000万年薪挖走的罗福莉是北师大的。北清复交浙科等C9都是中国的顶级名校,但在这小圈子之外,还有更多的优秀高校,有更多的优秀人才,不要被“蓝筹股”思维蒙住眼睛,而是需要“蓝海股”思维。
深度求索也打破了“博士才是人才”的迷思。人才是才华与激情的一体,据说梁文锋招人最注重的是对事业的激情,否则到大厂捞人才是捷径。硕士也好,博士也好,真才实学重要,一心要干事业更重要,否则学位只是学位,只是在留守学校耗日子的本事更大。梁文峰和罗福莉都“只是”硕士,手下倒是可能有一大帮博士。
深度求索也没有靠海龟撑台,有说法统统是中国自己培养的人才。这不仅是对中国高等科技教育的最大认可,也是对美国的极大尴尬。从特朗普1.0到拜登,美国的迫害的导致大批中国科学家回流中国,这股大潮依然在继续。正常的中美科技交流和留学生学习也受到严重干扰。在美国事业有成的中国科学家和归国留学生对深度求索的成就没有直接贡献,但对中国其他科技成就和进步的重大贡献依然是有目共睹的。
美国迫害的理由是杜绝中国“偷窃”美国先进科技。回到中国的科学家带回了知识和经验,回到中国的留学生带回的则是更加基本的教育和训练,但毕竟都是一次性的,对美国科技人力资源的损害只能希望通过时间来弥补。问题是,当中国在关键科技上领先美国后,继续迫使中国科学家回流和阻挠正常科技交流对美国就是双输了,需要“偷窃”先进科技的是美国。
深度求索也是小公司,还在幻方量化时代就是小公司。不管在渊源上,还是在关系上,深度求索都没有大厂背景,没有国家队背景,没有名师点拨,也没有名家开路,杭州不是小地方,但也不是北上广深。深度求索为“小镇做题家干出大事业”开了一个好头。
这是颠覆性的时代,更是知识经济的时代。有砸钱才能解决问题的地方,更有思考才能解决问题的地方。积累的重要性不再绝对,有思路才更重要。在重拉的起跑线上,灵机一动意味着抢先起跑。这里没有发令枪,看好了就自己跑。看不清楚瞎跑也意味着可能掉进坑里。
知识经济时代的问题没有简单的答案。知识世界是复杂的。OpenAI等“传统人工智能”团队走所有问题一视同仁的大一统路线,典型大模型有多达1.8-2万亿个参数,训练时要对这些参数统统调整,解算时也需要数据在所有这些参数中“走一遍”,算力要求可想而知。
深度求索采用化整为零、化零为整的思路,将巨大的问题分解为既相关又独立的子问题。较小的子问题只需要较小的模型,但在顶层,有另一个“交通指挥模型”将需要求解的问题导向相关的小模型,对“跨界”的问题则调用若干相关的小模型,并根据与各子问题的相关程度协调子模型之间的解。因此,模型只有6710亿个参数,而且任何时候都只有不超过370亿个参数激活。这是深度求索可以用较小算力训练和解算的关键。
据说爱迪生要求学生熟记各种原理和方法,这样才能在需要的时候熟练调用;爱因斯坦则要求学生理解各种原理和方法,需要的时候细节可以翻书。这差不多就是中美大模型的思路差别。
这不仅再次说明“蛮干不如巧干”的道理,也说明在科技发展出现颠覆性变化的时候,“世界是平的”,辉煌属于有想法、有准备的人,而并不一定只属于大厂、国家队。幻方量化在人工智能方面植根不久,但此前从事的高频率交易对计算效率的要求很极端,所以在大模型“巧算”方面的成功并不偶然。中国肯定需要华为这样的大厂,也需要科学院这样的国家队,但深度求索这样并无业界背景的小厂不仅有机会,还放了一个原子弹。
深厚积累永远是有用的,但在颠覆性的时代,抓住当下、勇于创新更重要,这本来就是重拉起跑线的意义。尤其应该注意的是,机会常常与困难并存,需要的是珍视机会,不要被困难吓住。在30年前,“下海”是既惊心动魄又振奋人心的时刻,那是“繁花”的时代,也是大下岗的时代;现在又是“下海”的时刻,是银杏叶和深度求索的时代,也是躺平的时代。30年前的下海需要的本钱是资金和关系,现在下海需要的本钱更是知识和前瞻。
在“繁花”时代,人们前赴后继地下海,是看到前人成功,激起“我也能”的自信。在人工智能时代,深度求索是个好榜样,希望能激起更多初创科技企业的产生,并在融资市场上得到更多的支持。中国制造业已经产生一大批“小巨人”,中国科技也需要一大批“小巨人”。
人工智能已经显示了在简单、重复性脑力劳动方面的能力,只会越来越向高级的方向发展。这可能启动新的一轮物竞天择、适者生存。未来人类可能会精英化,只有善于学习、永远思考、不断进步的人才能生存下来,否则人类的每一丁点进步都很快会被人工智能跟上,接下来就是平替。
在理论上,机器设备好比是长工,人工智能好比是管家,人类好比是东家。长工只管干活,但管家要是太聪明,东家的每一丁点心思都被猜透,甚至管家看得比东家更远,管家就爬到东家头上了。东家需要永远想在管家前面,这意味着人类需要越来越注重创造性和前瞻性思维,否则越来越能打的家丁团队就反客为主了。
不断有人询问,人工智能发达后,人们是不是每日只需要吟诗作画了。不是,应该是更繁忙了。在农业时代,人们日出而作,日落而息,但还有农忙农闲。在机器时代,人们披星戴月,常年无休。在人工智能时代,人们可能不再有上班下班之分,工作与闲暇的界限也模糊了。
这没有那么可怕,原创思维不是打螺丝,本来就是不看钟点的、不看地方的。出思路不一定在坐班时间,更不一定在办公室。只要出思路,什么时候、在哪里不重要,白天在海边闲暇、晚上在家里干活没什么不可以。诺斯罗普的首席电磁学家奥希拉就是在看孩子在迪斯尼玩“旋转茶杯”的时候,捏着橡皮泥,想明白电磁能量从圆钝表面流向尖锐边缘然后“流失”的原理,奠定了B-2轰炸机的基本设计原则。奥希拉的时代不是人工智能时代,但这正是精英化、永远思考的意义所在。
人们不光要与天斗,与地斗,与人斗,与机器斗,还要与人工智能斗。只有不断学习,不断思考,不断进步,才能使唤人工智能,而不是被人工智能使唤。
不断有各种“躺平有理”的论调。人各有志,不能强求。但深度求索也说明了在中国还是有很多能干、肯干、实干的年轻人。他们充满激情,不惧权威,开放思想,敢于领先。
国运之战开始于自强,自强开始于自信。中国的百年耻辱开始于当时对民族、对未来丧失自信。这不是少数领袖人物有自信就够的,需要全民自信。
在今天,中国人越来越自信了,但一有风吹草动,还是容易自我怀疑,重回不自信。比如说,中国经济基数大了,按名义GDP据世界第二,按购买力等价GDP据世界第一,发展速度依然在主要经济体里领先,根据IMF和中国国家统计局数据,2024年中国GDP增长率比美国高80%,是欧盟的4.5倍,是日本的16倍多。但很多人依然认定“经济大环境不好”、“不在挣扎中躺平,就在躺平中挣扎”。听信唱衰或者自我唱衰说到底还是信心问题,渴望领先但不敢领先是最大的缺乏自信。
新中国成立带来站起来的自信,两弹一星带来国家安全的自信,改革开放带来重立于世界民族之林的自信,银杏叶时刻带来军事领先的自信,小红书大对账带来民生和制度的自信,深度求索大杀四方带来科技领先的自信。
同时,深度求索的成功故事也可望成为激励,让更多人对时代充满信心,对未来充满信心,抓住机会,勇敢创业。
国运转变是一个过程,而不是一个时刻。只要中国崛起没有完成,国运之战就在继续。中国已经过了弯道超车的时代了,现在是直道超车的时代。中国从来善于学习,现在需要敢于领先。不仅需要在硬核科技上敢于领先,更需要在人们心态、社会和经济生态上敢于领先。
深度求索没有发明人工智能,没有发明大模型,“只是”极大地改善了人工智能和大模型。詹姆士·瓦特也没有发明蒸汽机,他“只是”极大地改善了蒸汽机。
在这个意义上,人工智能正在成为中国国运的关键之战。
知识经济时代的问题没有简单的答案。知识世界是复杂的。OpenAI等“传统人工智能”团队走所有问题一视同仁的大一统路线,典型大模型有多达1.8-2万亿个参数,训练时要对这些参数统统调整,解算时也需要数据在所有这些参数中“走一遍”,算力要求可想而知。
深度求索采用化整为零、化零为整的思路,将巨大的问题分解为既相关又独立的子问题。较小的子问题只需要较小的模型,但在顶层,有另一个“交通指挥模型”将需要求解的问题导向相关的小模型,对“跨界”的问题则调用若干相关的小模型,并根据与各子问题的相关程度协调子模型之间的解。因此,模型只有6710亿个参数,而且任何时候都只有不超过370亿个参数激活。这是深度求索可以用较小算力训练和解算的关键。
晨大好。
您文章的大势讲的没错,但是上面的这一部分阐述,其实是不准确的。这是去年下半年开始流行的moe架构,ds不是首创,gpt用moe架构也很早,只是不公开。
我个人的看法,DS的创新更多是工程化的创新,是因陋就简,筚路蓝缕的组合使用已经存在的各种技术、选择缝合探索尝试某些组合路径,修改其中的适配机制。包括R1的强化学习思路也不是全面的创新,而是在AI的大潮中尝试自己的路。这个尝试DS在做,Kimi也在做,智谱、通义、元宝、豆包、百度都在做。
所以您的大势没错,但可能还是不能把这归结于DS的胜利,而是应该归结于机制的优势。
在AI的赛道上,顶层规划统筹和饱和式的投入,这是集中力量办大事的体现。从更宏观的角度看,DS只是其中的冰山一角。 xiejin77 发表于 2025-2-12 19:55
知识经济时代的问题没有简单的答案。知识世界是复杂的。OpenAI等“传统人工智能”团队走所有问题一视同仁的 ...
确实,很多关键技术都不是DS发明的,DS只是改进。再套用原文里的一句话:
詹姆士·瓦特也没有发明蒸汽机,他“只是”极大地改善了蒸汽机。
DS也是一样。
页:
[1]