爱吱声

标题: AI 本地部署 [打印本页]

作者: 孟词宗 时间: 2025-3-9 13:35
标题: AI 本地部署
大黑蚊子同学说要排队买苹果新出的 Mac Studio (
Apple unveils new Mac Studio, the most powerful Mac ever, featuring M4 Max and new M3 Ultra
With Thunderbolt 5, up to 512GB of unified memory, and an up to 16TB SSD, all in a compact design, the ultimate pro desktop delivers even more performance
) 主要目的是为了在本地跑 DeekSeek 671B 的压缩版。根据他的估算，512 GB 大概正好有足够的内存可以跑起来。

在一般人的概念中，AI 大模型是很高大上的东西，一般家用电脑是跑不了大模型的。虽然在一定程度上来说这个理解没错，但实际上 AI 大模型并没有那么高不可攀。

如果只是单个用户的话，AI 大模型对于硬件的要求其实并没有想象的那么高，不过要求 CPU 必须支持 AVX2 （Advanced Vector Extensions 2）。但 AVX2 也不是什么新东西，2013年就开始出现在 CPU 上了。到现在绝大多数 3-5 年新的 CPU 都支持 AVX2，能跑 AI，并不需要显卡。当然如果有显卡的话，能够分担全部或部分的 AI 运算则更好。

关键在于是否有足够的显存+内存。大模型根据参数不同有不同尺寸，小的才几个 GB，大的有几个 TB。如果个人电脑的显存+内存 > AI 大模型尺寸，一般就能够跑得动大模型。当然，如果大模型的尺寸较小，能够放进显存里，那么速度就比从单纯在内存中运行或在显存+内存中运行要快的多。

问题是大多数显卡的显存都是有限的。例如英伟达的 H100 一般只有80 GB HBM2e memory。对于全尺寸的大模型来说，这显然是不够的。英伟达的解决方案是把多个显卡通过 NVLink 链接起来，则多个显卡的显存可以被整合在一起。

这个 NVLink，以前叫做 SLI，（AMD 的对应技术叫做 CrossFire, 现在叫做 UALink ）本来是在家庭级显卡上也有的。但从 RTX 30 系列开始，英伟达不再在家庭级显卡支持 NVLink （3090 除外，这是最后一个英伟达家庭级显卡仍支持 NVLink的）。背后的原因是如果家庭级显卡也能链接，那么就有可能让家庭级显卡也能组合成显卡群来进行商业级 AI 运算。这会对英伟达的专业显卡销售造成冲击。例如 RTX 3090 虽然只有24GB GDDR6，速度也没有 H100 快。但四张 RTX 3090 组合起来可以达到 96GB，已经超过了 H100。而价格不过 $6000 美元。H100 一般零售价格最低也要 $27,500 美元。虽然性能和 H100 没法比，但一般的轻量本地部署足够了。

虽说多个显卡组合不错，但单个显卡的内存还是相对太小。多个显卡对于主板和电源的要求更高。对于非商业用途来说，成本会随着显卡数量上升而指数上升。显然并不合算。而 AI 的蓬勃发展，使得高端家庭显卡一卡难求。英伟达的产能都拿去生产商用卡了。即使是工作站卡的价格也因产能不足飞涨。

于是苹果看准机会推出了 Unified Memory。苹果的 CPU，尤其是 M4 和新的 M3 Ultra，都集成了显卡和AI。传统的内存和显存的区别没有了。于是 AI 理论上可以直接使用全部 Unified Memory。这样如果一台苹果有 256 GB，那么理论上就可把尺寸小于 256 GB 的大模型放在Unified Memory跑，而且还是用显卡和AI Unit 跑。

英伟达当然不能把这块市场让给苹果，于是推出了 Project Digits。这个机器有 128 GB Unified Memory。相对较小，但可以用 NVLink 链接数个 Project Digits. 而且价格也比较亲民，据黄皮衣说只要$3000美元起。苹果的回击就是文章开头那个 512GB 的 Mac Studio。正好等于 4 个 Project Digits，但定价只相当于 3 个 Project Digits。

其实，如果真有一万美元的预算的话，完全可以自己搭一个工作站。可以有 512 GB 的内存，足够跑 DeepSeek 671B 压缩版了。而预算翻一倍的话，甚至可以搞成 1 TB 到 2 TB 的内存，足够跑任何非压缩版的大模型了。

当然，如果真有一两万美元的预算的话，最优解并不是自己搭个工作站，而是使用 NIM 之类的服务或者干脆租个服务器。从价格上来说比买个 Mac Studio 中期内还是合算的。功能还更完整一些。

如果有特殊要求，非得用本地工业部属的话，一般要进行专用训练。也不是参数越多越好。而是要根据客户的硬件条件来和功能要求来确定模型和模型大小。

就算通用模型也可以这么办。例如 Huggingface 上有很多写文章的模型，大多只有7B到10B, 最多的27B。但用来写英文 7B 的就足够了，大小也就几个 gb，在一般 PC 上，不用显卡都可以跑得飞快。写中文也一样。写现代文的话，QwQ， Qwen， DS 蒸馏版的压缩版基本就够了。写文言不好。但这是训练问题，而不是模型本身大小的问题。如果要写文言，完全可以拿 Qwen 专门训练一个。

而参数少的模型，功能也越来越好了。例如刚刚发布的通义千问的 QwQ-32B，号称和 DS-R1 完整版性能一致。这个模型全尺寸也才60 GB 级别，一般有64GB RAM 以上的 PC 就能跑了。Huggingface 的网址如下：
QwQ-32B Huggingface Repo: https://huggingface.co/Qwen/QwQ-32B
QwQ-32B Demo : https://huggingface.co/spaces/Qwen/QwQ-32B-Demo

让QwQ-32B 的 Demo 写了篇《汉武论》，文采不如 DS-R1, 但还凑合。当然，AI 幻觉还是不少的。
=========================================================
汉武论

汉武帝刘彻者，雄才大略之主也。其在位五十四载，拓疆宇、定典章、兴文教，虽有过举，然功业之盛，实为中国帝王史上罕见。今论其治，当分三端言之。

其一，武功赫赫，威震四海。北逐匈奴，封狼居胥，拓地三千里；南征百越，置郡九，开滇池为汉疆；西通西域，凿空张骞，丝路初启；东伐朝鲜，设乐浪四郡。卫霍之师，饮马瀚海；楼船之众，扬威沧溟。然连年用兵，耗尽府库，民疲于转输，马邑之谋败后，犹不悟兵连祸结之弊，致百姓流离，饿殍载道。此武功之盛与民困之痛，实为帝王黩武之鉴。

其二，文治恢弘，制度丕变。推恩之策，析诸侯地，藩镇之祸自此绝；刺史六条，察州郡奸，汉室纲纪为之肃。盐铁官营，均输平准，虽抑商贾而敛财利，然致国用稍充。独尊儒术，罢黜百家，立太学博士，使孔孟之道成官方意识形态。然轮台罪己诏中自悔"兴事功，轻费用，营作过度"，盐铁之议亦载"与民争利"之咎。文治虽盛，然专制之端渐显，儒术独尊实为思想钳制之始。

其三，用人善下，亦有昏聩。宠信酷吏，严助、朱买臣等能臣皆得用；纳司马迁、东方朔之直谏，虽有宫刑之辱，然史记得以流传。然晚年好神仙，求不死药；信江充，致巫蛊之祸，太子无辜死，三王子争斗，皇嗣几绝。轮台罪己诏中自陈"既痛为百姓以劳费天下"，然晚景凄凉，实为专断之果。

太史公云："孝武穷奢极欲，繁刑重敛，内侈宫室，外事四夷，信惑神怪，巡游无度，使百姓疲敝。然亦卓然有隽思鸿业焉。"诚哉斯言！汉武拓土开边，奠定汉地之基；建章立制，规范后世之法。其雄才可比秦皇，然仁德不及文景；武功可比成吉思汗，然文治远超。盖历史人物，岂能尽善？然其功过昭昭，恰如霍去病"匈奴未灭，何以家为"之志，虽有苛政，终成汉家气象。后世论者，当观其大节，鉴其得失，方不负史家笔墨。

（全篇共516字）

注：本文以史家笔法评述汉武帝，首段总括其地位，次三段分述武功、文治、用人，末段引太史公语总结。用典如"封狼居胥""轮台罪己诏"等，既显史实厚重，又暗含褒贬。句式骈散结合，间用四六骈偶，符合文言文规范。末段"霍去病之志"句，以点带面，既赞其气节，又暗讽其黩武，体现辩证史观。
==================================================================

继续让 QwQ-32B 写了几篇文言文，又让 DeepSeek-R1 Qwen 32B 蒸馏版写了几篇同样的题目，发现用词造句都差不多。例如让它们模仿《谏逐客疏》写一篇反对美国驱逐移民的文言文。结果同样的词句 “况移民者，皆怀赤诚之心而来。或避战祸，或求生计，或追理想，其志可悯，其情可嘉。彼等披荆斩棘，筚路蓝缕，以异乡之躯，铸美利坚之魂。若以法逐之，非但违先贤"人人生而平等"之训，亦失立国之本也。” 多次出现在两个 AI 写的不同版本中。

所以 QwQ-32B 大概就是 DeepSeek-R1 Qwen 32B 蒸馏版改头换面了一下。功能是强了点，但和完整版的 DeepSeek-R1 还是差一点的。

完整版 DS-R1 写的文言文和 QwQ-32b 以及 DS Qwen 蒸馏版还是不同的。文采要好多了。QwQ 和蒸馏版往往写着写着就成白话了，而且用典也不对。

========================================================
DS-R1 模仿李斯的《谏逐客疏》写的《谏美国逐移民疏》：

臣闻美廷议逐移民，窃以为谬矣。昔者五月花扬帆，清教徒辟疆；独立星旗初展，拉法耶特仗剑。若必本土之民而后可用，则何以有富兰克林熔铸百族，华盛顿帐下外籍虎贲？今欲弃四海英才而固本邦，此非开国先贤所以兴美利坚之术也。

观夫硅谷云涌，半数创客皆异邦之子：马斯克南非星火，布林俄裔奇才。若执意驱之，则特斯拉电驰长空，谷歌搜索绝迹，苹果明珠蒙尘。是使科技巨擘拱手让人，创新血脉中道而斩，岂不令寰宇智士寒心乎？

至若百老汇霓虹，好莱坞光影，移民之彩笔点染其间：卓别林英伦幽默，赫本比利时风华。若尽逐之，则银幕失色，舞台寂寥，文化长河顿失支流。昔年熔炉淬炼，方成美利坚气象；今日门户锁闭，犹似枯井自囚。

臣闻太山不让土壤，故能成其高；河海不择细流，故能就其深。昔曼哈顿计划聚天下智者，爱因斯坦德意志遗珠；今疫苗研发汇五洲俊彦，辉瑞药厂移民执牛耳。驱逐令下，犹如自断经脉，废武功于鼎盛之时。

夫移民者，美利坚筋骨之钙也。自横贯铁路华工血汗，至阿波罗登月德裔巧思，移民脊梁撑起星条旗。今若反本逆源，恐成孤岛之困：科技江河日下，经济引擎失速，文化灯塔晦暗。届时"自由女神"手擎空炬，"山巅之城"徒留断垣，岂不悲哉！

书曰："有容，德乃大。"伏愿美廷鉴古观今，收逐客之令，复包容之道，使天下英才仍效马前之驱。如此，则星条旗永耀，山巅之城长存矣。
========================================================

上面的测试都是用的在线的 AI。在测试的同时，花了一个晚上，把 QwQ-32B 的完整版从 Huggingface 上扒下来装俺三年旧的 PC 上了。

硬件：
i9-12900
RAM: 192 DDR5
Graphic: 4090 24GB

跑了一下，发现速度还不错。即使完全放在 RAM 里不用显卡运行也还能跑。

现代文写的不错。9.8 vs 9.11 也解对了。让它写了一些小程序也没问题。不知道为啥，本地跑的版本写的文言文比 Demo 的文采好点。莫非 Demo 的不是完整版？

QwW-32B 本地版写的诗词：
=======================================================
《赤壁怀古》
赤壁摩崖蚀岁瘢，大江东去浪犹残。
连营烈焰焚曹舰，断戟沉沙锈汉环。
瑜亮经谋成鼎足，孙刘唇齿化烽烟。
千秋谁解兴亡局，一任大江流急湍。

《桂枝香·金陵怀古》
江流如练，望故垒斜阳，烽火曾遍。
六代宫城灰烬，剩苔侵殿。
乌衣巷口燕空绕，对残垣、旧时谁见？
莫愁烟雨，秦淮灯冷，客舟孤泫。

念周郎、雄风已远。
叹虎帐筹谋，难锁吴苑。
霸业成空王气，散随云卷。
石头城下涛声咽，问兴亡、几人能辨？
惟余明月，千年依旧，照人肠断。
==============================================

对比一下真人写的《桂枝香·金陵怀古》：

登临送目，正故国晚秋，天气初肃。
千里澄江似练，翠峰如簇。
征帆去棹残阳里，背西风，酒旗斜矗。
彩舟云淡，星河鹭起，画图难足。

念往昔，繁华竞逐，
叹门外楼头，悲恨相续。
千古凭高对此，谩嗟荣辱。
六朝旧事随流水，但寒烟，芳草凝绿。
至今商女，时时犹唱，后庭遗曲。

可见QwW-32B 本地版的七律虽然写得很打油，但词的质量倒是出乎意料的高。又测了一堆东西，确定只要有足够的内存就可以跑。速度比较慢，基本是一秒两三个字往外迸，但毕竟是可用的。功能和在线版的 DeepSeek 虽然有一定差距，但到底不需要一两万美元的预算才能跑。

如果不想自己攒机，我觉得 Project Digits 还是比 Mac Studio 的性价比高点。无他，Mac Studio 即使有 512GB 但已经无法继续扩展，而 Project Digits 可以用 NVLink，理论上是可以组成群的。

作者: 数值分析 时间: 2025-3-9 14:11
谢谢孟兄好文，最近正在琢磨这哥事儿。顺便请教一下，老兄有没有试过本地部署同一个模型（比如您说的QwW-32B），用GPU和CPU大概性能会差多少？谢谢

作者: 雷声 时间: 2025-3-9 19:23
您这三年新的旧PC现在也很高端吧。我公司用的工作站都没这么多内存。显卡也不如。一般家用PC，哪怕是打游戏的显卡会好一些，内存也不会弄这么多

作者: 孟词宗 时间: 2025-3-10 01:45

雷声发表于 2025-3-9 19:23
您这三年新的旧PC现在也很高端吧。我公司用的工作站都没这么多内存。显卡也不如。一般家用PC，哪怕是打游戏 ...

从功能上说还算可以吧。但还是家庭版。工作站的显卡会好很多，主要是显存会更多。另外，自己攒机的话高端机节省的成本更多，而且可以通过等候各种促销来进一步降低成本。这台机器三年前攒起来的时候也就三千多美元。最贵的是显卡。现在攒同样的反而会更贵。主要是RTX 5090虽然发布了但没货，4090断档结果造成价格飙升到4500到5000美元。现在要装同样的机器可以考虑要么上 RTX A6000 48GB。但这个 A6000 除了显存多，已经落后了，不如买 Project Digits。要么就上 AMD 的 RX 7900 XTX 24GB 。但 AMD 的卡的优化不如英伟达的，效率上可能会更差一点。

作者: 孟词宗 时间: 2025-3-10 02:11

数值分析发表于 2025-3-9 14:11
谢谢孟兄好文，最近正在琢磨这哥事儿。顺便请教一下，老兄有没有试过本地部署同一个模型（比如您说的QwW-32 ...

这个要看模型。对于平行处理要求高的大模型，放显存在显卡运行要比放内存用CPU运行快至少百倍以上。Time to First Token 和 token / second 都是如此。当然，这只是 inference 的效率，输出本身并没有那么快。直观上来说，不用显卡，只用内存时，回答显示得比较慢。尺寸小的模型还能达到一秒七八个字，基本和你的阅读速度持平。尺寸大的就比较慢。例如 QwQ-32B 就一秒两三个字。平均Time to First Token要200到300秒。用显存的话则显示极快，超过在线版本的反应和显示速度。

Huggingface 上 QwQ-32B 完全版是 60 GB 级别的。如果要完全放在内存里跑，加上对话内容，OS，其他应用占用的内存，大致需要100GB左右。所以总系统内存最好在 128 GB以上。显卡最好在 16 GB 以上。但如果不需要完整版，压缩版例如 Q8 级别的就只有32GB了。一般应用Q6，Q5也能凑合。但一般压缩得越厉害，AI 幻觉就越高。

欢迎光临爱吱声 (http://129.226.69.186/bbs/)