注册 登录
爱吱声 返回首页

孟词宗的个人空间 http://129.226.69.186/bbs/?6812 [收藏] [复制] [分享] [RSS]

日志

再说 AI 本地部署

热度 18已有 335 次阅读2025-4-5 05:28

图文并茂版在这里:http://www.aswetalk.net/bbs/forum.php?mod=viewthread&tid=161700&page=1&extra=#pid1457932

上回说到《AI 本地部署》曾经提到英伟达的 Project Digits。当时皮衣黄只是官宣 Blackwell 构架的时候顺便提了一句。

最近实物终于出来了。名称也正式改为 DGX Spark 。

价格据说是$3,999,比老黄当初官宣的三千美刀多了999。当然,这是老黄的一贯策略,3999也是三千,对吧。

不过由于产能不足,现在还只能预定。估计由于 DS 出来后中国开始疯抢 H20,连带其他的英伟达企业级显卡在国外大卖,这小东西的生产日程就不知道要排到哪里去了。

老黄同时还推出了DGX Station。

这个工作站才是真正老黄想卖的东西。不但 GPU 是英伟达的,CPU 和 OS 也是英伟达的。而 DGX Spark 的价格虽高,实际上 ASUS Ascent GX10 和 Dell Pro Max with GB10 是一模一样的东西,只不过换了个壳。而且价格比英伟达低很多。

上次说过,单独的 DGX Spark 只有 Unified Memory。要至少四个串联起来才能达到 大黑蚊子 同学想要的512GB,才能跑DS 671B的压缩版。而四个 DGX Spark 加起来可就要一万二了。而且现在川总加了那么多关税,到有货的时候说不定价格就又翻倍,甚至翻好几倍了。

那有没有现在就可以上手的本地部署的机器?上回说到的新出的 Mac Studio 512GB 可以算一个。但上次俺说:
[quote]如果不想自己攒机,我觉得 Project Digits 还是比 Mac Studio 的性价比高点。无他,Mac Studio 即使有 512GB 但已经无法继续扩展,而 Project Digits 可以用 NVLink,理论上是可以组成群的。[/quote]

但是现在看来俺还是低估了群众们发明创造的热情。有人用 Mac Mini 搭建了一个 Cluster。
https://www.youtube.com/watch?v=GBR6pHZ68Ho

在这位放出视频后,又有一位用 Mac Studio 搭建了一个 Cluster。当然,这位用的 Mac Studio 是 64 GB 的旧版。
https://www.youtube.com/watch?v=Ju0ndy2kwlw

这两位成功搭建 Cluster 的关键是他们用了一款软件 Exo labs project。这款软件号称可以用任何硬件混搭组成 Cluster。从最高档的 Mac Studio 到旧手机到几十刀一个的 Raspberry Pi 400 with 4GB of RAM 都可以组成 Cluster 里的Node。

网上还有不少人尝试了。下面是其中一位的视频:https://www.youtube.com/watch?v=k25XkHpJfoI

从视频看,这位用了一堆旧PC电脑+手机+平板+旧Mac 搞出来一个缝合怪。

这就让俺非常心动了。不过算算价钱,用上面那位的一堆破烂搭出来的缝合怪还是达不到跑 DS 671B的 512 GB内存要求的。如果采用 Mac Mini 或者 旧版 Mac Studio,价格也不便宜。 Mac Mini 32GB 的版本要1200刀。要达到512GB,得买16个,这就是12000刀了,还不如直接买个 512GB 的新版 Mac Studio。

Raspberry Pi 倒是便宜,而且Raspberry Pi 5 有 16GB 版本的。价格网上才120 。

问题是要攒到 512GB 得买32个。这就得3840了,再加上其他乱七八糟的配件,也得奔着大五千甚至六千去了。再加上三四千,俺买个Mac Studio 512GB 它不香吗?

所以,不管怎么弄都得花至少五千到六千。

那还有啥解决方法不?

下面这位老兄的视频里说他可以在本地跑全尺寸非压缩版的 DS。
https://www.youtube.com/watch?v=yFKOOK6qqT8

价钱还特便宜,只要两千刀。秘诀是这位买了人家退役的Dell R930 Server 。这东西在 ebay 上特别便宜。例如ebay上有些才$1,627.05,还可以还价。

不过,即使是这位播主也不建议大家走这条路。主要是除了主机,你还得弄一堆辅助的东西。如果你不是像播主那样家里有个实验室,最终的价格可能还是要超过买两三个 Mac Studio的。而且真跑起来了,速度也是极慢,每秒 0.6 token,基本上就是慢慢往外蹦字。加上 DS 还得先 Deep Think 一番,于是问个简单的问题可能要几十分钟甚至几小时才能得到答案。

这位播主还有其他的硬件方案。不过那些方案就贵的多了。

那么是不是没有省钱的方案了呢?

看看 DGX Spark, Mac Mini 和 Mac Studio,俺突然想到,这些东西其实就是个 Mini PC 的尺寸。而 Intel 和 AMD 带 AI NPU 的CPU,最早都是针对笔记本市场的。

于是找了一下,发现市面上的 Mini PC 官方最多支持 96 GB DDR5。但是且慢,在搜索中俺发现这个 ACEMAGIC F3A AMD Ryzen AI 9 HX 370 Mini PC

虽然这东西官宣规格也只有96GB,但有不少人宣称能将其升级到128GB。于是就买了个 Barebone 的。买回来后加了128 GB 的 DDR5 5600,花了三百,再加50的 1TB M.2 PCIe 4x4 SSD,一共花了一千左右,搞到了一个理论上不比 Mac Studio 差的 AI NPU Mini PC。

然后就开始装机。OS 用Linux。主要是由于 EXO 最新的版本不支持 Windows。装上之后,Cluster 开启。果然出了各种错误。俺费了一天功夫调试,终于撞了南墙,有个 Bug 是暂时没有解决答案的。当然,这只是针对俺买的这款硬件。如果退回去搞旧机器缝合怪还是可以的。但这不就又回到原地了?

于是想还是等等吧,看过一两个月,开发团队是否能解决问题再说。

在等待解决方案时,也不能让机器闲着不是,于是就随手装了 Ollama 看单机跑起来如何。结果发现,Ollama 对于 AMD 的 NPU 还是没啥支持。虽然基本上所有能放进内存的模型都能跑起来,但速度就不敢恭维了。一旦上了50 GB以上的模型,基本就是慢慢往外蹦字,和Dell R930差不多的水平了。当然,如果用 AMD 专用的 ONNX, 还是能跑的。但设置太复杂了。基本不是一般用户能掌握的。

那么能不能跑 DS 671B 呢?结果在搜索中发现了 unsloth 的压缩版本:Run DeepSeek R1 Dynamic 1.58-bit

这家搞了个极致压缩版,可以看到,最低的 IQ1_S 只要 131 GB 就行。最高的也只要 212 GB。

于是就把 IQ1_S(131 GB), IQ1_M (158GB),IQ2_XXS (183GB)和 Q2_K_XL(212 GB)都扒到俺三年旧的机器上作实验。上回说过,这个机器的硬件是:

i9-12900
RAM: 192 DDR5
Graphic: 4090 24GB

实验结果发现,除了  Q2_K_XL(212 GB)以外,其他三个都可以跑。当然速度实在不咋样,也是慢慢往外蹦字, IQ1_S(131 GB)跑的最快。

让它们写同样模仿李斯的《谏逐客疏》写一篇《谏美国逐移民疏》,最快的也花了半多个小时。

那么能不能在那个 MiniPC 上跑呢?理论上内存不够。虽说 128 GB 已经很多了。但对资源要求最低的 IQ1_S版本也要 131 GB内存。考虑到OS本身要用掉 12GB 左右,实际内存需要 143 GB。有15GB的缺口。

一个办法是把内存扩展到 256 GB。是的,你没看错。虽然官方规格只支持 96 GB,但实际可用的内存是取决于 CPU 到底支持多少的。而根据 AMD 官网,Ryzen AI 9 HX 370 支持 256 GB。这就是为啥现在可以扩展到 128 GB。问题在于Mini PC 用的是笔记本的 SO-DIMM 而不是台式机的 DIMM。SO-DIMM 现在没有 128 GB一条的。

这看上去貌似就没办法了。但是且慢。不能扩展内存,还可以扩展 GPU。

Mini PC 本身只带个 AMD Radeon™ 890M 核显。但是这个 Mini PC 有 USB4 接口,可以直接上外接 GPU。于是拿来当初GPU换代时搞的eGPU。大致是这样的:
[attachimg]117090[/attachimg]

eGPU 有24GB。插上后终于可以跑  IQ1_S(131 GB)了。

下一步的方向:
1. 等 EXO 的开发团队解决问题后就再装一个 Mini PC。这样组成一个 Cluster 后就有总计 256 GB,基本可以跑Q2_K_XL(212 GB)。

2. 等 128 GB 的 DD5 SO-DIMM 出来后把两个机器都扩容到256GB。这样一个 Clutser 就有总计 512 GB。可以跑很多压缩版本的 DS-R1 671B 了。

3. 如果 256 GB扩容和组成 Cluster 成功,可以考虑再入手 6 个 256 GB 的 Mini PC。这样总计 8 个节点,共有 2 TB 的,按照现在的市场价格计算,总计在 $9000 美刀就能得到一个跑全尺寸 DS 671b 的群,而且理论上可以不断扩容。最妙的是非常环保。这些 Mini PC 每个最高功耗才 100 瓦不到。10个 也就 1000 瓦,之相当于俺三年旧机器的水平。

9

膜拜

鸡蛋
4

鲜花

路过

雷人
1

开心
2

感动

难过

刚表态过的朋友 (16 人)

发表评论 评论 (6 个评论)

回复 nanimarcus 2025-4-5 13:10
如果用CPU Memory总能想出办法来的,问题是速度啊,一秒钟几个token有意义吗?
所以就老老实实的用性价比最好的有尽可能大的Memory的GPU在一台机器上搭。
大概在4万美元左右。
这是我和Deepseek反复讨论的结果,呵呵。
回复 孟词宗 2025-4-6 10:15
nanimarcus: 如果用CPU Memory总能想出办法来的,问题是速度啊,一秒钟几个token有意义吗?
所以就老老实实的用性价比最好的有尽可能大的Memory的GPU在一台机器上搭。
大概在 ...
所以才要搞 Cluster 啊。搞 Cluster 并不仅仅增加内存,还增加了 CPU 算力。就像那几个视频显示的,组成 Cluster 之后,速度有了显著的提高。

当然,如果真搞 8 个Mini PC 共 2TB 内存 的节点,价格也得上至少一万。但这一万是跑全尺寸 DS 671B 的。

另外,以前说过,如果只是要单机的话,加点钱可以搞个工作站。下面是个工作站的配置:

CPU: AMD Ryzen Threadripper 7980X Storm Peak 3.2GHz 64-Core sTR5
主板: Gigabyte TRX50 AI TOP AMD sTR5 eATX Motherboard Rev 1.2
内存:2X V-COLOR DDR5 1024GB (256GBx4) 5600MHz CL38 16Gx4 8Rx4 OC R-DIMM (Overclocking ECC Registered DIMM) 1.25V Memory Ram for TRX50 Workstation (AMD EXPO)
SSD: PCIe5.0x4 4TB
电源: 1600W 以上
Graphics: RTX 5090 32GB
机箱:eATX
CPU制冷:水冷

这里的大头是 RAM,要23,000 左右,其他的加起来七八千,最后三万美元左右搞定。

当然,这是高配置。如果只要 512 GB RAM 的话,RAM 就只要2,300了。全部硬件一万美元也就搞定了。512 GB 已经可以跑 DS Q5 版本了。如果再加5千 到 1TB 的话,基本就可以跑全尺寸的 DS-R1 671B 了。

而同样一万五千美元,Mac Studio 是跑不了全尺寸 DS-R1 671B 的。

而如果只想跑 DS Q5 版本的话,四个 128 GB 的 Mini PC 理论上可以搞定,总共也就 4千美元上下,比 512 GB 工作站的一万美元要低得多。

如果将来能把 Mini PC 升级到 256 GB 的话,那么5千美元左右就有了一个 1TB 基本可以跑全尺寸 671B 的 Cluster 了。
回复 数值分析 2025-4-6 15:41
正在考虑自己买硬件在家搞,有两个问题请教(都不需要精确的答案,有个大概的概念就好):
1.如果搞512G内存的纯cpu方案,完全不用gpu,和gpu相比速度大概能差多少?
2.硬件的需求发展的速度大概能有多快?这个问题是看到4个cpu的过时惠普服务器才卖1000多刀,还慢的无法忍受,如果真的买了堆硬件自己在家搞,会不会不几年就不堪用也卖不出价,得扔了重新再买?
回复 nanimarcus 2025-4-6 15:59
数值分析: 正在考虑自己买硬件在家搞,有两个问题请教(都不需要精确的答案,有个大概的概念就好):
1.如果搞512G内存的纯cpu方案,完全不用gpu,和gpu相比速度大概能差多 ...
要么你老兄就照上面老兄的配置来个cluster,我很想看一下实操的速度,呵呵。

硬件这玩意,你当时玩的爽就可以了,想着保值再卖,太累了。
回复 数值分析 2025-4-6 16:06
nanimarcus: 要么你老兄就照上面老兄的配置来个cluster,我很想看一下实操的速度,呵呵。

硬件这玩意,你当时玩的爽就可以了,想着保值再卖,太累了。 ...
倒不是要保值,计算机硬件要保值岂不是痴人说梦。咱们自己在家搞这个,纯图个爽,没有任何收益来支持硬件开支。主要是顾虑硬件需求的发展速度,如果大模型算法的硬件需求增长是近线性的,那还好,大不了越玩越小,但如果未来的需求是指数增长的,那么玩不了两年就面临着或者玩不下去,或者再投资一把,那可就一次性投资变为经常性投资了,,恐怕家里通不过啊。。。呵呵。。。
回复 孟词宗 2025-4-6 23:22
数值分析: 正在考虑自己买硬件在家搞,有两个问题请教(都不需要精确的答案,有个大概的概念就好):
1.如果搞512G内存的纯cpu方案,完全不用gpu,和gpu相比速度大概能差多 ...
第一个问题以前回答过。这个要看模型。对于平行处理要求高的大模型,放显存在显卡运行要比放内存用CPU运行快至少百倍以上。Time to First Token 和 token / second 都是如此。当然,这只是 inference 的效率,输出本身并没有那么快。直观上来说,不用显卡,只用内存时,回答显示得比较慢。尺寸小的模型还能达到一秒七八个字,基本和你的阅读速度持平。尺寸大的就比较慢。例如 QwQ-32B 就一秒两三个字。平均Time to First Token要200到300秒。用显存的话则显示极快,超过在线版本的反应和显示速度。另外压缩的尺度越大,速度越快。例如问 QwQ-32B 全尺寸和Q8版同样的问题,Q8 比全尺寸快了一倍左右。

第二个问题其实和 CPU 与显卡的发展历程是一样的。二十年前的显卡用来跑现在的 3A 游戏肯定跑不了。但10年前的顶级显卡现在仍然可以跑大多数的 3A 游戏,而且画面质量还行(当然有些游戏开不了顶级设置),很多设置(例如 Ray Tracing),肉眼基本看不出来。

AI 大模型的发展其实是产生了对于硬件的新要求。这解决了长期以来的硬件算力过剩的问题。但 AI 大模型的尺寸成了制约其在个人级别硬件的应用。硬件的摩尔定律在现在的主流技术构架下近乎失效了。如果只是要让全尺寸万亿参数模型跑起来而不追求速度和精度,那么用 Cluster 的方案或者那个1万5千美元的工作站方案都行。但如果想要速度和精度,那么就得上真正的server了。

至于用过时的服务器。前面说过了,如果家里完全没有基础,从头搞一个服务器机房的投资远远超过你被家里批准的一千多美元   

不论用哪种方案,从投资角度来说,这肯定不会是一次性投资。就像买显卡,要么你一次性投资一个顶级显卡然后用十年,要么你买个便宜的但每两年就换个新的。

所以与其自己搞一大堆硬件,不如租个云端服务器。这样可以随时根据软件需求来升级硬件。

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2025-4-26 20:04 , Processed in 0.037831 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部