|
本帖最后由 孟词宗 于 2025-5-17 23:44 编辑
上回发了《再说 AI 本地部署 》后,@数值分析 同学问:
正在考虑自己买硬件在家搞,有两个问题请教(都不需要精确的答案,有个大概的概念就好):
1.如果搞512G内存的纯cpu方案,完全不用gpu,和gpu相比速度大概能差多少?
2.硬件的需求发展的速度大概能有多快?这个问题是看到4个cpu的过时惠普服务器才卖1000多刀,还慢的无法忍受,如果真的买了堆硬件自己在家搞,会不会不几年就不堪用也卖不出价,得扔了重新再买?
俺的回答是对速度不要抱太大的希望。对于平行处理要求高的大模型,放显存在显卡运行要比放内存用CPU运行快至少百倍以上。Time to First Token 和 token / second 都是如此。当然,这只是 inference 的效率,输出本身并没有那么快。直观上来说,不用显卡,只用内存时,回答显示得比较慢。尺寸小的模型还能达到一秒七八个字,基本和你的阅读速度持平。尺寸大的就比较慢。例如 QwQ-32B 就一秒两三个字。平均Time to First Token要200到300秒。用显存的话则显示极快,超过在线版本的反应和显示速度。另外压缩的尺度越大,速度越快。例如问 QwQ-32B 全尺寸和Q8版同样的问题,Q8 比全尺寸快了一倍左右。
俺一直是主张使用云服务来解决硬件不足问题的。当时俺的结论是:
AI 大模型的发展其实是产生了对于硬件的新要求。这解决了长期以来的硬件算力过剩的问题。但 AI 大模型的尺寸成了制约其在个人级别硬件的应用。硬件的摩尔定律在现在的主流技术构架下近乎失效了。如果只是要让全尺寸万亿参数模型跑起来而不追求速度和精度,那么用 Cluster 的方案或者那个1万5千美元的工作站方案都行。但如果想要速度和精度,那么就得上真正的server了。
至于用过时的服务器。前面说过了,如果家里完全没有基础,从头搞一个服务器机房的投资远远超过你被家里批准的一千多美元
不论用哪种方案,从投资角度来说,这肯定不会是一次性投资。就像买显卡,要么你一次性投资一个顶级显卡然后用十年,要么你买个便宜的但每两年就换个新的。
所以与其自己搞一大堆硬件,不如租个云端服务器。这样可以随时根据软件需求来升级硬件。
@大黑蚊子 同学的 Mac Studio 512GB 不知道入手了没有。很想知道实际速度如何。从网上的反馈来说,似乎速度也就十几个 Token 每秒。虽然看上去速度不错。也就和阅读速度持平最多了。
那么如果不讲究速度,我们只想把 @大黑蚊子 同学心心念念的 DeepSeek R1 671B Q4 版本跑起来,而且还要求成本控制在 数值分析 同学要求的一千美元左右是不是有可能性呢?
那位买了人家退役的Dell R930 Server 的播主倒是也提供了一个一千美刀的解决方案。视频如下:https://www.youtube.com/watch?v=RMidGvCZc4g
在这个视频里,这位播主利用了一个旧的 HP Z440 加上一张英伟达 RTX 3090 24GB 的显卡。
另外,如果不用 RTX 3090, 那么就只要 $500, 视频如下: https://www.youtube.com/watch?v=t_hh2-KG6Bw
播主还给出了价格清单和测试结果:
$1000 美元(带 RTX 3090): https://digitalspaceport.com/100 ... mark-z440-and-3090/
$500 美元: https://digitalspaceport.com/500 ... 1b-local-ai-server/
问题是,现在通货膨胀得利害,虽然视频才发布了一两个月,那个 HP Z440 的价格已经翻番了。而 RTX 3090 的价格更是炒上了天。ebay 上最便宜的矿卡也得$650+运费。
而且这位播主玩了个花样。他列出的 HP Z440 一百美元的价格其实是光板机。要搞到 512GB 内存,你还得花 $500 。这样加起来至少得$1,600 左右才能搞定他视频里的那个机器。
当然,这还是比花一万美元的 Mac Pro 512GB RAM 要便宜了七倍。
那么还有没有更便宜的做法呢?一个方法是不要用那个播主的显卡 RTX 3090 24 GB。前一阵英伟达的 H20 被禁止向中国出口了。结果市场上突然冒出了大量的 RTX 5060 。这些显卡经各大权威鉴定玩游戏性能很差,但搞 AI 效果出乎意料的好。因此可以买一个 RTX 5060 TI 16 GB 作为代替。
这个卡在Amazon 最近卖$479 ( GIGABYTE GeForce RTX 5060 Ti WINDFORCE 16G Graphics Card, 16GB 128-bit GDDR7, PCIe 5.0, WINDFORCE Cooling System, GV-N506TWF2-16GD Video Card)
这样价格就回落到一千美刀左右,而且肯定可以跑 DeepSeek R1 671B Q4 版本 了。
如果不喜欢用旧电脑,那么另一个方案则是自己造一台。闲来无事就自己实验了一把:
主板:Huananzhi x99 F8D Plus
阿里巴巴售价 $120
刚看到 Huananzhi 这个牌子,俺习惯性得误读为“淮南子”,心想人家这商标起得有水平,老板肯定是个文化人。后来发现其实是俺拼音不好念错了。人家的中文商标是“华南金牌”。Huananzhi 估计对应的是“华南智”。这是一家专门生产翻新主板的企业。啥教翻新主板?并不是主板是旧的,而是主板用的元器件都是别人处理掉的过时或剩余物资。在中国装机界,又称为“丐版”。
实际上,“丐版”并不“丐”。除了支持双路 Xeon CPU,还有双路 2.5 GB 网络。最重要的是它支持每 CPU 4通道 DDR4 内存。这样两个 CPU 理论上就有 8 通道。这对于我们来说就很重要了。服务器现在的主流还是 DDR4 内存。而一般家用电脑已经是 DDR5 了。但是,家用电脑一般只有 2 通道。目前流行的 DDR5 4800, 理论上在 2 通道下可以跑到 9600, 而DDR4 2400 在 4 通道下则也是 9600。双 CPU 8 通道则还要快一倍,达到 19200。虽然仍然比不上显卡显存的带宽,却也勉强可用了。
这是个双路 Xeon CPU 服务器版。厂家号称最高支持 512 GB。这比一般家用主板高多了。最主要的是有了 512 GB我们就达到了跑 DeepSeek R1 671B Q4 的最低要求了。
CPU: Intel Xeon E5-2695 V4 18-core
阿里巴巴售价$30一个,两个$60
E5-2695 V4实际可以支持最高1.5TB的内存,两个就是3TB。但主板并不支持3TB。
内存:64GB 4DRx4 2400 Mhz DDR4 PC4-2400T-LD1 LRDIMM Server RAM x8
阿里巴巴售价 $15一条,8条$120
当然,如果不想等,也可以在美国买: A-Tech 512GB Kit (8 x 64GB) 4Rx4 DDR4-2400 PC4-19200L LRDIMM ECC Load Reduced 1.2V 288-Pin Server Memory RAM 512 GB的 Kit $399
SSD: 1TB NVME Pcie 4.0x4
这个在美国买就行。一般$50左右就搞定了。
CPU Cooler:COOLSERVER R64 Server CPU Cooler 180w 4 Heatpipes Workstation Radiator PWM 4PIN Cooling Fan for Intel LGA2011
阿里巴巴售价$14.5 一个,两个$29
机箱: E-ATX SNOWMAN CS017 EATX ITX PC Case ATX Gaming Computer Desktop Mid Tower Dual Tempered Glass Mesh Face Reversed with 6ARGB Fans
阿里巴巴售价 $15.78
电源:850W 以上。
这个在美国买就行,一般 $69 左右。
显卡:Xeon E5 是没有核显的。如果想要利用最新的英伟达技术,那么可以买前面推荐的 RTX 5060 TI 16 GB
这个卡在Amazon 最近卖$479 ( GIGABYTE GeForce RTX 5060 Ti WINDFORCE 16G Graphics Card, 16GB 128-bit GDDR7, PCIe 5.0, WINDFORCE Cooling System, GV-N506TWF2-16GD Video Card)
如果要买任何30xx以上的英伟达显卡,都不要去阿里巴巴买。原因是阿里巴巴的卡大多是假货。即使是真的,英伟达销往中国的显卡也是阉割版。而且价格比美国还高。
如果有预算考虑,那么也可以买一个翻新的 AMD RX 580. 这卡在阿里上特别便宜, 8GB 版本才$48 。
总计:
方案一:用英伟达 GeForce RTX 5060 Ti 16 GB
方案二:用翻新的 AMD RX 580
当然这些价格没有计算运费和川总要收的关税以及在美加各地的销售税。大家如果有兴趣可以自己调节。大致如果全部都在美国买的话,方案一会上涨到$1,200 左右,而方案二会上涨为$830 左右。
装起来之后进行测试,不但可以跑 DeepSeek R1 671B Q4 版本,也可以跑 DeepSeek R1 671B Q5 版本。更可以跑刚出来的 Qwen3 -235B-A22B 的fp16 全尺寸版。Qwen3 -235B-A22B 号称不比 DeepSeek R1 差。当然,跑起来的速度都不快。即使是方案一,也就和那个播主的3090机器基本持平。而 方案二 的 RX580 由于没有被各大 AI 软件优化过,不但不是助力,反而会造成不少问题。因此在运行时要禁用 GPU,只跑 CPU。这时候 双 CPU 36 核(72 逻辑核)的威力就显现出来了,居然能跑 0.62 个 token 每秒 (笑),first token 69 秒。
不过,九百多美元的方案一,五百美元出头的方案二,也就不要指望啥性能了。这个速度干正经事是不行的。但用来娱乐一下还是不错的。领导就调侃俺说,这是你的成年人LEGO。
既然不追求速度,俺还实验了在本地部署 fp16 全尺寸的 DeepSeek R1 671B 。当然,fp16 版是无法用这些不到一千的方案部署的。预算起码要三千以上。俺入手了一个翻新的 HP Z8 工作站,把内存扩展到 1.5 TB,换了显卡。现在啥大模型的 fp16 版都可以跑了。速度慢点,但娱乐性很高。而且这个实验说明不需要那个播主推荐的 Dell R930 Server ,只需要 HP Z8 工作站就行了。
顺便说一句,用这些家庭版本地部署方案的时候,模型越大,加载时间越长。Q5 版本有近 500 GB,不论什么机器都需要近 30 分钟才能加载到内存中。而 fp16 的 DeepSeek R1 671B 有 1.3 TB,需要一个多小时才能加载完毕。对很多人来说,玩本地部署 AI 吐字慢不算大问题,但加载慢可能很多人就受不了了。
这篇算是对这段时间玩 AI 本地部署的小结。下一步仍然完成那个 Mini PC 的 cluster。到时候 叕说 AI 本地部署吧。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
评分
-
查看全部评分
|