叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版 - 第2页 - 日志随笔 - 爱吱声

大黑蚊子 发表于 2025-5-20 09:12:41

孟词宗发表于 2025-5-20 04:18
俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说 ...

什么？
游戏买了不就是买了么？
还要玩？
那我买什么游戏？{:201:}

估计不少是steam送的

伯威发表于 2025-5-20 11:29:59

学习了，除了NV显卡，其他真便宜啊，垃圾佬威武【牛】。搜了下，这种一般都是用ollama部署吗？

孟词宗 发表于 2025-5-20 13:09:43

伯威发表于 2025-5-20 11:29
学习了，除了NV显卡，其他真便宜啊，垃圾佬威武【牛】。搜了下，这种一般都是用ollama部署吗？ ...

LM Studio，Ollama， Jan，都可以用。如果 OS 是Windows，推荐 LM Studio，简单易用。如果是 Linux，Ollama 安装起来容易一些。当然 LM Studio 也不难就是了。KTransformers 现在只有 Linux 上还支持。初学的话不推荐这个，设置起来太麻烦，安装说明也写得一塌糊涂。

以前还有个 GPT4ALL，不过已经3个月没更新过了。

怎这样呢 发表于 2025-5-20 22:29:12

孟词宗发表于 2025-5-20 04:18
俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说 ...

年纪轻轻就是喜加一党了{:199:}

cindia 发表于 2025-5-22 01:37:29

怎这样呢发表于 2025-5-20 22:29
年纪轻轻就是喜加一党了

如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话(当然是有关这些文章的). 应该如何操作?大致预算? 谢谢.

孟词宗 发表于 2025-5-23 04:30:01

本帖最后由孟词宗于 2025-5-25 00:37 编辑

cindia 发表于 2025-5-22 01:37
如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话 ...

看你准备怎么弄。也就是说你要达到具体什么性能指标，预算是多少。如果只是个人使用，最低标准就是我文章里的那个一千美元的 512GB RAM 丐版工作站。那个方案里的 NVME 只有 1TB。由于你要在本地储存大量供阅读的文章，有可能你要扩展到 2TB 到 4TB甚至更多。个人级别加硬盘储存并不贵，最多加几百美元。

如果你准备搞多用户，那就要上真正的企业级服务器了。如果是准备跑 DeepSeek R-1 671b fp16 版或者 DeepSeek V3 0324 671b fp16 版或类似尺寸的（例如 Llama 3.1 405b fp16) , 一般需要 8块 H100 或 H800, 或至少要 H20 。H100 每块的零售价$27,500, H800 反而更贵要$33,800, H20 市面上现在没货。服务器本身不贵，双路或四路 CPU，但加上1.5 TB 到 2 TB 内存就要3到5万美元了。这样加起来，不算乱七八糟的附件，自己组装的话，硬件本身需要 25万到30万美元的样子。

要继续压缩成本也行。一是换成上代的 A100 每块市价也要$16,000左右。这样硬件成本可以降到 15万美元左右。另一个办法则是不用服务器级别的显卡，改用工作站级别的，例如英伟达已经宣布但还没有上市的 RTX Pro 6000 Blackwell Max Q 96GB。这个卡现在预定价格只要$8,500 一张。这样成本可以进一步下降到$96,000美元左右。

下面这个网站可以定制服务器和工作站，当然价格比自己造要贵的多。但至少让客户有个直观的不同配置的价格变:
工作站配置器： https://bizon-tech.com/deep-learning-ai-workstation
服务器配置器: https://bizon-tech.com/deep-learning-nvidia-gpu-servers

英伟达有配好的服务器，下面是某个代理商的网站，仅供参考，俺没有从他那里买过东西，不保证其信誉：https://marketplace.uvation.com/nvidia-dgx-h100-ai-server/?gad_source=1&gad_campaignid=21884336096&gclid=EAIaIQobChMIs4Tm3e23jQMVXjLUAR3HFgYNEAQYAyABEgL9zfD_BwE

另外，英伟达已经官宣了 NVIDIA DGX Station （https://www.nvidia.com/en-us/products/workstations/dgx-station/）。这是个用 coherent memory 的工作站，可达 748 GB。两个串联起来也足够跑 DeepSeek 671b fp16 版了。但现在还不知道量产版价格是多少。

如果你不需要跑 fp-16 版本，那么硬件选择就很多了，价格也会随着配置而变化。例如你如果选择跑 DS-R1 671b 的 Q4 版，而且同时在线用户少于5个的话，可以入手四个串联的英伟达 DGX Spark 有总共 512GB. 这东西 $3,999 一个。ASUS Ascent GX10 和 Dell Pro Max with GB10 是一模一样的东西，只不过换了个壳。而且价格比英伟达低大概四分之一。四个连配件大概 $13,000 左右。

如果你不是非要跑 DeepSeek 671b 的话，512GB 足够跑刚出来的 Qwen3 -235B-A22B 的fp16 全尺寸版。Qwen3 -235B-A22B 号称不比 DeepSeek R1 差。

如果你进一步降低对大模型参数尺寸的要求，那么 30b 级别的大模型的fp-16版只有 60 GB 左右，70b 级别的则是 140 GB。你弄两张 RTX Pro 6000 Blackwell Max Q 96GB 或四张 RTX 6000 Ada 48GB 都能跑。这样成本就只有3万到5万美元。

同时在线用户少于5个的话，理论上还有一个方法是买三个 Mac Studio 512GB 串联起来组成 Cluster 共 1.5 TB内存/显存。连配件加起来是 $35,000 美元左右。理论上也可以跑 DS-R1 671b fp16 版。如果你只要跑 DS-R1 671b Q4 版或 Qwen3 -235B-A22B 的fp16 全尺寸版, 那么买一个 Mac Studio 512GB，一万美元出头就搞定了。不过俺没有玩过新的 Mac Studio，具体效果存疑。

软件的话，单人使用 LM Studio 或 Ollama 或 GPT4ALL 之类的都行。多用户，多服务器就需要 VLLM 之类的软件了。

xiejin77 发表于 2025-5-23 06:09:33

cindia 发表于 2025-5-22 01:37
如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话 ...

国内的话，现在一体机铺天盖地；你要是有兴趣私信我，我找对应的厂商给你

cindia 发表于 2025-5-23 07:38:45

xiejin77 发表于 2025-5-23 06:09
国内的话，现在一体机铺天盖地；你要是有兴趣私信我，我找对应的厂商给你 ...

遗憾在美国

大黑蚊子 发表于 2025-5-23 15:53:43

cindia 发表于 2025-5-23 07:38
遗憾在美国

看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话怎么优化

司马梦求 发表于 2025-5-24 23:38:10

大黑蚊子发表于 2025-5-23 02:53
看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话 ...

确实Mac studio 512G这款最合适，而且方便公司走账

孟词宗 发表于 2025-5-25 00:34:04

本帖最后由孟词宗于 2025-5-25 00:36 编辑

大黑蚊子发表于 2025-5-23 15:53
看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话 ...

现代CPU，尤其是服务器级别的 CPU 跑大模型理论上是没有问题的。相比 CPU， GPU有更多的内核，可以进行更好的平行处理。但服务器级别的 CPU 的内核其实也不少，基本也够用。实际操作的问题在于内存的带宽跟不上处理速度，结果造成所谓的 Memory Wall。这成为主要瓶颈，所以苹果和英伟达要用 unified/coherent memory 。举例来说，5年前出品的两代前入门级别的 RTX 3060 的带宽可达 360 GBps 。而DDR5-5600 的带宽只有 44.8 GBps。只有 RTX-3060 的九分之一。而最新的入门级 RTX 5060 带宽可达 448 GBps, 正好是 DDR5-5600 的十倍。

解决方案就是增加通道。例如那个丐版双路 Xeon E5 可达八通道。如果是跑 DDR-5600 就基本接近 RTX 3060 的带宽了。但由于其最高只支持 DDR4-2400, 八通道只能达到 RTX 3060 的一半不到。俺入手的那个 HP Z8 是双路 Xeon Gold 61xx。可支持最高 12 通道，DDR4-2666, 这就达到 RTX 3060 的60% 左右了，再换上两张 RTX 4000 Ada 20GB 显卡，速度也就不错了。如果要降低成本，现在新出的 RTX 5060 ti 16GB 也不错。

如果预算更充足的话，可以上 AMD 的 EPYC 9005 系列 CPU。这个 CPU 支持12通道。如果是双路就是24通道。大多数主板每路可支持 614 GBps。这样单路 CPU 就远远超过 RTX 5060，相当于 RTX 5070 的 672 GBps了。双路可达 1228 GBps。相当于RTX 5080（960 GBps）的1.3倍。四路48通道的话就是2456GBps，超过 RTX 5090 （1792 GBps）1.37倍。

预算在1万5千美元到2万美元之间的话可以考虑这个方案。不过先说明，这只是理论方案，仅供参考，俺没有实际装过，实际效果怎样不保证。{:191:}

CPU： EPYC 9115 16-core 现在才$659 美元，两个 $1,318。
https://www.newegg.com/amd-epyc-9115-socket-sp5/p/N82E16819113865?Item=N82E16819113865

主板（GIGABYTE MZ73-LM0 Rev. 3.x ) $1,196。
https://www.newegg.com/gigabyte-mz73-lm0-amd-epyc-9004-series-amd-epyc-9005-series/p/296-0006-00070?srsltid=AfmBOopmnoOt1YWcI0yn6-WH9820Im9Glo8j-VsHSGZnHb2Rx-yPaXNl

内存： DDR5-5600 1.5 TB
A-Tech 512GB (8x64GB) 2Rx4 PC5-44800R DDR5 5600 MHz EC8 RDIMM ECC Registered DIMM 288-Pin Dual Rank x4 Server & Workstation RAM Memory Upgrade Kit
512GB 的 kit 一套$2,559 ，三套就是 $7677

SSD 硬盘： NVME 4TB PCIe 4.0x4，这个随便在美国买，价钱都差不多，$200 左右。

CPU Cooler：Dynatron J12 AMD Genoa Socket SP5 Copper Heatsink and Active Cooler, 320W x2 https://mitxpc.com/products/j12?gQT=2 , $60 一个，两个$120

电源：1800 W 到 2000 W，美国买的话$600 左右。

机箱：e-ATX Tower, $300 左右。

GPU：RTX Pro 6000 96GB Max-Q $8,500

共计：$19,791

如果预算宽裕的话，CPU可以升级到 EPYC 9335 (https://www.newegg.com/amd-epyc-9335-socket-sp5/p/N82E16819113862?Item=9SIATRNKFD3354&cm_sp=product-_-from-price-options) 单价 $2,768 , 两个$5,536。

总计上升到 $24,009。

网上有卖 CPU+主板+内存套装的。例如下面这个：
https://spwindustrial.com/amd-epyc-genoa-9654-96c-192t-gigabyte-mz73-lm0-rev-2-0-sk-hnix-ddr5-1536gb/?srsltid=AfmBOoq8UgzJGxDZt53cfIEpdrj8CyAKu_WmKXapnwevz7fnOXQvDf1A

这个用的是上一代的 AMD EPYC™ 9654。单路带宽只有 460 GBps 相当于RTX 5060，但内核更多, 有96个内核共192逻辑内核。

这个卖家的套装价格是 $17,851.99。加上其他配件总计在 $25,000 到 $27,000 左右。

不过俺也没有从他那里买过东西，仅供参考，不保证其质量和信誉。

司马梦求 发表于 2025-6-17 11:55:21

本帖最后由司马梦求于 2025-6-16 23:13 编辑

楼上那个公款买没问题，个人搞有点小贵，最近在B站上看到一个配置不错：EPYC SP3主板为国内品牌，双路7624 CPU, 1TB DDR4内存，RTX3090, 加电源机箱什么的一套共2万8千人民币，跑DeepSeek R1 0528 FP8满血版也有5.5t/s，Q4能跑12/s，嫌R1呱噪可以上V3 0324 这个对于个人来说相当可用了

孟词宗 发表于 2025-6-17 20:25:44

司马梦求发表于 2025-6-17 11:55
楼上那个公款买没问题，个人搞有点小贵，最近在B站上看到一个配置不错：EPYC SP3主板为国内品牌，双路7624...

这个不错。EPYC7003 有8通道单路带宽最高可达 204.8 GBps。双路就有409.6 GBps 了。相当于 RTX 5060。可惜一般主板最多只能插16个内存条，而64GB以上的内存条价格指数上升，所以经济条件下最多只能插 1TB，只能跑 R1 Q8 版了。

司马梦求 发表于 2025-6-17 21:23:40

孟词宗发表于 2025-6-17 07:25
这个不错。EPYC7003 有8通道单路带宽最高可达 204.8 GBps。双路就有409.6 GBps 了。相当于 RTX 5060。 ...

视频里的不是unsloth 那些bf16,q8的路子，而是原版700gb的FP8

孟词宗 发表于 2025-6-17 22:51:29

司马梦求发表于 2025-6-17 21:23
视频里的不是unsloth 那些bf16,q8的路子，而是原版700gb的FP8

是的。FP8 700GB 正好在 1TB 的RAM容量之内。Unsloth 的版本只在更低的 Q1 - Q4 有实际意义，尤其是他家的 1.5-bit 量化版。

孟词宗 发表于 2025-6-20 11:09:11

大黑蚊子发表于 2025-5-19 09:26
老兄你牛，我...我是言语的巨人行动的矮子

主要问题还是家里太小了，放个服务器估计全家变机场得被老婆骂 ...

玩了一下最新MacBook Pro M4 Max with 128GB unified RAM。结果发现一个奇怪的现象。理论上这东西能把内存当显存用。实际上跑 30 GB大小的模型还有15 Token每秒，但一旦上了 50 GB就跑不动了，速度一下降低到只有0.6 Token 每秒。

俺用来测试的是最新的几个30B 模型的 fp16版和 Q8 版。结果在 4096 content 下，Q8 跑出了15 Token每秒，而fp16则只有0.6 Token 每秒。

这个速度还不如俺的那个AMD Ryzen AI 9 HX370 with 128GB Mini PC呢。 Mini PC 好歹还能把fp16版跑到1.5 Token 每秒呢。

苹果这个 unified memory 看上去没多大用处。这个机器零售价 $5,399 美刀，跑起来还不如俺不到一千刀的 Mini PC 。所以俺相当怀疑那个 512GB 的 Mac Studio 能不能跑 DeepSeek R1 671B 的 Q4 版本。

司马梦求 发表于 2025-6-30 22:50:23

孟词宗发表于 2025-6-19 22:09
玩了一下最新MacBook Pro M4 Max with 128GB unified RAM。结果发现一个奇怪的现象。理论上这东西能把内 ...

据说Mac M3/M4在FP16上确实比较弱，Q8表现符合预期

有种说法是Prompt Process的速度决定于FP16的表现，如果这个说法成立的话，也许可以解释你遇到的情况

512GB的Mac Studio肯定是可以跑DeepSeek R1 Q4版本的，这个有大量的例子，不过可能性价比不高，因为一旦context设置比较大 (比如让deepseek修改代码），PP慢的厉害（动辄10分钟以上），TG降到5t/s以下

孟词宗 发表于 2025-6-30 23:37:52

司马梦求发表于 2025-6-30 22:50
据说Mac M3/M4在FP16上确实比较弱，Q8表现符合预期

有种说法是Prompt Process的速度决定于FP16的表现， ...

是的，大家对 Mac 的表现普遍失望。也许这就是Apple Intelligence 前一阵一直雷声大雨点小，到现在基本没声音了的原因？{:191:}

Context 尺寸越大速度越慢是个普遍问题。速率随着模型参数的增长而指数下降。同样，量化越少影响也越大，速度越慢。所以一般都拿4K作为标准 Context 测试长度。

至于 Mac 的性价比就算没有这个问题也不高。作为计算工具，Mac 完全走了一条邪路，完全就是把电脑当奢侈品在卖。同样花一万多买个 Mac Studio，还不如加一点钱直接装个服务器直接跑 fp16 版。

司马梦求 发表于 2025-7-2 23:24:02

孟词宗发表于 2025-6-30 10:37
是的，大家对 Mac 的表现普遍失望。也许这就是Apple Intelligence 前一阵一直雷声大雨点小，到现在基本没 ...

感觉兄台对FP16有点过于执着，就我最近一段使用的经验来看，DeepSeek R1 0528进步相当大，以至于dynamic quantization出来的量化缩水版本，比如unsloth的Q2，甚至ubergarm的Q1都相当不错，至少在python编程方面很有水准，可以实战的

孟词宗 发表于 2025-7-3 00:24:46

本帖最后由孟词宗于 2025-7-3 00:26 编辑

司马梦求发表于 2025-7-2 23:24
感觉兄台对FP16有点过于执着，就我最近一段使用的经验来看，DeepSeek R1 0528进步相当大，以至于dynamic...

要求不同罢了。 DeepSeek R1 0528进步的确很大。 Q2 以上版本算是可用了。问题是如果只是用来搞 Python 或其他编程，没必要用 671B 。

有意思的地方是 MOE 本身是个悖论。 MOE 只需要激活相关的专家功能区。但这个专家功能区在对应的 Specialized Dense Model的情况下一般不会超过 30B 。有些做的好的，用14B-20B 就达到了很多更大的 LLM 的功能，而且还做的更好。

现在新流行的 Speculative Decoding 能让推理速度快上两三倍。其使用较小的草案模型,该模型生成预期令牌,然后针对LLM验证由较小的草案模型生成的输出令牌草案。通过推测性执行,可以更快地生成大型模型中的精确解码。通过同时在较小模型的粗略猜测上运行较大的模型来工作。这意味着我们可以在较大模型的一个前向传递中生成多个令牌,而无需更改输出分布。这其实和 MOE 的工作原理类似。都是对输入进行预处理然后用较小的资源进行真正的计算。

俺在其他帖子里说过，如果只是要写作，西文的 8B 就能写的和在线的全尺寸狗屁通差不多，写程序 14B 左右就基本可以了，如果要写中文 16B 左右就能写现代文，30B（经过训练例如 Qwen）就写像模像样的文言文和诗歌了。企业级的商业应用也是根据企业的特殊需要而在基础模型上进行进一步训练。

像 671B 的真正使用场景只有是多用户，且没有明确使用目的通用模式。在线的各种全尺寸超大参数的模型，用来应付亿万同时在线用户的千奇百怪的要求是最好的。但个人和企业使用没必要。

如果只是专用，8B 的fp16版一般才 16GB，基本可以在任何好一点的现代家用电脑上跑，也用不到显卡。 30B 左右的最低要求也就是 64GB 内存而已。而 DS-R1 的Q1版最少也有 131 GB。而性能还不如 DS-R1的 32B 蒸馏版，一般电脑还跑不了，那要它何用？

像俺这样拥有1.5TB内存的 Z8 工作站的，为啥要跑DS的Q1,Q2 版而不跑 fp16 版？即使是那个五百美元不到的丐版工作站也有512GB内存，为啥不跑 Q5 版的DS-R1 671B? 或者Qwen3 -235B-A22B 的fp16 全尺寸版？

页: 1 [2] 3

爱吱声's Archiver