大黑蚊子 发表于 2025-5-20 09:12:41

孟词宗 发表于 2025-5-20 04:18
俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说 ...

什么?
游戏买了不就是买了么?
还要玩?
那我买什么游戏?{:201:}

估计不少是steam送的

伯威 发表于 2025-5-20 11:29:59

学习了,除了NV显卡,其他真便宜啊,垃圾佬威武【牛】。搜了下,这种一般都是用ollama部署吗?

孟词宗 发表于 2025-5-20 13:09:43

伯威 发表于 2025-5-20 11:29
学习了,除了NV显卡,其他真便宜啊,垃圾佬威武【牛】。搜了下,这种一般都是用ollama部署吗? ...

LM Studio,Ollama, Jan, 都可以用。如果 OS 是Windows,推荐 LM Studio,简单易用。如果是 Linux,Ollama 安装起来容易一些。当然 LM Studio 也不难就是了。KTransformers 现在只有 Linux 上还支持。初学的话不推荐这个,设置起来太麻烦,安装说明也写得一塌糊涂。

以前还有个 GPT4ALL,不过已经3个月没更新过了。

怎这样呢 发表于 2025-5-20 22:29:12

孟词宗 发表于 2025-5-20 04:18
俺也是。代沟很深的。俺三年前带着大儿子装了个游戏PC。RGB 装了一大堆。前两天问他要不要更新。结果他说 ...

年纪轻轻就是喜加一党了{:199:}

cindia 发表于 2025-5-22 01:37:29

怎这样呢 发表于 2025-5-20 22:29
年纪轻轻就是喜加一党了

如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话(当然是有关这些文章的). 应该如何操作?大致预算? 谢谢.

孟词宗 发表于 2025-5-23 04:30:01

本帖最后由 孟词宗 于 2025-5-25 00:37 编辑

cindia 发表于 2025-5-22 01:37
如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话 ...

看你准备怎么弄。也就是说你要达到具体什么性能指标,预算是多少。如果只是个人使用,最低标准就是我文章里的那个一千美元的 512GB RAM 丐版工作站。那个方案里的 NVME 只有 1TB。由于你要在本地储存大量供阅读的文章,有可能你要扩展到 2TB 到 4TB甚至更多。个人级别加硬盘储存并不贵,最多加几百美元。

如果你准备搞多用户,那就要上真正的企业级服务器了。如果是准备跑 DeepSeek R-1 671b fp16 版 或者 DeepSeek V3 0324 671b fp16 版 或类似尺寸的 (例如 Llama 3.1 405b fp16) , 一般需要 8块 H100 或 H800, 或至少要 H20 。H100 每块的零售价$27,500, H800 反而更贵要$33,800, H20 市面上现在没货。服务器本身不贵,双路或四路 CPU,但加上1.5 TB 到 2 TB 内存 就要3到5万美元了。这样加起来,不算乱七八糟的附件,自己组装的话,硬件本身需要 25万到30万美元的样子。

要继续压缩成本也行。一是换成上代的 A100 每块市价也要$16,000左右。这样硬件成本可以降到 15万美元左右。另一个办法则是不用服务器级别的显卡,改用工作站级别的,例如英伟达已经宣布但还没有上市的 RTX Pro 6000 Blackwell Max Q 96GB。这个卡现在预定价格只要$8,500 一张。这样成本可以进一步下降到$96,000美元左右。

下面这个网站可以定制服务器和工作站,当然价格比自己造要贵的多。但至少让客户有个直观的不同配置的价格变:
工作站配置器: https://bizon-tech.com/deep-learning-ai-workstation
服务器配置器:    https://bizon-tech.com/deep-learning-nvidia-gpu-servers

英伟达有配好的服务器,下面是某个代理商的网站,仅供参考,俺没有从他那里买过东西,不保证其信誉:https://marketplace.uvation.com/nvidia-dgx-h100-ai-server/?gad_source=1&gad_campaignid=21884336096&gclid=EAIaIQobChMIs4Tm3e23jQMVXjLUAR3HFgYNEAQYAyABEgL9zfD_BwE

另外,英伟达已经官宣了 NVIDIA DGX Station (https://www.nvidia.com/en-us/products/workstations/dgx-station/) 。这是个用 coherent memory 的工作站,可达 748 GB。两个串联起来也足够跑 DeepSeek 671b fp16 版了。但现在还不知道量产版价格是多少。

如果你不需要跑 fp-16 版本,那么硬件选择就很多了,价格也会随着配置而变化。例如你如果选择跑 DS-R1 671b 的 Q4 版,而且同时在线用户少于5个的话,可以入手四个串联的英伟达 DGX Spark 有总共 512GB. 这东西 $3,999 一个。ASUS Ascent GX10 和 Dell Pro Max with GB10 是一模一样的东西,只不过换了个壳。而且价格比英伟达低大概四分之一。四个连配件大概 $13,000 左右。

如果你不是非要跑 DeepSeek 671b 的话,512GB 足够跑刚出来的 Qwen3 -235B-A22B 的fp16 全尺寸版。Qwen3 -235B-A22B 号称不比 DeepSeek R1 差。

如果你进一步降低对大模型参数尺寸的要求,那么 30b 级别的大模型的fp-16版只有 60 GB 左右,70b 级别的则是 140 GB。你弄两张 RTX Pro 6000 Blackwell Max Q 96GB 或四张 RTX 6000 Ada 48GB 都能跑。这样成本就只有3万到5万美元。

同时在线用户少于5个的话,理论上还有一个方法是买三个 Mac Studio 512GB 串联起来组成 Cluster 共 1.5 TB内存/显存。连配件加起来是 $35,000 美元左右。理论上也可以跑 DS-R1 671b fp16 版。如果你只要跑 DS-R1 671b Q4 版或 Qwen3 -235B-A22B 的fp16 全尺寸版, 那么买一个 Mac Studio 512GB,一万美元出头就搞定了。不过俺没有玩过新的 Mac Studio,具体效果存疑。

软件的话,单人使用 LM Studio 或 Ollama 或 GPT4ALL 之类的都行。多用户,多服务器就需要 VLLM 之类的软件了。

xiejin77 发表于 2025-5-23 06:09:33

cindia 发表于 2025-5-22 01:37
如果我想在本地(公司或研究所)建立一个可以“阅读”几千或上万的文章,然后可以和我进行chatGPT水平的对话 ...

国内的话,现在一体机铺天盖地;你要是有兴趣私信我,我找对应的厂商给你

cindia 发表于 2025-5-23 07:38:45

xiejin77 发表于 2025-5-23 06:09
国内的话,现在一体机铺天盖地;你要是有兴趣私信我,我找对应的厂商给你 ...

遗憾 在美国

大黑蚊子 发表于 2025-5-23 15:53:43

cindia 发表于 2025-5-23 07:38
遗憾 在美国

看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话怎么优化

司马梦求 发表于 2025-5-24 23:38:10

大黑蚊子 发表于 2025-5-23 02:53
看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话 ...

确实Mac studio 512G这款最合适,而且方便公司走账

孟词宗 发表于 2025-5-25 00:34:04

本帖最后由 孟词宗 于 2025-5-25 00:36 编辑

大黑蚊子 发表于 2025-5-23 15:53
看来看去其实比较合适的还真的是买个Mac Studio 512G的把DeepSeek R1 Q4版本跑起来
然后再看其他配置的话 ...

现代CPU,尤其是服务器级别的 CPU 跑大模型理论上是没有问题的。相比 CPU, GPU有更多的内核,可以进行更好的平行处理。但服务器级别的 CPU 的内核其实也不少,基本也够用。实际操作的问题在于内存的带宽跟不上处理速度,结果造成所谓的 Memory Wall。这成为主要瓶颈,所以苹果和英伟达要用 unified/coherent memory 。举例来说,5年前出品的两代前入门级别的 RTX 3060 的带宽可达 360 GBps 。而DDR5-5600 的带宽只有 44.8 GBps。只有 RTX-3060 的九分之一。而最新的入门级 RTX 5060 带宽可达 448 GBps, 正好是 DDR5-5600 的十倍。

解决方案就是增加通道。例如那个丐版双路 Xeon E5 可达八通道。如果是跑 DDR-5600 就基本接近 RTX 3060 的带宽了。但由于其最高只支持 DDR4-2400, 八通道 只能达到 RTX 3060 的一半不到。俺入手的那个 HP Z8 是双路 Xeon Gold 61xx。可支持最高 12 通道,DDR4-2666, 这就达到 RTX 3060 的60% 左右了,再换上两张 RTX 4000 Ada 20GB 显卡,速度也就不错了。如果要降低成本,现在新出的 RTX 5060 ti 16GB 也不错。

如果预算更充足的话,可以上 AMD 的 EPYC 9005 系列 CPU。这个 CPU 支持12通道。如果是双路就是24通道。大多数主板每路可支持 614 GBps。这样单路 CPU 就远远超过 RTX 5060,相当于 RTX 5070 的 672 GBps了。双路可达 1228 GBps。相当于RTX 5080(960 GBps)的1.3倍。四路48通道的话就是2456GBps,超过 RTX 5090 (1792 GBps)1.37倍。

预算在1万5千美元到2万美元之间的话可以考虑这个方案。不过先说明,这只是理论方案,仅供参考,俺没有实际装过,实际效果怎样不保证。{:191:}

CPU: EPYC 9115 16-core 现在才$659 美元, 两个 $1,318。
https://www.newegg.com/amd-epyc-9115-socket-sp5/p/N82E16819113865?Item=N82E16819113865

主板(GIGABYTE MZ73-LM0 Rev. 3.x ) $1,196。
https://www.newegg.com/gigabyte-mz73-lm0-amd-epyc-9004-series-amd-epyc-9005-series/p/296-0006-00070?srsltid=AfmBOopmnoOt1YWcI0yn6-WH9820Im9Glo8j-VsHSGZnHb2Rx-yPaXNl

内存: DDR5-5600 1.5 TB
A-Tech 512GB (8x64GB) 2Rx4 PC5-44800R DDR5 5600 MHz EC8 RDIMM ECC Registered DIMM 288-Pin Dual Rank x4 Server & Workstation RAM Memory Upgrade Kit
512GB 的 kit 一套$2,559 ,三套就是 $7677

SSD 硬盘: NVME 4TB PCIe 4.0x4,这个随便在美国买,价钱都差不多,$200 左右。

CPU Cooler:Dynatron J12 AMD Genoa Socket SP5 Copper Heatsink and Active Cooler, 320W x2 https://mitxpc.com/products/j12?gQT=2 , $60 一个,两个$120

电源:1800 W 到 2000 W,美国买的话$600 左右。

机箱:e-ATX Tower, $300 左右。

GPU:RTX Pro 6000 96GB Max-Q $8,500

共计:$19,791

如果预算宽裕的话,CPU可以升级到 EPYC 9335 (https://www.newegg.com/amd-epyc-9335-socket-sp5/p/N82E16819113862?Item=9SIATRNKFD3354&cm_sp=product-_-from-price-options) 单价 $2,768 , 两个$5,536。

总计上升到 $24,009。

网上有卖 CPU+主板+内存套装的。例如下面这个:
https://spwindustrial.com/amd-epyc-genoa-9654-96c-192t-gigabyte-mz73-lm0-rev-2-0-sk-hnix-ddr5-1536gb/?srsltid=AfmBOoq8UgzJGxDZt53cfIEpdrj8CyAKu_WmKXapnwevz7fnOXQvDf1A

这个用的是上一代的 AMD EPYC™ 9654。单路带宽只有 460 GBps 相当于RTX 5060,但内核更多, 有96个内核共192逻辑内核。

这个卖家的套装价格是 $17,851.99。加上其他配件总计在 $25,000 到 $27,000 左右。

不过俺也没有从他那里买过东西,仅供参考,不保证其质量和信誉。
页: 1 [2]
查看完整版本: 叒说 AI 本地部署 - 一千美刀跑 DeepSeek R1 671B Q5版