爱吱声

标题: DeepSeek R1全参数模型一个可能的本地部署方案 [打印本页]

作者: 沉宝    时间: 2025-2-20 15:41
标题: DeepSeek R1全参数模型一个可能的本地部署方案
DeepSeek一夜爆火,现在联网服务拥堵不堪。当晨老大号召自建farm的时候,本人开始认真考虑本地部署。 KTransfomer的报道也在第一时间见到,并设想了一个以此为基础的装机方案。然后呢,就“铲后抑郁”了。如今很多内容都在网友[大黑蚊子]的记录(链接)中讨论过了,但具体的装机方案大概还有一些价值,还是写出来吧。8 i' B0 \, C- b( g/ n
( e- x1 T: @) U
DeepSeek R1原版是一个参数量高达671B的大模型,虽然比之其它頂尖的人工智能模型在硬件要求上已经大大降低,但个人部署全尺寸模型,依然难度不小。为了便于在低端硬件上运行,出现了一系列蒸馏版减少参数量(以 Qwen2.5 或 Llama 为构架,参数范围从 1.5B、7B、8B、14B、32B 到 70B)。另一个思路是参数量化,例如1.58bit和4bit。一般来说,LLM训练时使用高精度(例如 32位浮点数),而推理时使用低精度(16位浮点数或者更低)即可。1.58bit是把这一趋势推到极端(只有0、1和-1三种状态)。有人试验了DeepSeek全尺寸模型的1.58bit的量化版,结论基本可用,有时候说话可能有点“冲”,圆润平衡上差一些。4bit版效果已经相当好了。至于[xiejin77]担忧的量化影响反馈精度或者稳定性,理论上有可能,但实际影响需要大量的对比实验加以证实或者证伪。) C8 K) d. V2 b' c0 t

8 i3 h. }( f% |! h+ D. w/ k7 n下面讨论具体装机方案。首先定一下目标。目标用户:个人或者小团体。鉴于这个模型现在典型的应用场景都是文字的输入和输出,跨网络合用的难度并不大(因为不需要占据太多的网络带宽)。单机,预算定位$5000左右。应该属于一个人咬咬牙能冲得上去,小范围集资(10人以内的那种)能够轻易支付。目标性能:DeepSeek R1全尺寸671B的4bit量化版,输出速度与人的阅读速度差不多即可(个人使用,太快了没有必要),约 5-10 tokens/s。这样的预算,这样的目标,显然需要KTransfomer技术加成才有可能达到。饶是如此,也得按市场最低价加DIY省着来。
, F& C% L% }" C$ q* M. ]  z6 R5 G/ N  \
第一步:内存的大小。将模型的参数全部放入内存是必须的。如果还用硬盘空间扩展出来的虚拟内存,那速度肯定慢的不行。DeepSeek参数精度16bit(BF16)时需要 1342GB的存储空间,4bit量化版所需空间为其¼,再加上程序和操作系统所需,512GB应该可以了。这么大的内存,普通PC机主板肯定不行,要上服务器的。鉴于当前DDR4的内存条比 DDR5还是要便宜不少,所以选择DDR4。
/ K) G" X/ i7 A3 {( ^' f9 Q
1 y( V4 Y, O; s/ ~第二:CPU和主板。CPU我选AMD Zen3架构( Zen3是DDR4的最后一代)的服务器芯片EPYC 7C13, 64 core 128 threads, 市场价仅$700+。它与正式发布的7713结构一致,频率略低,有人怀疑类似于Intel的 ES(工程样品)。主板支持Milan的SP3主板即可。唯一要注意的是内存插槽数,根据DDR4单条内存的容量大小,要能够插出512GB来。) R0 N4 N# O+ s  F) C$ o1 ?

5 K  I  u8 P& _/ f
% {7 N" @9 `1 H1 {! g2 d' e( ?3 A0 ?第三:显卡。双3090或者单4090。4090不好买,用两块3090大致能抵上一块4090。
: A% g: ^8 ^$ b3 S/ o* P  {" v$ L$ ]# S' k, Y0 @
第四:硬盘。这个要求真不高,如果机器仅仅是为了跑DeepSeek,一个4 TB
5 p2 ]% u- [& U& J! a$ m(或者两个2 TB)的nvme就够用了。(想当初我在爱坛上发记录推荐固态盘时,一块4TB的才$150)
$ Y9 B  G& m- q' {) `- w+ Q, k; Z! m. ]  u7 K9 d
其它:说3点。1)普通PC机箱。2)散热避免使用服务器的暴力风扇( PC机箱也缺乏服务器的风道结构)。如果散热量大,考虑用水冷。3)如果单台大功率电源太贵,可以用两台小的给主板和显卡分别供电。如此需要双电源同步启动板或者同步线,但那东西淘宝上也就人民币10块钱。. w1 m7 h2 B7 d$ Y6 W. X

. l8 E( }2 g" `+ D* L最后汇总一下。数字为能够淘到的大致美元价,可以接受二手货,+、-表示向上下浮动不超过15%
; S/ P' C3 j  s9 }' |
% K$ h0 W7 p) m2 T- o, Z' DRAM 512GB DDR4       1000+
+ ^/ i  Q( K! dCPU 7C13或相当           700+
1 R0 Z' ]% o% \) N主板(单路即可)         500
5 G6 P- a6 c1 t( C$ D显卡 3090                  1000- ×2
' |! ]% W1 k% b固态硬盘                     200+
; Y$ Q7 o1 b# I: A, h: Q其它 机箱、电源、散热器等
9 C7 R5 c9 O$ B" b- _5 H
, H( j7 A; {. o9 W
作者: 大黑蚊子    时间: 2025-2-20 16:27
本帖最后由 大黑蚊子 于 2025-2-20 21:55 编辑 $ s) Y( h1 ]. H4 d* R
- o- _: [0 ~" K/ Q
说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径了
+ q. o9 J! b$ W& \+ T% S' S在硬件选型上面我倒是有点儿不同意见,鉴于章明星他们在0.3版里使用amx指令集加速,那么支持amx的Intel至强可扩展CPU应该是要好于AMD的EYPC的,具体来说现在Intel最新款是6代至强,退而求其次选择四代或者五代至强应该也满足要求。章明星团队他们的硬件好像也是双路Xeon 6430
9 a# }2 i; b% Z! Z6 w, n但是这个成本可能要比你说的EPYC要高不少,但总的来说应该还在可承受的范围之内
& l+ A' ]* t6 H* F% L" R/ \) z显卡的双路配置好像不是特别必须的,主要是4bit量化版需要14g显存,所以如果有一块3090先用着应该问题也不会太大,实在不行多买一块也可以8 Y9 I- E0 ~* j% q7 z
8 g  y, {9 \% \+ D, W0 e% v  R
周末去华强北转转去,看看二手服务器有啥准系统能够直接上手的
作者: 马鹿    时间: 2025-2-20 21:42
我看到了国内AI的商机。。。 攒小配置的AI模型!
作者: 马鹿    时间: 2025-2-20 21:43
关于方案, 我直接问过deepseek。。。
作者: 马鹿    时间: 2025-2-20 21:45
大黑蚊子 发表于 2025-2-20 03:27
1 O- W. O( W7 ~3 c1 D, K/ z说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...

5 f5 Y8 d; r3 M) `; _7 O4 g+ C$ L真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
作者: testjhy    时间: 2025-2-20 22:50
马鹿 发表于 2025-2-20 21:45
* U6 j3 _& u- l0 i9 E真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
. h2 G. f& x. F4 e4 I7 o" G
社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,
作者: 马鹿    时间: 2025-2-20 23:19
testjhy 发表于 2025-2-20 09:50
  A  F( S+ k: c9 U0 t3 f社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,
6 K/ h3 L! K3 Y4 _& \
攒了以后干啥呢?
作者: testjhy    时间: 2025-2-20 23:32
本帖最后由 testjhy 于 2025-2-20 23:41 编辑 2 m! Q( I  @. F# i( x# \
  X/ b& c# Z4 r9 E/ u6 X

6 x9 v# g0 m! ?( Y2 ?; i这是大华股份根据国产芯片的一体机,估计是华为提供的方案供各家贴牌
作者: 大黑蚊子    时间: 2025-2-20 23:38
testjhy 发表于 2025-2-20 23:321 _: \' [! d  I# r' I
这是大华股份根据国产芯片的一体机,

- p% w2 e$ ^8 x) G2 g大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型3 u+ r) e2 f& w3 E6 x
我在自家电脑上搞了一个7B的模型试了下,真的是不太行. q' U2 ~; h2 Q6 Y- }1 a
我估计32B和70B也都不太行
9 N3 b* S9 _" W0 t* i4 v$ _8 M这个帖子里讨论的应该是直接上手671B的满血量化版,1.58或者4bit版本,这个据多个信源反馈效果挺好的
; y% f7 N5 q% P3 ]( v* ?4 K
# Q9 E2 g: F5 s* h# Z' ~( z, n. |2 G/ K. z
不过这个单子我倒是可以拿着去嘲笑下大华的朋友“你们钻钱眼里了?搞这个文字游戏骗钱”
作者: testjhy    时间: 2025-2-20 23:42
马鹿 发表于 2025-2-20 23:19
: w& g7 V/ t" D0 T. d* ?& k9 q1 W攒了以后干啥呢?
! r$ H, s& l; x0 o
想干啥就干啥,吃喝玩乐,
作者: testjhy    时间: 2025-2-20 23:45
大黑蚊子 发表于 2025-2-20 23:38  B9 r8 ]% o% T  K' n9 D' a
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型, W5 y% E" {; L
我在自家电脑上搞了一个7B的模型试了下, ...

% q1 Y4 ]7 a# c5 V7 }3 Y9 d0 D找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,
作者: 大黑蚊子    时间: 2025-2-20 23:53
testjhy 发表于 2025-2-20 23:45
. f4 z. y1 A% t% P5 d$ k2 p$ l找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,{: ...
- D: E; l' K9 k. U# X+ B6 c  l! Z
我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的7 Q! w! c3 h* `  @& ?  ?3 k5 ?+ @% d
打听了一下Intel的至强4代CPU,现在全球缺货,嘿嘿
) f& O5 X$ h9 p去华强北看看有没有QS版本,可能一块就要6000人民币至少
作者: 马鹿    时间: 2025-2-20 23:53
大黑蚊子 发表于 2025-2-20 10:38
# h6 g% L' t, g  |大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型. I  K6 V- c7 M% n% r5 w" p) ?
我在自家电脑上搞了一个7B的模型试了下, ...

, v4 T5 l. a  z! R3 g; m) E好奇你攒个模型做啥?
作者: 大黑蚊子    时间: 2025-2-21 00:03
马鹿 发表于 2025-2-20 23:531 f3 W( c2 Q- `3 P/ h# @( i3 l
好奇你攒个模型做啥?

) Z3 b5 C0 m) E8 W0 ?; H9 w8 f3 a8 |! @( c4 N/ f; e$ R0 ?
玩啊,好奇啊,这很可能是通向新世界的大门# r8 A0 ~( n; x. R/ L8 l5 U
有这个条件的话,干嘛不玩?
- ]6 N( C2 R* g, \' o* U- B; a8 [4 U
现在大部分人还在懵逼状态中,只是知道个大模型的东西,具体怎么搭,个人知识库怎么建,私有服务怎么处理...好玩的需求多着呢
: u3 Z2 M% B8 G& ~) J0 q; k
# i* q* d9 e/ w4 sDeepSeek的出现,极大降低了大模型训练和部署的总体成本
; s+ x% q1 M' ^6 P, h6 W  `KTransformer架构的出现,打响了极大降低大模型部署和私有知识库服务的硬件成本的第一枪
  f2 i3 J7 U/ t, @( O1 G+ p
" A' @3 Y0 l* N& J4 _6 M这种能够降低90%成本的新技术出现,大概率后面会蕴藏着10亿级别的新的相关应用和服务空间
" q# |# z# K  w$ ?9 z- f. h玩的过程中也可以吸收很多其他的知识,认识其他稀奇古怪的人,包赚的啊
作者: 沉宝    时间: 2025-2-21 00:16
大黑蚊子 发表于 2025-2-20 16:27
% L; a  Y- Q  t. ], N% }! M说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...
% I5 P( b% u8 @+ O  G: L, y
这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所以在预算有限的前提下,应该尽量省下钱来加强GPU。当然如果实测一块3090够用了,那更好。! y) h$ u) e7 Z' c9 j$ T1 ^

) m' b$ l" _5 V) w# \对比EPYC与Xeon 6530方案。Xeon 6530 2023年底发布,还比较新,主板加CPU的折扣有限。而EPYC Milan则要旧得多,有大批从数据中心退下来的二手货可选。即便有amx加成,但架不住7713的核多,单挑的话还是应该7713赢。而双路7713的话只不过比我的原方案多一颗U的钱,其它几乎不用改。个人认为CPU的第一位作用是保障参数全部装载在内存,计算加速还在其次。章明星团队的努力是充分挖掘手头现有硬件的全部潜力,amx加速是新版才加上去的,可见并非重中之重。
作者: pcb    时间: 2025-2-21 01:42
大黑蚊子 发表于 2025-2-20 23:53, E) A; g+ \( M+ j: k0 V# V+ R$ ^
我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的
3 }( i: Q4 I' b+ E3 Q4 |! b: H7 P打听了一下Intel的至强4代C ...

: `( k9 g* p7 r2 d9 R! W"至强" 是 Xeon?
作者: 马鹿    时间: 2025-2-21 02:29
大黑蚊子 发表于 2025-2-20 11:035 P- o) h& s9 G* g
玩啊,好奇啊,这很可能是通向新世界的大门
6 Y' @6 P, {# Z8 Z9 D9 k8 h) J有这个条件的话,干嘛不玩?
1 [, ^3 ^9 [$ ]6 Z1 L+ N0 A
握手, 我也是,就是好奇。 也同样认为这是通向新时代的大门。
作者: xut6688    时间: 2025-2-21 05:30
在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。至于本地部署的蒸馏R1,我试过各个版本包括70B的,效果都不好,和原版差太远。我自己玩着用本地部署的模型做了一个RAG应用,最后发现蒸馏R1还不如原版的QWen2.5 32B。
作者: 大黑蚊子    时间: 2025-2-21 09:06
xut6688 发表于 2025-2-21 05:30
5 B* q4 ~% |7 e4 z0 _7 J在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。 ...
3 V6 x: g! ~7 g( y
所以为啥盯着671B的版本呢,就是这个原因,其他版本的性价比其实都不好。; _! c" s0 l& c  N9 \4 J. _
  S% B7 H/ W7 P, l, x7 F) Q5 X$ r
目前有海量的本地部署满血版DeepSeek的需求,因为太多的数据受商业或者法规的限制不能上网,这个部署的整体过程是有很大市场需求的。
8 ]+ T+ `  y& I6 {- K) W6 H! R! X' v% ~
6 O$ z# D! X! w. `: O$ P: C! yDS和KT的诞生,不是拉低了对算力的需求,而是通过降低成本做大了整体算力需求。' b5 u3 P# B# O: V7 k4 a
$ n7 Z6 n4 D5 [1 e. _- X0 L" V+ C
而且部署过程中的调优和配参,踩过的坑,以及反复琢磨和资料学习的成果都是自己的。4 x& q" E- E- ~# B' d3 Z

- _- L. c, n: t0 o; B/ Y8 k. U再说了,都是二手硬件,搭完之后上闲鱼卖掉,亏不了多少钱
作者: 大黑蚊子    时间: 2025-2-21 14:10
沉宝 发表于 2025-2-21 00:16( k9 O1 p) \  n  i1 h! F3 V
这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所 ...

5 @* X7 w& V& P1 @/ _我建议你再看一下KTransformers的相关资料
) X' F. N0 k- D' t: b- h这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依赖CPU/DRAM带宽,从而降低GPU需求的降本做法。
4 K( {. ^2 A1 y. L! mDDR5换DDR4的话,带宽砍半,对应token的数量就要起码减半2 P% G4 e& r; Q' F$ @! c$ _
CPU的带宽再砍半的话,又要丢失速度9 d/ ~7 N: O; w" h0 e/ I5 @
如果CPU/DRAM带宽不够的话,甚至3090可能都喂不满,无限下降螺旋在降低成本的同时会极大影响使用效果
" @/ p2 x) x0 n- [5 M% u对于咱们来说,跑起来不是胜利,能够最低限度可用才是核心需求所在啊
, P9 Y" I9 @- D# L0 |) E我觉得起码要搞个输出4-6token/s才行吧
# e1 E& ?/ E& |; K6 C3 C* k* v按你这个方案我估计可能1-2token都悬
作者: 沉宝    时间: 2025-2-22 00:10
大黑蚊子 发表于 2025-2-21 14:10
3 t# W5 e  K/ v: m. p我建议你再看一下KTransformers的相关资料9 h% Z! H" Y/ S5 T8 k
这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依 ...
' W# S- L4 k4 a/ _* @2 h
欢迎讨论。$ ?% S; b, i/ K' g9 J  `0 T
% U. n" k* |5 `
首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek是基于MoE的,回答某一个具体问题时只有部分参数高度活跃。KTransformers可以动态调度,把这部分高强度计算交给GPU(好钢用在刀刃上),剩下的则由CPU完成。所以CPU部分对系统整体性能的影响不如GPU大。作为佐证,上一帖我提到了章明星团队在几次版本迭代更新之后才把amx加速添加上去。
! h4 P) m2 W& i+ Q. K# d; Y2 D' I$ j. s* n/ M( d0 P
CPU/DRAM带宽对系统性能的影响不是简单线性的。老实说,我没有咱们现在讨论的这样大的系统的实际经验。我只能根据在台式机上看到的现象做一些外推。Intel的12代和13代同时支持DDR4和DDR5,DDR5内存下整体成绩要比DDR4好一些,不过差距并不大。至于到显卡的带宽,我也可以说一点。我们知道目前大部分显卡的插座都是PCIe×16。外置显卡时,因为各种原因往往不做16路通道,比方说仅仅实现了8位通道。那么这个PCIe×8的显卡游戏性能下降多少呢?绝对在30%以内,常常也就10-20%。: G+ g8 o! L. p. o; W7 D

7 N  t0 X* N0 b- V3 N) F以上这些是我没有简单照搬章明星团队的配置,而为省钱做了一些变更的原因。
作者: 大黑蚊子    时间: 2025-3-10 22:25
沉宝 发表于 2025-2-22 00:10
; {9 f+ X. o/ {欢迎讨论。
$ {# F% s( [" D, b: V* o9 }" U) n" U# x
首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek ...

/ M- v7 U5 A) v刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本( r7 U. q5 T0 U  G
显卡用的是3070M 16G,环境是Ubuntu 24.04.2* p) @4 M9 Y& Q1 p/ ^& m! y* N& V; |
输入大概是10不到一点,输出大概是5,勉强可用$ z+ Z( M( B* y# o; U$ H
因为都是整的垃圾配件,总体的成本大概不到4000人民币( S4 Y- Y1 ]! N# C4 g

# |8 P* {2 S- B- n% Q# W9 j我估计如果他能够用DDR4+至强的话,应该可以到7-8的输出
3 Y7 l: C8 U& C! R* m1 R+ J如果是这个速度的话,个人轻量使用已经没有特别大的问题了
作者: 数值分析    时间: 2025-3-10 23:42
这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的
% |9 f) K* g7 N$ Uhttps://www.pmtemple.com/academy/17340/
& w: e/ n1 [7 R: l% C9 S, f$ P1 Q% Y1 X
作者: 孟词宗    时间: 2025-3-11 01:50
大黑蚊子 发表于 2025-3-10 22:251 B3 B0 B3 K. B
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本' ?8 a* T0 w6 J$ f
显卡用的是3070M 16G,环境是U ...

; o. {7 P7 @  W2 U9 ]4 S* L5 g, h2 s. M8 p
我觉得别对Q5以下的版本抱太大希望。Q5 以下只能说是能跑,但效果实在不敢恭维,很多情况下出来的回答都不是 AI 幻觉,而是文不对题。在决定投钱搞硬件前,还是建议先化小钱租个服务器,下载不同的压缩版看看效果再确定要用哪一版,用什么本地硬件。
作者: 沉宝    时间: 2025-3-11 02:12
大黑蚊子 发表于 2025-3-10 22:25! P  p2 P% L. A7 O' C7 b
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
! i% W8 t1 I) Q显卡用的是3070M 16G,环境是U ...
0 f2 o; @4 A" g, D! {5 j" \
这做得很厉害了。点赞!
作者: 沉宝    时间: 2025-3-11 02:14
数值分析 发表于 2025-3-10 23:42
# L: i% q$ `2 z, z5 g! G) |0 m& h这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的
8 {/ W9 e$ A6 {- V" n/ m2 D$ }https://www.pmtemple.com/academy/ ...

: q3 R8 E1 ~  A" Y6 |这么多案例,很有参考价值。
作者: 孟词宗    时间: 2025-3-12 01:39
有 512 GB RAM 的话,基本 Q3 以下都可以跑。Huggingface 上量化版不少。例如这个:https://huggingface.co/unsloth/DeepSeek-R1-GGUF 从 Q1 到 fp16 都齐全了。Q1 的几个版本甚至只要 256 GB 就可以跑了。
2 r. f4 W' H; T* l3 v2 h5 x" h# F" M* d& q
但是,量化版压缩了尺寸,同时也压缩了功能。个人感觉 Q5 以下基本都是渣渣,回答大多逻辑不通。
作者: 孟词宗    时间: 2025-4-15 10:41
大黑蚊子 发表于 2025-3-10 22:258 D' Q/ ~, e4 [; b' v; s; A- i5 e
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
1 P! p6 b, u+ ]+ I0 d显卡用的是3070M 16G,环境是U ...
" ]3 t0 X! Q3 c5 I4 T5 Z
性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是有16条内存槽,按 Intel 的说法,每个 CPU 可以到 768 GB DDR4。两个就是 1.5TB (实际 HP Z840 号称能到 2TB),正好可以跑 DS-R1 671b 完整版了。
作者: 雷声    时间: 2025-4-15 11:18
孟词宗 发表于 2025-4-15 10:414 w0 @8 N( |- G  f
性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是 ...

) E7 c& c( w9 r5 {9 Q- N: nhttps://cloudninjas.com/collecti ... 40%20will%20support,Reduced%20server%20(LRDIMM)%20memory.0 d& D+ q7 O4 s5 |0 d
! F% y- |, e7 O1 N0 \6 s2 g
The HPE Z840 will support 4GB, 8GB, 16GB or 32GB DDR4 Registered.
/ U# A( G5 K2 w8 y" h3 g) D/ y( IThis server will also support 32GB, 64GB or 128GB Load Reduced Modules (LRDIMM). 5 e8 t& o5 F  f: i( x6 X
The Maximum amount of RAM the HPE Z840 server can hold is 2TB (16 x 128GB) of Load Reduced server (LRDIMM) memory
( Y3 _# g5 Q: H$ U( t! M- U' r1 F5 T; d. _1 n3 q3 b, `: g
LRDIMM 128GB的话一条要1400~2000刀,16根的话。。。。 好像也不便宜了。( y4 g$ [" f8 X) t& x/ o7 z
Z840倒是不值几个钱。
作者: 孟词宗    时间: 2025-4-15 11:58
本帖最后由 孟词宗 于 2025-4-15 12:01 编辑 9 g4 M# T; m, M/ i5 B# \% a
雷声 发表于 2025-4-15 11:18
: G+ v" U: f2 f  [! [https://cloudninjas.com/collecti ... E%20Z840%20will%20s ...

4 |# S, f: n( t- @& y4 v( N. K& ?4 `) H/ b, R
没那么贵,Amazon 上一条才 $239。16条也就$3,824。
  P% u5 k5 w$ D, ^
3 F- o& g" k0 G; A8 h, ]https://www.amazon.com/Tech-2666 ... cp-nq_eMQV&th=10 r, M9 R2 s0 @0 M# H4 Z1 }5 ?
: }% r* N3 F* `
1TB 的kit 稍微便宜一点, $1,908, x2 就是 $3,816: https://www.amazon.com/Tech-8x12 ... amp;sr=1-1&th=1& y* E* ~* ^: b6 T
' F* U9 Y- K7 Y$ F: i
但如果上 2TB 的kit 反而要 $4,319 : https://www.amazon.com/Tech-16x1 ... ctronics&sr=1-60 j- r0 ~2 P& J9 c6 w2 U$ C

  W$ Z: K5 {* A* O) P2 k7 @. G& b2 `
" Q  C: m+ d/ D$ C5 e当然,真要上这个,最好买以前和卖家咨询一下,这些 RAM 是否可以装 Z840。我估计 Z840 出来这么多年,大概最多也就有人装到 128 GB,毕竟这不是 server 而是个工作站而已。
作者: 孟词宗    时间: 2025-4-15 12:14
雷声 发表于 2025-4-15 11:18
# G  w% X/ ~$ R' k5 e2 Yhttps://cloudninjas.com/collecti ... E%20Z840%20will%20s ...
$ |7 |, m# r0 b9 h! i: k' `
$ _. r* A; x9 V$ p8 j6 V; Z
顺便说一句,如果只是要跑压缩版的话,我在另一个帖子(http://www.aswetalk.net/bbs/foru ... read&tid=161700)里已经说过,如果有192GB的 RAM 就可以跑 IQ1_S(131 GB), IQ1_M (158GB)(假设没有显卡加成)。- @( f7 ~$ F  A4 n. ]

1 [$ ~2 {; x. Z) j不要显卡的话,搞个Intel core ultra 9 285k 或者 AMD Ryzen 9 9900x3d 加上 192GB DDR5 和 4TB 的 SSD,一般也就 $1,500 左右就搞定了。
作者: nanimarcus    时间: 2025-4-15 12:58
散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源一起吹,别去搞太复杂的冷却方案,水冷复杂且容易坏。
* i/ s8 \5 Z. ~, ]当然,有点吵,放在别的房间,用网络连接好了,命令行,远程桌面都可以。2 @# d( Y  u6 g- u( G& `
服务器那种结构就是隐含你用那种暴力风扇,对散热并不友好。2 d( U) [. n. |* ]
我的GPU上的CUDA跑满都可以控制在80度以下。
1 T# F8 K9 G& F; G# d当然奢侈一点,放在空调房,调节一下空调出口,把机箱放在桌子上,对着机箱吹能降下很多,这才是真正的水冷加风冷。
作者: 孟词宗    时间: 2025-4-15 13:48
如果是为了跑本地大模型,显卡没有必要搞顶级的家用卡。相比速度,更重要的是显卡的显存有多少。) C! q0 n8 b+ w$ n: ^

6 V5 [; F: J& ]* _- j' N从性价比来说,两块3090比一块4090要好,这是因为3090仍然支持 NVLink。连接后显存会显示为 48 GB。这就可以容纳很多模型了。
2 C+ w8 W4 G" }4 \1 S2 [
% ~. U$ g: i  `1 z6 e但3090的问题是功耗, 350W 起步,两个就是700W,对电源要求高了。而且还得找有足够空间的主板和机箱。而且价格也不便宜。4090 现在给炒到 3650 美刀左右,3090 则是 2000 美刀。加起来就不是小数字了。
7 s! M% y8 y# [4 L3 [: g6 }+ h* u
对于显卡,我倒是推荐这个:PNY RTX 4000 Ada VCNRTX4000ADA-PB 20GB, 市价1500 美刀左右,有20GB。虽然不能串联,但这是个 Single Slot card。一般好的主板能塞三四个。功耗单卡才130瓦,三个加起来也就才相当于一个3090。而三个卡加起来 60 GB,Ollama 可以跑很多 LLM 了。
' T9 Q& ~) `$ ^
1 g# }5 ?, w& ^, M否则也可以弄个 PNY NVIDIA RTX 4500 Ada Generation 24GB GDDR6,这也就2300美刀左右,但显存和4090 一样。两个加起来相当于一个 4090 但显存要多一倍。2 Q. E# v1 l' O/ |6 N

3 E5 N' ], o( I7 V  u当然,俺的理想卡是公布但还没有正式开售的 RTX PRO 6000 Max-Q https://www.pny.com/nvidia-rtx-pro-6000-blackwell-max-q。这玩意儿有 96GB 显存,还可以用 NVLink 串联。最大可到四张卡384GB,而单卡功耗不过 300W。* l& ]# K. a  W; C
5 q& q' b, h5 D; y! P" k# N
当然价格据说也挺感人,要 $8,565 单张。
作者: 孟词宗    时间: 2025-4-15 14:12
nanimarcus 发表于 2025-4-15 12:58
8 ]3 [9 n* U6 _8 r1 g% {4 P散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源 ...
( v5 t* t) L6 M3 v8 R
同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机箱正面两个200毫米的风扇吹气,后面一个140毫米的抽气,足够用了。用风扇的时候,机箱应当关上,这样风速比敞开的更快。
- H& r0 M& u- Z; M; s. c: p5 W& l2 x8 ^, j
CPU 和 显卡的冷却还是不能省的。倒不是风扇,而是它们的散热片不能省。有了散热片才能有效散热。风扇本身是不是装在CPU和显卡的散热装置上不重要。
作者: nanimarcus    时间: 2025-4-15 17:35
孟词宗 发表于 2025-4-15 14:12
4 A5 f5 {) R- r1 K: j* J' R同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机 ...

% p9 a7 X( M5 r+ y$ ~9 G& M我有点成见,总认为机箱上的风扇不够有力,呵呵。. F# u- ~' S5 I4 p" r( s5 C
  h3 c4 Z2 @' E/ O# X
所以总认为机箱敞开了另外架个风扇吹特别有力,至少视觉上如此。8 k) K) Q0 i( w$ U/ D1 E
/ S( S( @2 w7 N" R# i$ G$ Z
所以我的理想型机箱就是一个框架,其他统统敞开了,吹!
( s4 }3 d9 W& i5 T
; @, L# p( ~9 x& e另外,CPU上带的散热片过于庞大,多少会造成主板变形,所以我的机箱是平放的,如此一来显卡是竖起来的,这样两个最重的部分不会造成形变。
作者: 孟词宗    时间: 2025-4-15 21:45
nanimarcus 发表于 2025-4-15 17:35' X7 h# i6 _" N; a% C# h
我有点成见,总认为机箱上的风扇不够有力,呵呵。: N- \- }! b, V9 Q2 f
2 w4 K( u! R8 m
所以总认为机箱敞开了另外架个风扇吹特别有力,至少视 ...
+ f/ [' I3 H  m. n
Caseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。# u* R! t3 l5 f9 }% {* O- a

3 i/ ~5 G4 J- w/ V7 ?) {: |2 q) r# S; O6 W* u2 I- B9 m: z7 c1 g
主要问题是像下面这个放桌上的,如果一不小心撒点饮料上去就容易把电脑废了。5 I  S6 c( E; f( h1 g- B/ Z
; i5 M+ ^, L  s3 h  ?

9 T# j7 X$ a3 B% T$ Z$ W所以一般都是挂墙上的。造的好点的话还是挺科幻感的。
7 _5 \* D; {, L2 j% m' [
作者: nanimarcus    时间: 2025-4-15 23:26
本帖最后由 nanimarcus 于 2025-4-15 23:27 编辑   B* k; |* U$ S2 h# R) V
孟词宗 发表于 2025-4-15 21:45
5 I0 B, b0 E4 _Caseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。
7 M' n0 f7 G5 y( \$ w/ e) M

$ P! a9 W+ O0 e! X# q这个确实很赞。
9 m, @% L  k8 r) y5 H9 Q
' y5 g6 h/ f+ ?6 x0 o" p第一三张好像放不了全尺寸显卡。8 l, g; h/ t! f+ B' a  s- L
第二张全尺寸显卡的散热好像不太好。
作者: 孟词宗    时间: 2025-4-16 00:07
nanimarcus 发表于 2025-4-15 23:26
& I8 `9 u( q! T这个确实很赞。, @2 L+ C2 N4 S; ?+ R8 [

! V0 \4 s0 G, p! }% P第一三张好像放不了全尺寸显卡。

3 n% N  u& ^2 M( x. [都是全尺寸显卡。第一、三两张中的显卡散热被魔改成水冷了。所以看不到明显的显卡。实际上两个机器应该都是双显卡。第二张的显卡问题不大。很明显不是80或90级别的。根据电源才600W来看,应当是3060或4060级别的。这个显卡的原装风扇还在,制冷应当还行。
作者: 雷声    时间: 2025-4-16 07:27
孟词宗 发表于 2025-4-15 11:58" V' z( F7 `' g* G9 C* q  w
没那么贵,Amazon 上一条才 $239。16条也就$3,824。
. d' l* v" j5 @( Y! A, }) t
. ?8 d; g7 y. ~" y  Vhttps://www.amazon.com/Tech-2666MHz-PC4-21300-Wo ...

- W0 z7 ^; i+ |4 P  [HP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。1 r! y& W- n: r3 N% t
Z6/Z8 G4也可以上到2TB,加上PMM的话更多,价格比Z840也贵不了多少。5 w. Y, O8 }. w6 p8 @
话说Z系列是真不错,我09年买的一台Z8现在用的好好的,而且比公司配的新Alien还快。
作者: 孟词宗    时间: 2025-4-16 09:55
本帖最后由 孟词宗 于 2025-4-16 10:03 编辑
: ^0 e9 m( b3 p- @, w
雷声 发表于 2025-4-16 07:278 c# A2 ~$ m9 `& K% P* {
HP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。 ...

- D4 G% [0 D- `1 b$ j8 ]% v
4 R7 n* I9 q6 M; B- u. }/ fHP Z8 G4 号称可以最高支持 3TB 不过这得看 CPU。如果单个 CPU 只支持 768 GB的话,那两个 CPU 最多也就 1.5 TB。大多数旧的 HP Z8 G4 都最多 1.5 TB。
: v% r6 K0 P2 M& e) T' Z- L
6 l9 T5 F: a( ?/ V性价比来说你说的很对,Z8 G4 的确更合算一些。尤其是不少旧机器本身就带了 1.5 TB。这比自己买要合算多了,也省事多了。8 S) {8 V3 L$ _0 K* r, h* ~
( c" [' s; M) t! s) k+ f
从跑 LLM 的角度讲,应当是可以跑,速度勉强可以接受的程度。俺那个三年旧的机器,如果不用显卡,跑 DS-R1 的 70B 蒸馏版最快也就两三个token每秒。Z8 G4 跑DS-R1 的671B版本应当只会更差。毕竟内存更慢,模型更大,CPU更老。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2