爱吱声

标题: DeepSeek R1全参数模型一个可能的本地部署方案 [打印本页]

作者: 沉宝    时间: 2025-2-20 15:41
标题: DeepSeek R1全参数模型一个可能的本地部署方案
DeepSeek一夜爆火,现在联网服务拥堵不堪。当晨老大号召自建farm的时候,本人开始认真考虑本地部署。 KTransfomer的报道也在第一时间见到,并设想了一个以此为基础的装机方案。然后呢,就“铲后抑郁”了。如今很多内容都在网友[大黑蚊子]的记录(链接)中讨论过了,但具体的装机方案大概还有一些价值,还是写出来吧。1 Z$ ?# {1 q9 K, i% i) I  x

; F) Q* s  A/ x; Z7 \4 w  E$ FDeepSeek R1原版是一个参数量高达671B的大模型,虽然比之其它頂尖的人工智能模型在硬件要求上已经大大降低,但个人部署全尺寸模型,依然难度不小。为了便于在低端硬件上运行,出现了一系列蒸馏版减少参数量(以 Qwen2.5 或 Llama 为构架,参数范围从 1.5B、7B、8B、14B、32B 到 70B)。另一个思路是参数量化,例如1.58bit和4bit。一般来说,LLM训练时使用高精度(例如 32位浮点数),而推理时使用低精度(16位浮点数或者更低)即可。1.58bit是把这一趋势推到极端(只有0、1和-1三种状态)。有人试验了DeepSeek全尺寸模型的1.58bit的量化版,结论基本可用,有时候说话可能有点“冲”,圆润平衡上差一些。4bit版效果已经相当好了。至于[xiejin77]担忧的量化影响反馈精度或者稳定性,理论上有可能,但实际影响需要大量的对比实验加以证实或者证伪。1 P5 }. l+ @( z+ p9 A- U
  e) b% k+ o. t! v* c3 V
下面讨论具体装机方案。首先定一下目标。目标用户:个人或者小团体。鉴于这个模型现在典型的应用场景都是文字的输入和输出,跨网络合用的难度并不大(因为不需要占据太多的网络带宽)。单机,预算定位$5000左右。应该属于一个人咬咬牙能冲得上去,小范围集资(10人以内的那种)能够轻易支付。目标性能:DeepSeek R1全尺寸671B的4bit量化版,输出速度与人的阅读速度差不多即可(个人使用,太快了没有必要),约 5-10 tokens/s。这样的预算,这样的目标,显然需要KTransfomer技术加成才有可能达到。饶是如此,也得按市场最低价加DIY省着来。) O# O( T, j9 L* }7 T
% H9 N9 n* ^; H& _6 p) K
第一步:内存的大小。将模型的参数全部放入内存是必须的。如果还用硬盘空间扩展出来的虚拟内存,那速度肯定慢的不行。DeepSeek参数精度16bit(BF16)时需要 1342GB的存储空间,4bit量化版所需空间为其¼,再加上程序和操作系统所需,512GB应该可以了。这么大的内存,普通PC机主板肯定不行,要上服务器的。鉴于当前DDR4的内存条比 DDR5还是要便宜不少,所以选择DDR4。
" Y3 f$ L$ n% X- d+ @) r' }  A7 q! J9 @; J( ~; d
第二:CPU和主板。CPU我选AMD Zen3架构( Zen3是DDR4的最后一代)的服务器芯片EPYC 7C13, 64 core 128 threads, 市场价仅$700+。它与正式发布的7713结构一致,频率略低,有人怀疑类似于Intel的 ES(工程样品)。主板支持Milan的SP3主板即可。唯一要注意的是内存插槽数,根据DDR4单条内存的容量大小,要能够插出512GB来。$ k  v! u2 i& |. D5 e
2 {- A  M. |. c5 w9 a
$ Q' S  x' S, z# S+ K8 A
第三:显卡。双3090或者单4090。4090不好买,用两块3090大致能抵上一块4090。
8 o8 G* N) [, C1 b* ]3 ~4 {. c; O2 s# W, j$ Q
第四:硬盘。这个要求真不高,如果机器仅仅是为了跑DeepSeek,一个4 TB
* f% W: ~5 }, a(或者两个2 TB)的nvme就够用了。(想当初我在爱坛上发记录推荐固态盘时,一块4TB的才$150)9 I: M8 d- M3 B, u

$ [0 P8 X1 d2 w; a. ^* c# S其它:说3点。1)普通PC机箱。2)散热避免使用服务器的暴力风扇( PC机箱也缺乏服务器的风道结构)。如果散热量大,考虑用水冷。3)如果单台大功率电源太贵,可以用两台小的给主板和显卡分别供电。如此需要双电源同步启动板或者同步线,但那东西淘宝上也就人民币10块钱。
0 d& D0 @2 ]: w5 ?
, ~/ e0 l) s# U- Y  e最后汇总一下。数字为能够淘到的大致美元价,可以接受二手货,+、-表示向上下浮动不超过15%' l# e; ~' C+ P3 a2 {
- y0 H8 g& K+ A- ?! J
RAM 512GB DDR4       1000+
/ \3 f- Y' W4 H; h# y5 QCPU 7C13或相当           700+9 \( V3 Z9 X0 {5 S* N+ x2 l( c
主板(单路即可)         500
. ]) A/ `/ u. ~6 h0 o% ?' U显卡 3090                  1000- ×2
$ V5 k+ {7 _3 j, N% x  w+ r1 J% F固态硬盘                     200+) B: y; x! v# d0 U8 p! x
其它 机箱、电源、散热器等7 P4 S) O. G5 E9 E" {

# L0 Y, s7 w# r4 y4 g$ T
作者: 大黑蚊子    时间: 2025-2-20 16:27
本帖最后由 大黑蚊子 于 2025-2-20 21:55 编辑
! i! _& C: T6 N7 o
, g5 o2 A" T2 M" h% ?1 T7 G7 l说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径了
- \% R6 E0 B' U7 M# j' I: v在硬件选型上面我倒是有点儿不同意见,鉴于章明星他们在0.3版里使用amx指令集加速,那么支持amx的Intel至强可扩展CPU应该是要好于AMD的EYPC的,具体来说现在Intel最新款是6代至强,退而求其次选择四代或者五代至强应该也满足要求。章明星团队他们的硬件好像也是双路Xeon 6430
' q4 t8 ~8 m7 o- [6 B' }但是这个成本可能要比你说的EPYC要高不少,但总的来说应该还在可承受的范围之内
. T. Y8 U5 o/ K, \9 [) ^& A3 u3 I显卡的双路配置好像不是特别必须的,主要是4bit量化版需要14g显存,所以如果有一块3090先用着应该问题也不会太大,实在不行多买一块也可以
6 K0 b% i; B# R3 X
+ V1 L! S2 C( v5 E周末去华强北转转去,看看二手服务器有啥准系统能够直接上手的
作者: 马鹿    时间: 2025-2-20 21:42
我看到了国内AI的商机。。。 攒小配置的AI模型!
作者: 马鹿    时间: 2025-2-20 21:43
关于方案, 我直接问过deepseek。。。
作者: 马鹿    时间: 2025-2-20 21:45
大黑蚊子 发表于 2025-2-20 03:27
, p6 C  V( m* S" f9 j9 P& D说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...

% b' I2 S$ \4 f0 Y6 e真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
作者: testjhy    时间: 2025-2-20 22:50
马鹿 发表于 2025-2-20 21:45
) y. ]  h* p: s* R; ^* J真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。

* k& _# w& H: X2 }" W社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,
作者: 马鹿    时间: 2025-2-20 23:19
testjhy 发表于 2025-2-20 09:508 [) B) R7 T& ^1 ?4 g- Y
社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,
1 W4 Y: D, f  |  m* d1 C! `: ?1 I
攒了以后干啥呢?
作者: testjhy    时间: 2025-2-20 23:32
本帖最后由 testjhy 于 2025-2-20 23:41 编辑 ; R% v4 t- i# K" T

4 G. Z6 d+ u+ d3 d8 W
" x9 k2 \( c6 F+ N9 C( S3 [这是大华股份根据国产芯片的一体机,估计是华为提供的方案供各家贴牌
作者: 大黑蚊子    时间: 2025-2-20 23:38
testjhy 发表于 2025-2-20 23:32
8 A+ D; w/ L+ W0 Z# i这是大华股份根据国产芯片的一体机,
  e. ^# Q: ^) Q- U3 n$ q- K  \( |
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型
" H# C# ~* Y) B! o' u* K9 v我在自家电脑上搞了一个7B的模型试了下,真的是不太行
1 P5 e& X( h" f/ W# ^. Q! B我估计32B和70B也都不太行$ w! s6 \$ t8 [7 v. p
这个帖子里讨论的应该是直接上手671B的满血量化版,1.58或者4bit版本,这个据多个信源反馈效果挺好的
) q" {0 k$ O& y+ O; s/ @% ?% b0 M! S7 y- @1 i, E1 ^
  i& t6 a$ M/ O- a$ K
不过这个单子我倒是可以拿着去嘲笑下大华的朋友“你们钻钱眼里了?搞这个文字游戏骗钱”
作者: testjhy    时间: 2025-2-20 23:42
马鹿 发表于 2025-2-20 23:19; l/ ^0 t+ R% y2 L: v
攒了以后干啥呢?
$ g  l: N! l2 S2 @0 L9 A
想干啥就干啥,吃喝玩乐,
作者: testjhy    时间: 2025-2-20 23:45
大黑蚊子 发表于 2025-2-20 23:38
! j; V  L3 u& X* p/ g1 U大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型2 h3 J+ Y0 F; a+ W0 P7 y
我在自家电脑上搞了一个7B的模型试了下, ...
: e4 w7 @1 w9 m
找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,
作者: 大黑蚊子    时间: 2025-2-20 23:53
testjhy 发表于 2025-2-20 23:45
$ T0 q7 E. V; h* m找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,{: ...
, m; m: [0 n. u, W9 I; D$ b% l
我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的4 ^3 d1 v* [0 }, i
打听了一下Intel的至强4代CPU,现在全球缺货,嘿嘿0 i2 t/ W% g1 h# Q7 [
去华强北看看有没有QS版本,可能一块就要6000人民币至少
作者: 马鹿    时间: 2025-2-20 23:53
大黑蚊子 发表于 2025-2-20 10:38
9 Y2 h! e% M& S  m& x; J大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型
$ B/ [6 Y9 G: ]我在自家电脑上搞了一个7B的模型试了下, ...

5 ~' k2 R  r  F1 H6 c( C0 Q好奇你攒个模型做啥?
作者: 大黑蚊子    时间: 2025-2-21 00:03
马鹿 发表于 2025-2-20 23:53
% R4 t% V! T- ?1 B( l好奇你攒个模型做啥?
& V5 @8 h8 N- ]# F2 y7 k

6 H) Q4 d5 G% T/ t2 R! b' \3 ^! {玩啊,好奇啊,这很可能是通向新世界的大门  F8 i# }/ T% [' x, \9 h1 t0 b0 X
有这个条件的话,干嘛不玩?! T; T' N9 S4 m7 T
# L; C6 G- a5 x& F& ^" Y
现在大部分人还在懵逼状态中,只是知道个大模型的东西,具体怎么搭,个人知识库怎么建,私有服务怎么处理...好玩的需求多着呢
9 O0 a! Q+ n- ^6 z. p" [: v% o6 U; ]5 Y
DeepSeek的出现,极大降低了大模型训练和部署的总体成本
6 O" S* e% f% \4 r% d$ I; A9 ~( EKTransformer架构的出现,打响了极大降低大模型部署和私有知识库服务的硬件成本的第一枪' l8 K5 Y' m* Z0 _2 P% b( h

( c2 G( g$ D, U这种能够降低90%成本的新技术出现,大概率后面会蕴藏着10亿级别的新的相关应用和服务空间  b* ]5 R. E" `) O3 }0 ~$ Y
玩的过程中也可以吸收很多其他的知识,认识其他稀奇古怪的人,包赚的啊
作者: 沉宝    时间: 2025-2-21 00:16
大黑蚊子 发表于 2025-2-20 16:27+ D3 U* S! R# V3 w
说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...

: t. q2 s4 E9 z) O2 F) F8 ?, x; y这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所以在预算有限的前提下,应该尽量省下钱来加强GPU。当然如果实测一块3090够用了,那更好。4 J! ~/ g$ Q1 g) T1 {, W
! K- B$ P4 A* q
对比EPYC与Xeon 6530方案。Xeon 6530 2023年底发布,还比较新,主板加CPU的折扣有限。而EPYC Milan则要旧得多,有大批从数据中心退下来的二手货可选。即便有amx加成,但架不住7713的核多,单挑的话还是应该7713赢。而双路7713的话只不过比我的原方案多一颗U的钱,其它几乎不用改。个人认为CPU的第一位作用是保障参数全部装载在内存,计算加速还在其次。章明星团队的努力是充分挖掘手头现有硬件的全部潜力,amx加速是新版才加上去的,可见并非重中之重。
作者: pcb    时间: 2025-2-21 01:42
大黑蚊子 发表于 2025-2-20 23:53; ~: f' [$ p/ ^( o5 u3 T
我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的; s$ \% a& b# G/ g! q; v( e
打听了一下Intel的至强4代C ...
6 m0 m( {/ h& {. M, X+ B( E% k3 a
"至强" 是 Xeon?
作者: 马鹿    时间: 2025-2-21 02:29
大黑蚊子 发表于 2025-2-20 11:035 I- e. W5 u5 G0 y" e) V
玩啊,好奇啊,这很可能是通向新世界的大门( o; o- L3 L+ l0 M7 n; r
有这个条件的话,干嘛不玩?
5 p- o/ g$ Y2 A) q
握手, 我也是,就是好奇。 也同样认为这是通向新时代的大门。
作者: xut6688    时间: 2025-2-21 05:30
在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。至于本地部署的蒸馏R1,我试过各个版本包括70B的,效果都不好,和原版差太远。我自己玩着用本地部署的模型做了一个RAG应用,最后发现蒸馏R1还不如原版的QWen2.5 32B。
作者: 大黑蚊子    时间: 2025-2-21 09:06
xut6688 发表于 2025-2-21 05:30
( n8 g# Z$ h; D在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。 ...

) t2 F9 R0 ^% I& o  t3 o0 R所以为啥盯着671B的版本呢,就是这个原因,其他版本的性价比其实都不好。
/ f" z% I" |# U# Z3 O
( g7 }: b: \( e& G/ h目前有海量的本地部署满血版DeepSeek的需求,因为太多的数据受商业或者法规的限制不能上网,这个部署的整体过程是有很大市场需求的。7 C* I5 K& a4 g; S2 [
1 `9 Q& ^7 D' m7 p5 _+ T# w" _3 r* ^
DS和KT的诞生,不是拉低了对算力的需求,而是通过降低成本做大了整体算力需求。
' ^. q5 @3 g! r! d0 Q( B
% c4 u0 [2 X" E# \. @7 g+ |( }' Y而且部署过程中的调优和配参,踩过的坑,以及反复琢磨和资料学习的成果都是自己的。
( h8 z, w' @9 Y) j( \/ L
' f7 X/ _# e# g( W再说了,都是二手硬件,搭完之后上闲鱼卖掉,亏不了多少钱
作者: 大黑蚊子    时间: 2025-2-21 14:10
沉宝 发表于 2025-2-21 00:16
$ z! y  t; y- h" U这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所 ...
. E* F' A* r2 ]4 P2 Q% o$ T
我建议你再看一下KTransformers的相关资料
5 \; d  r6 y4 \, x( ^* S' L* r: C+ h这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依赖CPU/DRAM带宽,从而降低GPU需求的降本做法。
0 ?& \6 d! M4 c0 i# KDDR5换DDR4的话,带宽砍半,对应token的数量就要起码减半
( |& q4 k% U8 f$ QCPU的带宽再砍半的话,又要丢失速度
; G* O" v* ^. ?- j8 {8 x7 |如果CPU/DRAM带宽不够的话,甚至3090可能都喂不满,无限下降螺旋在降低成本的同时会极大影响使用效果
/ b9 s4 I. N0 Z: W0 r6 t对于咱们来说,跑起来不是胜利,能够最低限度可用才是核心需求所在啊2 L- d. z3 g. R' K' a' P
我觉得起码要搞个输出4-6token/s才行吧
( ?  u& \9 ?5 V9 r按你这个方案我估计可能1-2token都悬
作者: 沉宝    时间: 2025-2-22 00:10
大黑蚊子 发表于 2025-2-21 14:10  p1 q. }" s4 \6 L
我建议你再看一下KTransformers的相关资料5 s$ O6 n; }4 t8 P& a4 M
这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依 ...
3 `- d8 b/ D+ \
欢迎讨论。* p4 ]5 g; o! O' v# B/ h! P3 P
  U: N3 Y1 e: E' \( {2 c
首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek是基于MoE的,回答某一个具体问题时只有部分参数高度活跃。KTransformers可以动态调度,把这部分高强度计算交给GPU(好钢用在刀刃上),剩下的则由CPU完成。所以CPU部分对系统整体性能的影响不如GPU大。作为佐证,上一帖我提到了章明星团队在几次版本迭代更新之后才把amx加速添加上去。! M, S- w2 `9 b& i

" O4 K# H7 J, HCPU/DRAM带宽对系统性能的影响不是简单线性的。老实说,我没有咱们现在讨论的这样大的系统的实际经验。我只能根据在台式机上看到的现象做一些外推。Intel的12代和13代同时支持DDR4和DDR5,DDR5内存下整体成绩要比DDR4好一些,不过差距并不大。至于到显卡的带宽,我也可以说一点。我们知道目前大部分显卡的插座都是PCIe×16。外置显卡时,因为各种原因往往不做16路通道,比方说仅仅实现了8位通道。那么这个PCIe×8的显卡游戏性能下降多少呢?绝对在30%以内,常常也就10-20%。
  B4 f: x+ X5 H2 E0 U  ]
, {, w8 U+ ?1 p" n) I& I8 F. E6 `' J以上这些是我没有简单照搬章明星团队的配置,而为省钱做了一些变更的原因。
作者: 大黑蚊子    时间: 2025-3-10 22:25
沉宝 发表于 2025-2-22 00:10
5 I; _1 s+ X2 H- D. \7 x( y- a2 g欢迎讨论。
: T( w: \0 B1 e6 [" y( Q& ?* @8 X% }. j( Y, Z( B$ l/ S3 @
首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek ...
' A9 t9 F6 h  x
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
+ z1 X7 w5 ]/ _; p( y4 e/ C* \$ t# A显卡用的是3070M 16G,环境是Ubuntu 24.04.2
$ w* [: s, V: \; @输入大概是10不到一点,输出大概是5,勉强可用
2 k$ t/ `: ^- U! J! d% e7 v因为都是整的垃圾配件,总体的成本大概不到4000人民币
" z& ]9 L! l. E8 r+ J2 u
6 B! Q( m6 q8 ^& e3 [! L我估计如果他能够用DDR4+至强的话,应该可以到7-8的输出
' c+ `7 V) d5 l0 d0 m2 a) g& n/ d# f, t如果是这个速度的话,个人轻量使用已经没有特别大的问题了
作者: 数值分析    时间: 2025-3-10 23:42
这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的9 S, @; }4 {1 l; j& c* q5 P
https://www.pmtemple.com/academy/17340/8 L/ C8 `; t$ j- h( k

作者: 孟词宗    时间: 2025-3-11 01:50
大黑蚊子 发表于 2025-3-10 22:25
; t9 O# P9 l+ W# t+ y" x7 g刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本) n# G% h/ [% `& f
显卡用的是3070M 16G,环境是U ...

8 M) r6 |( r5 n
! F' @* \* Z. K我觉得别对Q5以下的版本抱太大希望。Q5 以下只能说是能跑,但效果实在不敢恭维,很多情况下出来的回答都不是 AI 幻觉,而是文不对题。在决定投钱搞硬件前,还是建议先化小钱租个服务器,下载不同的压缩版看看效果再确定要用哪一版,用什么本地硬件。
作者: 沉宝    时间: 2025-3-11 02:12
大黑蚊子 发表于 2025-3-10 22:25# n( Z! J9 ^: M' |
刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
3 {# T" S3 A# b显卡用的是3070M 16G,环境是U ...

: V! i$ H( O* @* g+ j5 ^这做得很厉害了。点赞!
作者: 沉宝    时间: 2025-3-11 02:14
数值分析 发表于 2025-3-10 23:42
! C5 X# i1 u2 a0 I1 L, |% b这里有篇文章是谈万元以下服务器部署DeepSeek-R1 671B + KTransforme的
) j5 E4 Z" l$ Zhttps://www.pmtemple.com/academy/ ...
: Q0 T, d: ^; U: V
这么多案例,很有参考价值。
作者: 孟词宗    时间: 2025-3-12 01:39
有 512 GB RAM 的话,基本 Q3 以下都可以跑。Huggingface 上量化版不少。例如这个:https://huggingface.co/unsloth/DeepSeek-R1-GGUF 从 Q1 到 fp16 都齐全了。Q1 的几个版本甚至只要 256 GB 就可以跑了。
4 n( n9 m6 s6 I2 U- e7 p, R4 M2 |, `4 X
但是,量化版压缩了尺寸,同时也压缩了功能。个人感觉 Q5 以下基本都是渣渣,回答大多逻辑不通。
作者: 孟词宗    时间: 2025-4-15 10:41
大黑蚊子 发表于 2025-3-10 22:25
& T6 X( }/ e1 u刚刚看到一个案例,有个朋友用2686V4 x2 加256GDDR3跑起了671B的Q2.51版本
& C* [1 w; v  s5 X& u显卡用的是3070M 16G,环境是U ...

% g9 I9 g0 ?. D性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是有16条内存槽,按 Intel 的说法,每个 CPU 可以到 768 GB DDR4。两个就是 1.5TB (实际 HP Z840 号称能到 2TB),正好可以跑 DS-R1 671b 完整版了。
作者: 雷声    时间: 2025-4-15 11:18
孟词宗 发表于 2025-4-15 10:41
: F1 F# T/ c: a/ z: V& M# k性价比更好的是 HP Z840。这玩意儿有2X Intel Xeon E5-2678 v3 up to 3.1GHz (24 Cores Total),最好的是 ...

9 J/ k, |, `5 [https://cloudninjas.com/collecti ... 40%20will%20support,Reduced%20server%20(LRDIMM)%20memory.
+ }. ^  I& \+ Z9 K# r+ D  d
. G7 f0 x  ], J5 Q8 y* {  Q+ hThe HPE Z840 will support 4GB, 8GB, 16GB or 32GB DDR4 Registered.
2 w# s# X  a' y- f4 ]" ^! [; Q, eThis server will also support 32GB, 64GB or 128GB Load Reduced Modules (LRDIMM).
4 P1 B2 K" `1 M% k; \2 P9 A" N6 ]The Maximum amount of RAM the HPE Z840 server can hold is 2TB (16 x 128GB) of Load Reduced server (LRDIMM) memory
6 ~) @' g( L& G* ?% Y0 w- V7 Q
1 J- K" p2 I( ^4 b0 VLRDIMM 128GB的话一条要1400~2000刀,16根的话。。。。 好像也不便宜了。
1 ?: ]. I+ u/ M+ e( B  kZ840倒是不值几个钱。
作者: 孟词宗    时间: 2025-4-15 11:58
本帖最后由 孟词宗 于 2025-4-15 12:01 编辑 ( h$ S& ^& d4 t& L' w
雷声 发表于 2025-4-15 11:184 d9 H4 t0 V5 q4 M' n5 q- W
https://cloudninjas.com/collecti ... E%20Z840%20will%20s ...

; J0 j/ n/ E. R8 C# s  y5 Q$ a5 ^! l' l6 Z( r
没那么贵,Amazon 上一条才 $239。16条也就$3,824。& C" O- G# f' B, m0 G7 t
2 x- P; p/ i  p- C) C
https://www.amazon.com/Tech-2666 ... cp-nq_eMQV&th=1
7 q4 J5 z* i2 ?4 p0 z- |; D. o! w% L+ ]
1TB 的kit 稍微便宜一点, $1,908, x2 就是 $3,816: https://www.amazon.com/Tech-8x12 ... amp;sr=1-1&th=1
3 f2 i; A+ L3 v2 l* M2 r/ h
. M. ?) o- ^0 n1 a但如果上 2TB 的kit 反而要 $4,319 : https://www.amazon.com/Tech-16x1 ... ctronics&sr=1-6% l0 E% v9 B" A  v( d8 o) ^* l

2 ?0 c9 a" d0 b5 A- D  Z. j- u
9 a3 |: H- L( Q9 X1 |; {' A当然,真要上这个,最好买以前和卖家咨询一下,这些 RAM 是否可以装 Z840。我估计 Z840 出来这么多年,大概最多也就有人装到 128 GB,毕竟这不是 server 而是个工作站而已。
作者: 孟词宗    时间: 2025-4-15 12:14
雷声 发表于 2025-4-15 11:182 [- k2 ~& {& `7 C
https://cloudninjas.com/collecti ... E%20Z840%20will%20s ...

: S% h' G* D* V- O* Z
/ g+ S, x( f  [! ~& l顺便说一句,如果只是要跑压缩版的话,我在另一个帖子(http://www.aswetalk.net/bbs/foru ... read&tid=161700)里已经说过,如果有192GB的 RAM 就可以跑 IQ1_S(131 GB), IQ1_M (158GB)(假设没有显卡加成)。
( @) c# I% d0 ^: e+ L! z/ c. A. r( n) ?7 G( u, S! g5 J, B
不要显卡的话,搞个Intel core ultra 9 285k 或者 AMD Ryzen 9 9900x3d 加上 192GB DDR5 和 4TB 的 SSD,一般也就 $1,500 左右就搞定了。
作者: nanimarcus    时间: 2025-4-15 12:58
散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源一起吹,别去搞太复杂的冷却方案,水冷复杂且容易坏。
- U7 n! e) f" O; M% s1 t, Z/ r; U当然,有点吵,放在别的房间,用网络连接好了,命令行,远程桌面都可以。# {" v3 m; R4 h8 s/ T- |
服务器那种结构就是隐含你用那种暴力风扇,对散热并不友好。
8 z. N0 F* ^0 I; p6 D  B7 p! {我的GPU上的CUDA跑满都可以控制在80度以下。. Y1 c. M+ ?. M, v2 {9 G
当然奢侈一点,放在空调房,调节一下空调出口,把机箱放在桌子上,对着机箱吹能降下很多,这才是真正的水冷加风冷。
作者: 孟词宗    时间: 2025-4-15 13:48
如果是为了跑本地大模型,显卡没有必要搞顶级的家用卡。相比速度,更重要的是显卡的显存有多少。
4 I, u+ k6 I/ v1 P; s' P; I1 o1 E  s7 R3 P
从性价比来说,两块3090比一块4090要好,这是因为3090仍然支持 NVLink。连接后显存会显示为 48 GB。这就可以容纳很多模型了。( H" _6 H& E0 {6 [

+ Z% Z- R$ \+ Z# ~但3090的问题是功耗, 350W 起步,两个就是700W,对电源要求高了。而且还得找有足够空间的主板和机箱。而且价格也不便宜。4090 现在给炒到 3650 美刀左右,3090 则是 2000 美刀。加起来就不是小数字了。
, }6 b. e* D4 h- J$ ^2 @
- z' R* H! d; i8 E对于显卡,我倒是推荐这个:PNY RTX 4000 Ada VCNRTX4000ADA-PB 20GB, 市价1500 美刀左右,有20GB。虽然不能串联,但这是个 Single Slot card。一般好的主板能塞三四个。功耗单卡才130瓦,三个加起来也就才相当于一个3090。而三个卡加起来 60 GB,Ollama 可以跑很多 LLM 了。
% \% `5 h7 u0 Z! }0 @
# ]( q7 c' U; ^4 d0 s否则也可以弄个 PNY NVIDIA RTX 4500 Ada Generation 24GB GDDR6,这也就2300美刀左右,但显存和4090 一样。两个加起来相当于一个 4090 但显存要多一倍。* G( Q* p! R% c3 O: B

2 T$ d2 j* ~* a- K+ Z) ~" O当然,俺的理想卡是公布但还没有正式开售的 RTX PRO 6000 Max-Q https://www.pny.com/nvidia-rtx-pro-6000-blackwell-max-q。这玩意儿有 96GB 显存,还可以用 NVLink 串联。最大可到四张卡384GB,而单卡功耗不过 300W。
; m/ M9 T. z% \( J# e; B1 O
4 O5 r. u9 p. x6 O% Z当然价格据说也挺感人,要 $8,565 单张。
作者: 孟词宗    时间: 2025-4-15 14:12
nanimarcus 发表于 2025-4-15 12:589 T/ F1 f9 |" p' z" v3 i* [3 b
散热的问题,你把机箱敞开,左右两片直接给拆了,开个小风扇对着吹就是了,斜着吹,从前往后,CPU显卡电源 ...
7 B9 n/ q# w! A* z( D5 M
同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机箱正面两个200毫米的风扇吹气,后面一个140毫米的抽气,足够用了。用风扇的时候,机箱应当关上,这样风速比敞开的更快。
4 v7 x( T  |/ k$ a' U0 C6 \* k) q7 S2 C
CPU 和 显卡的冷却还是不能省的。倒不是风扇,而是它们的散热片不能省。有了散热片才能有效散热。风扇本身是不是装在CPU和显卡的散热装置上不重要。
作者: nanimarcus    时间: 2025-4-15 17:35
孟词宗 发表于 2025-4-15 14:12
+ _$ y: l9 [# H# A同意风冷,但用不着这样 DIY。可以用 联力 LANCOOL 215 https://lian-li.com/product/lancool-215/。这机 ...

* G4 m/ q; J( Q, J我有点成见,总认为机箱上的风扇不够有力,呵呵。6 j) U$ {$ O9 `/ X8 ~
; f# Z$ Z7 ]$ ~- s
所以总认为机箱敞开了另外架个风扇吹特别有力,至少视觉上如此。
" U5 x0 y, e  I# B1 m; [/ O% p: F, O7 t: @( w& h) _
所以我的理想型机箱就是一个框架,其他统统敞开了,吹!
5 g9 s* o: L3 y$ a) I
$ n, z5 t) }8 T6 n* P另外,CPU上带的散热片过于庞大,多少会造成主板变形,所以我的机箱是平放的,如此一来显卡是竖起来的,这样两个最重的部分不会造成形变。
作者: 孟词宗    时间: 2025-4-15 21:45
nanimarcus 发表于 2025-4-15 17:35. W: v) ?+ {9 z; s* ~
我有点成见,总认为机箱上的风扇不够有力,呵呵。
) }" `3 y! _& H! _
) _3 Z3 }, Z1 k% [; e+ X所以总认为机箱敞开了另外架个风扇吹特别有力,至少视 ...

% o) |2 ~5 N  v2 l! VCaseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。9 O% N$ |: v1 y

  F$ ^, y, O6 O% H5 c  Z9 X4 U8 ~9 R3 s6 m  \
主要问题是像下面这个放桌上的,如果一不小心撒点饮料上去就容易把电脑废了。
3 O0 [8 t" ]/ F  c8 y& J; Q
% S9 ~9 r3 M$ p. v' t! M( j
% f6 [$ [2 u: C7 _2 _1 I- x7 [所以一般都是挂墙上的。造的好点的话还是挺科幻感的。/ P3 i5 `6 M! g

作者: nanimarcus    时间: 2025-4-15 23:26
本帖最后由 nanimarcus 于 2025-4-15 23:27 编辑 * n% T- Q9 a: c' u0 [4 _9 [3 l
孟词宗 发表于 2025-4-15 21:45! @/ m" l- b8 w5 h- D  P
Caseless 的 DIY 电脑现在也挺多的。散热和灰尘啥的不是问题。

- S" W% ?4 |' b; ^5 j0 ]+ D) L4 u9 X' x3 K' t+ h
这个确实很赞。! k4 @, \. J' ]. K" h% j' D

3 `8 t" w# y' c; c9 y  T7 U. E第一三张好像放不了全尺寸显卡。% h# Y( z- c& l& |
第二张全尺寸显卡的散热好像不太好。
作者: 孟词宗    时间: 2025-4-16 00:07
nanimarcus 发表于 2025-4-15 23:26' U* K, L& p1 A6 V1 L. p) T, q
这个确实很赞。
7 e# s; u0 j: T5 _/ E0 a* Z/ M9 S
! h# n7 H2 V* K& M6 ~7 p: C: p第一三张好像放不了全尺寸显卡。
* _: a, c+ X& d! Y1 z% z) r
都是全尺寸显卡。第一、三两张中的显卡散热被魔改成水冷了。所以看不到明显的显卡。实际上两个机器应该都是双显卡。第二张的显卡问题不大。很明显不是80或90级别的。根据电源才600W来看,应当是3060或4060级别的。这个显卡的原装风扇还在,制冷应当还行。
作者: 雷声    时间: 2025-4-16 07:27
孟词宗 发表于 2025-4-15 11:58
" g  {5 S' E! R8 X" e* d没那么贵,Amazon 上一条才 $239。16条也就$3,824。
& |/ p. R' b9 c) c# I
3 J) O$ o% q/ N  K6 I, S0 Fhttps://www.amazon.com/Tech-2666MHz-PC4-21300-Wo ...

; E& ^! z3 X% c' x8 WHP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。7 T& z; P' E/ c! b: ]
Z6/Z8 G4也可以上到2TB,加上PMM的话更多,价格比Z840也贵不了多少。- C* k5 z, N' W, _. h, \6 L
话说Z系列是真不错,我09年买的一台Z8现在用的好好的,而且比公司配的新Alien还快。
作者: 孟词宗    时间: 2025-4-16 09:55
本帖最后由 孟词宗 于 2025-4-16 10:03 编辑
4 ?/ G; S0 g( Y& L
雷声 发表于 2025-4-16 07:27
5 D2 X# j4 I* Q2 ]: L0 BHP Z系列G4以后支持Intel® Optane™ Persistent Memory,买二手的话更便宜。不过表现怎么样就不好说了。 ...

' f" Z/ g  t( _4 V+ j
$ F" T/ T" P8 SHP Z8 G4 号称可以最高支持 3TB 不过这得看 CPU。如果单个 CPU 只支持 768 GB的话,那两个 CPU 最多也就 1.5 TB。大多数旧的 HP Z8 G4 都最多 1.5 TB。0 b# w- E2 W- A3 c4 k/ `* n" Z
3 E6 Q) O$ n. t
性价比来说你说的很对,Z8 G4 的确更合算一些。尤其是不少旧机器本身就带了 1.5 TB。这比自己买要合算多了,也省事多了。% K( Z: `: T4 N6 z

6 I( T3 M  U* u$ ]) M. {- L- _从跑 LLM 的角度讲,应当是可以跑,速度勉强可以接受的程度。俺那个三年旧的机器,如果不用显卡,跑 DS-R1 的 70B 蒸馏版最快也就两三个token每秒。Z8 G4 跑DS-R1 的671B版本应当只会更差。毕竟内存更慢,模型更大,CPU更老。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2