爱吱声

标题: DeepSeek R1全参数模型一个可能的本地部署方案 [打印本页]

作者: 沉宝    时间: 3 天前
标题: DeepSeek R1全参数模型一个可能的本地部署方案
DeepSeek一夜爆火,现在联网服务拥堵不堪。当晨老大号召自建farm的时候,本人开始认真考虑本地部署。 KTransfomer的报道也在第一时间见到,并设想了一个以此为基础的装机方案。然后呢,就“铲后抑郁”了。如今很多内容都在网友[大黑蚊子]的记录(链接)中讨论过了,但具体的装机方案大概还有一些价值,还是写出来吧。4 N- u' ^6 v+ Y8 C

6 l0 P) V1 I8 W* ]/ {DeepSeek R1原版是一个参数量高达671B的大模型,虽然比之其它頂尖的人工智能模型在硬件要求上已经大大降低,但个人部署全尺寸模型,依然难度不小。为了便于在低端硬件上运行,出现了一系列蒸馏版减少参数量(以 Qwen2.5 或 Llama 为构架,参数范围从 1.5B、7B、8B、14B、32B 到 70B)。另一个思路是参数量化,例如1.58bit和4bit。一般来说,LLM训练时使用高精度(例如 32位浮点数),而推理时使用低精度(16位浮点数或者更低)即可。1.58bit是把这一趋势推到极端(只有0、1和-1三种状态)。有人试验了DeepSeek全尺寸模型的1.58bit的量化版,结论基本可用,有时候说话可能有点“冲”,圆润平衡上差一些。4bit版效果已经相当好了。至于[xiejin77]担忧的量化影响反馈精度或者稳定性,理论上有可能,但实际影响需要大量的对比实验加以证实或者证伪。
, F: t' W4 G" U) H% b: L# U
* ~: w' v, F1 m3 r下面讨论具体装机方案。首先定一下目标。目标用户:个人或者小团体。鉴于这个模型现在典型的应用场景都是文字的输入和输出,跨网络合用的难度并不大(因为不需要占据太多的网络带宽)。单机,预算定位$5000左右。应该属于一个人咬咬牙能冲得上去,小范围集资(10人以内的那种)能够轻易支付。目标性能:DeepSeek R1全尺寸671B的4bit量化版,输出速度与人的阅读速度差不多即可(个人使用,太快了没有必要),约 5-10 tokens/s。这样的预算,这样的目标,显然需要KTransfomer技术加成才有可能达到。饶是如此,也得按市场最低价加DIY省着来。7 Z2 q$ S  z  j6 i: a3 h9 h

3 p% l/ g% x- ]# s* n3 h第一步:内存的大小。将模型的参数全部放入内存是必须的。如果还用硬盘空间扩展出来的虚拟内存,那速度肯定慢的不行。DeepSeek参数精度16bit(BF16)时需要 1342GB的存储空间,4bit量化版所需空间为其¼,再加上程序和操作系统所需,512GB应该可以了。这么大的内存,普通PC机主板肯定不行,要上服务器的。鉴于当前DDR4的内存条比 DDR5还是要便宜不少,所以选择DDR4。" p! _- W7 M, k3 {! x- B  h; h/ a

# p' t6 C- i3 j$ `第二:CPU和主板。CPU我选AMD Zen3架构( Zen3是DDR4的最后一代)的服务器芯片EPYC 7C13, 64 core 128 threads, 市场价仅$700+。它与正式发布的7713结构一致,频率略低,有人怀疑类似于Intel的 ES(工程样品)。主板支持Milan的SP3主板即可。唯一要注意的是内存插槽数,根据DDR4单条内存的容量大小,要能够插出512GB来。
5 P% L$ S: Y0 H1 z
5 d0 `; p$ I3 T: o4 X9 ]1 c3 [4 }% u# i1 p7 H8 H* p& a" w
第三:显卡。双3090或者单4090。4090不好买,用两块3090大致能抵上一块4090。4 {& B0 r# B. S# [# i  A7 o: l
5 }/ Y' {- l! Q: d2 N% ?$ O& ^% h
第四:硬盘。这个要求真不高,如果机器仅仅是为了跑DeepSeek,一个4 TB5 [/ u; a7 l! m8 U9 J
(或者两个2 TB)的nvme就够用了。(想当初我在爱坛上发记录推荐固态盘时,一块4TB的才$150)
9 @; A" U0 U& K+ `4 g1 f& H: d* s; \: Y/ j9 V
其它:说3点。1)普通PC机箱。2)散热避免使用服务器的暴力风扇( PC机箱也缺乏服务器的风道结构)。如果散热量大,考虑用水冷。3)如果单台大功率电源太贵,可以用两台小的给主板和显卡分别供电。如此需要双电源同步启动板或者同步线,但那东西淘宝上也就人民币10块钱。
( X6 G8 P  `* s2 |' \) T- i4 W. Y5 ?& H4 S. `5 G& c* e
最后汇总一下。数字为能够淘到的大致美元价,可以接受二手货,+、-表示向上下浮动不超过15%/ `5 C" k6 p5 W, C  l4 S+ j* N* e: l
/ a: W5 K/ Q) N4 c9 q& [
RAM 512GB DDR4       1000+
. p; A. t4 e, [3 a; |6 SCPU 7C13或相当           700+
" Q, R$ n/ k; h! Z+ c主板(单路即可)         500
0 G5 h" |3 v. I$ a, V显卡 3090                  1000- ×2
: m0 Y: m3 G: z1 J固态硬盘                     200+
% }. \1 ?7 t( C, c$ d2 X$ v  U2 l, l其它 机箱、电源、散热器等) v# z* B6 N3 D4 B  Q0 @4 `) z
0 y! z8 ?; _8 f0 [& J+ y

作者: 大黑蚊子    时间: 3 天前
本帖最后由 大黑蚊子 于 2025-2-20 21:55 编辑
7 ^8 h" J$ j. g1 x& u" i2 t1 ~5 {9 @" F3 P8 r2 u9 q4 k
说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径了' T' Y, [1 S! j/ [0 \  d, |- a4 F2 p$ i
在硬件选型上面我倒是有点儿不同意见,鉴于章明星他们在0.3版里使用amx指令集加速,那么支持amx的Intel至强可扩展CPU应该是要好于AMD的EYPC的,具体来说现在Intel最新款是6代至强,退而求其次选择四代或者五代至强应该也满足要求。章明星团队他们的硬件好像也是双路Xeon 6430
1 `0 l* r: Q4 Y+ k. P3 s但是这个成本可能要比你说的EPYC要高不少,但总的来说应该还在可承受的范围之内; {9 n/ x* Y  ^/ C, w
显卡的双路配置好像不是特别必须的,主要是4bit量化版需要14g显存,所以如果有一块3090先用着应该问题也不会太大,实在不行多买一块也可以2 ]9 M% n# c7 A3 ^
8 t* }8 o$ w' F6 ^
周末去华强北转转去,看看二手服务器有啥准系统能够直接上手的
作者: 马鹿    时间: 3 天前
我看到了国内AI的商机。。。 攒小配置的AI模型!
作者: 马鹿    时间: 3 天前
关于方案, 我直接问过deepseek。。。
作者: 马鹿    时间: 3 天前
大黑蚊子 发表于 2025-2-20 03:27) Z* E* j( G  L7 P# T% q
说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...

5 l& V0 C( r0 G# U# L4 V真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。
作者: testjhy    时间: 3 天前
马鹿 发表于 2025-2-20 21:45. X8 f8 y" C6 J$ Y
真心羡慕国内了。。。我90年代自己攒过打游戏的计算机。。。

1 D& i: i, o# j1 k- s社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,
作者: 马鹿    时间: 3 天前
testjhy 发表于 2025-2-20 09:504 f* r5 I" j! r# \: H9 X; k
社长,美国不是与国内PC价格差不多吗?也仿照沉宝蚊行攒一台呗,

" p/ c. s) f$ O攒了以后干啥呢?
作者: testjhy    时间: 3 天前
本帖最后由 testjhy 于 2025-2-20 23:41 编辑 : o$ |) Z3 u: n' J* f6 G9 M
& ?3 y0 y+ Y- C( C- Y6 e

2 N" ]9 F( f3 @0 T% [这是大华股份根据国产芯片的一体机,估计是华为提供的方案供各家贴牌
作者: 大黑蚊子    时间: 3 天前
testjhy 发表于 2025-2-20 23:32
! w6 Z5 E* H% `& M+ x2 N8 P  Y这是大华股份根据国产芯片的一体机,
: b7 |1 F. \, B0 F. g1 u8 m
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型7 V) W: A7 W! c: M! J( a% c( e
我在自家电脑上搞了一个7B的模型试了下,真的是不太行! a' {: d6 J+ l. ]
我估计32B和70B也都不太行7 j" A3 y0 ?" W1 k7 K) \
这个帖子里讨论的应该是直接上手671B的满血量化版,1.58或者4bit版本,这个据多个信源反馈效果挺好的
  h% N  w& a6 x7 {( k2 S$ o: C% ^% L! [" X4 `  N

+ M5 h5 S- V  P- w不过这个单子我倒是可以拿着去嘲笑下大华的朋友“你们钻钱眼里了?搞这个文字游戏骗钱”
作者: testjhy    时间: 3 天前
马鹿 发表于 2025-2-20 23:19( V+ _3 T& }5 a# ^" ]
攒了以后干啥呢?

. s6 Z4 U- |! f# _想干啥就干啥,吃喝玩乐,
作者: testjhy    时间: 3 天前
大黑蚊子 发表于 2025-2-20 23:38) W* R: h( W* z9 V0 E
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型1 D9 Y; c! H6 ^( c
我在自家电脑上搞了一个7B的模型试了下, ...

" L" _0 s" a3 s2 k) c8 U$ `找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,
作者: 大黑蚊子    时间: 3 天前
testjhy 发表于 2025-2-20 23:45
0 Q% P$ ^8 D# c: B3 g. t" v8 {找了一个非剪裁图,看了一个新闻,华为提供方案,有60多家企业响应,大华可能是比较快的,找不到价格,{: ...
! I3 G8 S1 m+ j; `9 N- V4 N
我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的
. {* p- i3 r! }3 W  W  U% G# c打听了一下Intel的至强4代CPU,现在全球缺货,嘿嘿
% w  M; o2 H' W% k; Z去华强北看看有没有QS版本,可能一块就要6000人民币至少
作者: 马鹿    时间: 3 天前
大黑蚊子 发表于 2025-2-20 10:383 W" R9 p5 F# H6 c6 C; g: V
大华的这个配置没啥意义,你看跑的都是蒸馏版的7B/14B/32B模型. J& p6 O: f/ z1 C/ u
我在自家电脑上搞了一个7B的模型试了下, ...
$ W3 f2 f$ w( j9 S# E& O1 U
好奇你攒个模型做啥?
作者: 大黑蚊子    时间: 前天 00:03
马鹿 发表于 2025-2-20 23:53
# \( A% L( F* R0 v1 z5 f好奇你攒个模型做啥?
( y  c. n+ u2 P3 b: k4 j# O

2 i3 ?2 u8 R  J1 J7 D$ {- Y! E9 a玩啊,好奇啊,这很可能是通向新世界的大门
2 @' D7 p7 ~1 ]$ n+ Q  h! N有这个条件的话,干嘛不玩?1 a3 ]. l5 a" B& |) D( Z
) O5 k2 \! ]6 [: d/ b# O* ^
现在大部分人还在懵逼状态中,只是知道个大模型的东西,具体怎么搭,个人知识库怎么建,私有服务怎么处理...好玩的需求多着呢
: h5 j( k: ?: x. S! y9 J6 ]
8 F; F- Q/ ^3 a0 v* B) bDeepSeek的出现,极大降低了大模型训练和部署的总体成本
7 ?  P7 A+ [" C2 i4 u6 b: [KTransformer架构的出现,打响了极大降低大模型部署和私有知识库服务的硬件成本的第一枪
4 ]/ Z+ C4 F+ v2 C( |6 p9 |
! e# s+ w& K6 h" i& B这种能够降低90%成本的新技术出现,大概率后面会蕴藏着10亿级别的新的相关应用和服务空间* }! v4 }8 C" S' `2 s3 t  c$ a
玩的过程中也可以吸收很多其他的知识,认识其他稀奇古怪的人,包赚的啊
作者: 沉宝    时间: 前天 00:16
大黑蚊子 发表于 2025-2-20 16:27# x; ~+ _1 T' i( q3 [; t
说实话我也在琢磨这个玩意儿,几万块钱搞一个这个玩玩,在AI新浪潮初期真的算是一个比较高性价比的学习途径 ...
" B9 c  y8 c- q. h4 R# Q. V: o; z
这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所以在预算有限的前提下,应该尽量省下钱来加强GPU。当然如果实测一块3090够用了,那更好。% T& Q# ~+ I8 q4 Q/ v" w& L0 N

# ^0 i$ I; I( m, s# O对比EPYC与Xeon 6530方案。Xeon 6530 2023年底发布,还比较新,主板加CPU的折扣有限。而EPYC Milan则要旧得多,有大批从数据中心退下来的二手货可选。即便有amx加成,但架不住7713的核多,单挑的话还是应该7713赢。而双路7713的话只不过比我的原方案多一颗U的钱,其它几乎不用改。个人认为CPU的第一位作用是保障参数全部装载在内存,计算加速还在其次。章明星团队的努力是充分挖掘手头现有硬件的全部潜力,amx加速是新版才加上去的,可见并非重中之重。
作者: pcb    时间: 前天 01:42
大黑蚊子 发表于 2025-2-20 23:53
, p. I8 Q$ [/ R0 v7 c我要是鼓捣这玩意儿,肯定是找二手硬件啥的,全新设备的价格那还是相当辣手的
  B, k5 |& e. `% X$ H# z# `打听了一下Intel的至强4代C ...

: X) @8 E, x) d"至强" 是 Xeon?
作者: 马鹿    时间: 前天 02:29
大黑蚊子 发表于 2025-2-20 11:035 |1 m4 {! f# d7 x
玩啊,好奇啊,这很可能是通向新世界的大门
8 Z/ G$ `" H; l1 q+ g# U& x* m' Y8 f有这个条件的话,干嘛不玩?

; Z; d3 S* ?; u握手, 我也是,就是好奇。 也同样认为这是通向新时代的大门。
作者: xut6688    时间: 前天 05:30
在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。至于本地部署的蒸馏R1,我试过各个版本包括70B的,效果都不好,和原版差太远。我自己玩着用本地部署的模型做了一个RAG应用,最后发现蒸馏R1还不如原版的QWen2.5 32B。
作者: 大黑蚊子    时间: 前天 09:06
xut6688 发表于 2025-2-21 05:30& d& v3 _9 U8 I7 O/ b( e, T2 B) X
在本地部署满血版的DeepSeek R1, 性价比太低了,还不如用各个云厂商的API。 自己学习,玩一玩用云API就好。 ...

1 U5 l& m1 `* I6 q所以为啥盯着671B的版本呢,就是这个原因,其他版本的性价比其实都不好。: l& f. `9 ^  M1 n5 `9 G; O
1 @7 M4 n( E4 _$ x- U) N( Q0 }
目前有海量的本地部署满血版DeepSeek的需求,因为太多的数据受商业或者法规的限制不能上网,这个部署的整体过程是有很大市场需求的。* L7 I& x1 e0 F

8 {' r, S* D" V1 QDS和KT的诞生,不是拉低了对算力的需求,而是通过降低成本做大了整体算力需求。$ r6 P0 f8 @; R) h5 Q3 [" J8 K( E

1 W& D5 g. U3 W/ K. L9 m$ G而且部署过程中的调优和配参,踩过的坑,以及反复琢磨和资料学习的成果都是自己的。
. d/ ]0 o6 n: F' v0 b2 b) I' j8 v5 @" x) L  `$ |0 W. l
再说了,都是二手硬件,搭完之后上闲鱼卖掉,亏不了多少钱
作者: 大黑蚊子    时间: 前天 14:10
沉宝 发表于 2025-2-21 00:16
4 z  Y) h7 o+ C  Z: H! L这取决于对问题的理解和取舍。首先在大模型计算中,GPU的能力远远强于CPU,即使那个CPU有amx指令加速。所 ...
, O% F! j6 d$ M! g: w, Q
我建议你再看一下KTransformers的相关资料
: n+ u3 Q% [) [' {, O这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依赖CPU/DRAM带宽,从而降低GPU需求的降本做法。7 Z5 F% g$ q/ d9 k; J, ~
DDR5换DDR4的话,带宽砍半,对应token的数量就要起码减半
- I$ z' P3 ~$ a. C# e2 [" q2 kCPU的带宽再砍半的话,又要丢失速度, z5 g- o9 z- `& D# [/ U4 h$ P9 f
如果CPU/DRAM带宽不够的话,甚至3090可能都喂不满,无限下降螺旋在降低成本的同时会极大影响使用效果
0 ~. L% Y$ h% t! A7 V& ]" R对于咱们来说,跑起来不是胜利,能够最低限度可用才是核心需求所在啊; `/ n: n8 b! `! R* x0 h& v
我觉得起码要搞个输出4-6token/s才行吧7 O+ J. U$ d! p1 S$ Z' x. V/ j5 J
按你这个方案我估计可能1-2token都悬
作者: 沉宝    时间: 昨天 00:10
大黑蚊子 发表于 2025-2-21 14:10' y. T9 g  q* X1 x$ J3 p
我建议你再看一下KTransformers的相关资料' `+ H3 ^; d: p" F3 r2 R/ H
这个玩意儿的本质是在低并发(甚至是单并发)的情况下,高度依 ...
1 \; n' {% [5 Z8 {* \
欢迎讨论。
6 c0 P. U9 ~. ]3 D+ D) y
& r9 j) f0 z% z9 r" X& H; Y: M首先,个人以为KTransformers的最核心最精华的是抓住了DeepSeek模型参数的稀疏性。DeepSeek是基于MoE的,回答某一个具体问题时只有部分参数高度活跃。KTransformers可以动态调度,把这部分高强度计算交给GPU(好钢用在刀刃上),剩下的则由CPU完成。所以CPU部分对系统整体性能的影响不如GPU大。作为佐证,上一帖我提到了章明星团队在几次版本迭代更新之后才把amx加速添加上去。# c4 ?0 X3 V9 C, h' B  _4 |2 a
6 o* Z7 J, ~# l; w- B6 F) Z
CPU/DRAM带宽对系统性能的影响不是简单线性的。老实说,我没有咱们现在讨论的这样大的系统的实际经验。我只能根据在台式机上看到的现象做一些外推。Intel的12代和13代同时支持DDR4和DDR5,DDR5内存下整体成绩要比DDR4好一些,不过差距并不大。至于到显卡的带宽,我也可以说一点。我们知道目前大部分显卡的插座都是PCIe×16。外置显卡时,因为各种原因往往不做16路通道,比方说仅仅实现了8位通道。那么这个PCIe×8的显卡游戏性能下降多少呢?绝对在30%以内,常常也就10-20%。
( q: y' ~5 Q% |( O! j! t& a# }7 n7 H, p
以上这些是我没有简单照搬章明星团队的配置,而为省钱做了一些变更的原因。




欢迎光临 爱吱声 (http://129.226.69.186/bbs/) Powered by Discuz! X3.2