WiFi 发表于 2025-2-3 11:15
应该是用的H800,不是H20
晨枫 发表于 2025-2-4 01:35( ?$ |# s5 ~+ m( a2 R u/ E) M) R
两个说法都看到过,我都糊涂了。哪一个更弱?
xiejin77 发表于 2025-2-4 23:589 t$ A: I1 j# B/ R2 v Q
相比于绕开cuda的突破,其实ds自己设计的Fire-Flyer AI-HPC框架,更值得自豪。7 `" i# {# @9 l5 x5 i
在训练的尝试中有意绕开了 ...
晨枫 发表于 2025-2-5 14:132 b9 v1 u! u* \$ n% {& q+ M3 F
这个能展开说说吗?
xiejin77 发表于 2025-2-5 00:21* X) D* p3 B4 I/ S! V0 F( r) }3 O; w
ds自己有篇论文,我找时间专门解读一下吧
WiFi 发表于 2025-2-4 01:15& V# l# B, _, v6 D5 X3 W1 g
应该是用的H800,不是H20
In detail, we employ the warp specialization technique (Bauer et al., 2014) and partition1 S! u: P, x2 g
20 SMs into 10 communication channels. During the dispatching process, (1) IB sending, (2). w( u: J5 D' ?1 A! q
IB-to-NVLink forwarding, and (3) NVLink receiving are handled by respective warps. The; ~& x( F/ C% f+ r6 `
number of warps allocated to each communication task is dynamically adjusted according to the
actual workload across all SMs. Similarly, during the combining process, (1) NVLink sending,
(2) NVLink-to-IB forwarding and accumulation, and (3) IB receiving and accumulation are also0 y( ^1 x+ ]! S! l
handled by dynamically adjusted warps. In addition, both dispatching and combining kernels
overlap with the computation stream, so we also consider their impact on other SM computation/ S5 Q# r8 D; j5 s/ P
kernels. Specifically, we employ customized PTX (Parallel Thread Execution) instructions and
auto-tune the communication chunk size, which significantly reduces the use of the L2 cache: ~4 k7 W v- p6 E9 P) o) |- ?
and the interference to other SMs.
xiejin77 发表于 2025-2-5 15:08
晨大的这个说法,我查了一下资料和信源,正好我之前写过ds-v3的解读。感觉可能是有点偏差。
k- k4 O5 e% E' |6 f
Parallel th ...
xiejin77 发表于 2025-2-5 01:08$ ], p0 V3 H8 R0 _) X- [
晨大的这个说法,我查了一下资料和信源,正好我之前写过ds-v3的解读。感觉可能是有点偏差。
6 o! z9 s& n1 l( G+ b# I
Parallel th ...
晨枫 发表于 2025-2-6 02:13: R3 T: s9 o. v& X5 g
PTX是不是本来就chip specific?有可能利用大模型反过来把PTX写的东西反过来生成伪码,再针对新芯片的相 ...
xiejin77 发表于 2025-2-5 18:42
晨大好。6 f% ?) Y# `% }! z
8 F+ L) u8 O. C1 y+ q* Z. V$ R1 z
我的理解,类asm的语言都是和硬件架构和芯片的指令集深度绑定的。
晨枫 发表于 2025-2-6 08:509 o* n U( Z* ?0 s/ J- [& C
多谢解释。那DS为什么不直接用CUDA,还要费事用PTX呢?
晨枫 发表于 2025-2-6 08:502 D# c" [4 z! h; Q$ f q2 ?
多谢解释。那DS为什么不直接用CUDA,还要费事用PTX呢?
唐家山 发表于 2025-2-5 19:51
应该是性能的原因。打个比方吧,操作系统内核一般都是用C语言写的,但是一些关键部分会用汇编语言来写。 ...
晨枫 发表于 2025-2-6 09:53& x, T" d% K7 e2 C4 {6 z2 |5 C+ k/ M
多谢解释。
那DS如果把模型移植到华为芯片,应该需要重写软件吧?而且无法从原有的CUDA架构下移植? ...
晨枫 发表于 2025-2-6 09:53& D, j6 f( Q: e" S5 e+ X8 U
多谢解释。
v) y4 X: y3 ?4 e- c! U. Y
那DS如果把模型移植到华为芯片,应该需要重写软件吧?而且无法从原有的CUDA架构下移植? ...
xiejin77 发表于 2025-2-5 19:58
这部分是DS用来做模型训练、推理的辅助工具软件使用的底层驱动,理论上说,效率可以接受的情况下是不需要 ...
唐家山 发表于 2025-2-5 19:59
确实需要重写。不过重写软件的代价并不像外界想象的那么高。显卡(计算卡)的硬件架构比较简单,上面用的 ...
晨枫 发表于 2025-2-6 10:04
多谢解释。
; u, B2 F, D0 i. _
我用过的语言不多,除了常用的科学计算语言,工控语言用的比较多,各厂家之间基本上无法移植 ...
xiejin77 发表于 2025-2-6 09:584 P9 B) y* @; W) w: i
这部分是DS用来做模型训练、推理的辅助工具软件使用的底层驱动,理论上说,效率可以接受的情况下是不需要 ...
大黑蚊子 发表于 2025-2-6 10:43
DS训练用的是自己以前买的A100/H800,H100有没有,有多少,印象里DS没说
DS自己也买了很多华为的910B,事 ...
晨枫 发表于 2025-2-7 00:598 V( i' B5 i5 f* H' w, Q
长期看来还是得上国产卡啊。
J3 m2 U3 |; \2 z2 S! K+ _
不过美国也真是郁闷。中国这蛋糕没得吃舍不得,吃了,结果人家老母鸡变鸭了 ...
大黑蚊子 发表于 2025-2-7 01:033 F$ z& Z- K h) `/ ~, c1 G# h
看我这记性,说了一大堆是因为nvlink而起,关键东西忘说了
910B的单芯片性能据说跟H800差不多,但是多芯 ...
xiejin77 发表于 2025-2-7 09:31# E7 ?3 c+ E$ b! Y
蚊行的知识面是真全面。
+ z; n9 _6 M7 r5 [' e
RDMA网卡的品牌厂商主要有三大巨头企业,分别是Marvell、intel、Mellanox,其中 ...
欢迎光临 爱吱声 (http://129.226.69.186/bbs/) | Powered by Discuz! X3.2 |