. b+ M; |: Z' N7 N; g. Y6 F8. 总结与展望:Fire-Flyer AI-HPC 的深远意义 + K& T+ r" v, h, X- \5 L6 rFire-Flyer 2 AI-HPC 不仅仅是一个高性能计算集群,更是一个深度学习软硬件协同设计的典范。它通过对计算节点、网络架构、通信库、训练框架、存储系统以及资源管理平台的全面优化,实现了深度学习训练的高性能、低成本和可持续性。Fire-Flyer 2 的成功,证明了软硬件协同设计在构建高性价比 AI 基础设施方面的巨大潜力。 % @) l) Z/ q. D; y/ x+ x! D' Q. d: \1 W) Z2 M
Fire-Flyer AI-HPC 的研究成果和实践经验,为 AI-HPC 集群的建设和发展提供了宝贵的参考,也为深度学习的未来发展奠定了坚实的基础。随着深度学习技术的不断演进,Fire-Flyer AI-HPC 也将持续创新,不断探索 AI-HPC 架构的未来,为人工智能的发展贡献力量。6 B% ^0 z c( l3 W2 Y }% d! l" b
3 c/ p1 t% }' V/ T3 W3 w& W j# w7 {
附录. }, U3 k& @8 C# @
对于NVlink,DeepSeek的研究人员是边用边骂:: V$ B! c: V* m
3 r: o9 T2 x B- v% x8 I% V/ f# ?3 dB. Discussion about NVLink Technology Choices ; k' j+ O& R; P5 }4 {* a$ b2 I8 c# c 4 w! ^% u& ~" L+ w Z; [Initially, we did not use NVLink to avoid extra costs and maintain stability, as HFReduce was sufficient for training requirements at that time. However, as the demand for LLMs increased, we added NVLink specifically for LLM training purposes. The decision to install NVLink should be based on actual needs due to its potential drawbacks。 2 i, F+ n, a' k# B8 Z( l * Y) m. r* f+ d3 a8 G2 Z还在附录里列出了关键的典型错误: $ E, H. }+ B: U+ O" E4 n , Y8 n; P0 S6 s( yIB网络也被吐槽的体无完肤,这也许是之前英伟达股票狂跌的原因之一吧 0 \- @" ]! k4 Z, C6 l3 O. W1 ^& V0 S& G6 u, E6 H4 I
而且仔细想一想,结合后面DeepSeek V3的论文中专门强调了对于内存读写和网络框架及驱动的优化内容(甚至用了PTX),并且被误解为要取代CUDA。就知道他们是在踩坑的同时填坑,填完了坑才有了这种软硬件一体化设计的论文公开。 6 m6 ^! L1 M4 l0 @. ]. a. `; l) A; ^) K4 k3 F
参考论文: arXiv:2408.14158v2 [cs.DC] 31 Aug 2024 ; F! Y) }3 M# S* C; R$ n4 P& J/ a$ Y2 h* O- e2 d$ a& k* m$ _ 原文链接 5 w$ j& f1 t( _ }6 F$ j- |- t* ]( K8 w( X3 t
有图片都在原文里,有兴趣的可以看看。作者: WiFi 时间: 2025-2-8 09:05
我从来没有称呼过没有教过我的人老师。看完后,我尊尊敬敬的称一声:谢谢,谢老师。解惑了。# {9 A* y# S1 {/ w$ _
同时也让我对喷DS只是蒸馏了OpenAI的人及其不屑。作者: 晨枫 时间: 2025-2-8 10:55 本帖最后由 晨枫 于 2025-2-7 20:57 编辑 * ~7 L- d# C4 ]" f
) d, e/ C% Y, M' C& l# n# E) a
我也从来没有称呼过没有教过我的人老师。看完后,我尊尊敬敬的称一声:谢谢,谢老师。不过没有解惑,因为没看懂。隔行如隔山,也就不勉强弄懂了。还是要多谢解释。4 c/ t1 p. k4 S) `6 `* L
) P k* F* z) }: m# m9 m3 b. g) v
问题: r) T! `3 I0 @$ G- n' ~8 a9 v) l
7 b2 {7 x! I; \- Q" b
这里提到的A100,和英伟达的A100卡不是一回事吧?8 \, D) W9 L7 J( q& q
+ @( F) E8 i8 N' I最大的问题:这样的做法在scalability和transportability方面有什么长处、短处?因为没有看懂,所以还是没有解答最初的疑问:如果换GPU,换模型架构,或者极大增大模型尺寸,这套架构需要推倒重来吗? : U( l7 k& h- d) R: @0 }1 C 7 Z; M: z* S9 Z% e* \9 w这是case by case optimization,还是scalable and transportable framework not only in terms of concept but also toolset?作者: xiejin77 时间: 2025-2-8 11:13