|
DeepSeek用英伟达H20卡训练V3和R1大模型,但据说没有用英伟达的CUDA语言,而是用了更加底层的PTX。5 a* ^( c+ z- |! S5 M, @4 |7 M J
+ Z, J& i3 Q; r' g) m
CUDA是英伟达的护城河。搞人工智能就要用英伟达的图形卡,跑英伟达的卡就需要CUDA。一旦形成生态就反过来了,搞人工智能就用CUDA写软件,跑CUDA就只有用英伟达的卡。
* X$ P( @0 [# {' i( N2 _! K5 O/ J
但DeepSeek用接近汇编语言的PTX编写软件,绕过了CUDA护城河,也因为PTX更加接近机器语言而更快。据说这是DeepSeek里老人马当年搞量化交易的“后遗症”,需要计算机和通信上达到极限性能,只有用接近汇编语言的“低级语言”来编写程序,比如PTX。4 y! O$ R4 |9 p3 _( I; N0 [7 a
5 {# j7 Y# {% j, j* ^9 a7 n$ y9 y" I
汇编接近机器指令,速度快,但远离自然语言,语句功能专一、琐碎,编写麻烦,可移植性很差,换一个GPU就需要重写。高级语言的发明就是为了解决接近自然语言和软件在不同平台之间的可移植性的问题的,但执行效率不及汇编。
4 D! M" J7 Q* h- z: N
2 A& `/ i$ Z ^, s接近自然语言很重要,这样更人类思维,编程和阅读容易,纠错也容易。跨计算机平台的可移植性也很重要,不仅更新更快的芯片出来了,重新编译一下又可以执行,换上完全“不同路子”的计算机也能执行,比如WinTel换到Unix或者iOS环境下。但编译出来的执行时效率不及汇编。
7 i+ c# x }; j; Y2 q% C5 Z; ^: N/ R% }. @! A0 d1 P/ o( c ?
DeepSeek绕过了CUDA,但通用大模型要是“绑定”在H20卡上,那就亏了,换卡就要重新编写和测试一遍。5 ?$ h5 C. R2 @
$ C: e# p: P( ]) u/ s% @" f' u% B( D好在大模型的一大神迹就是按照自然语言的要求写程序。换到这里,只是直接写到PTX一级。这个问题解决了,可移植性比CUDA还好,直接用更加接近自然语言的伪码了。) m+ S3 _) G6 J2 V+ f5 G U
) @) v/ @6 R! V6 ]6 l; H即使以后不用PTX了,也就是重新训练大模型改用新语言的事。换句话说,大模型代替高级语言的工作了。6 p7 l- g6 V! R6 \8 r1 U4 \- i
- T/ a% p" ~. }0 j! e看来,没有隐忧。# z/ I5 ?# T5 g( I0 `( |/ \' F7 S1 T( C
|
评分
-
查看全部评分
|