暂无图片
返回数说广场
Aubrey
2025-02-09 来自 apple
DeepSeek绕过CUDA,有可能为适配中国国产GPU做准备,跳出英伟达限制 众所周知,英伟达的CUDA(Compute Unified Device Architecture,统一运算架构)能大幅降低研发大模型的难度,获全球开发商使用,一举将英伟达推上AI芯片领域的垄断地位。 但最新发现显示,DeepSeek使用英伟达的H800芯片训练时,使用英伟达底层硬件指令PTX(Parallel Thread Execution)语言,而非高级编程语言CUDA。这样意味着DeepSeek绕过了CUDA,使用更底层的编程语言做优化。 对于程序开发人员来说,CUDA是一种更加友好的高级语言,开发者只需要专注于程序和算法最相关的运行逻辑,而不太需要考虑具体的程序是如何在GPU等硬件上具体如何执行计算的,从而能够降低开发难度。 而PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread / Warp级别的调整。这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。换句话说,DeepSeek把优化做到了极致。 这也说明DeepSeek拥有一些擅长写PTX语言的内部开发者。假如它之后使用国产GPU,其在硬件适配方面将会更得心应手,其只要了解这些硬件驱动提供的一些基本函数接口,就可以仿照英伟达GPU硬件的编程接口去写相关的代码,从而让自家大模型更加容易适配国产硬件。
0
暂无图片 0
136
分享

评论

热门数说