I
目 录
一、DeepSeek 大模型背景 ....................... 1
(一)深度求索公司情况 ................... 1
(二)模型迭代历程 ....................... 2
(三)研发团队情况 ....................... 3
1. 北京大学罗福莉 ............................................ 4
2. 北京大学高华佐 ............................................ 4
3. 北京邮电大学曾旺丁 .................................... 5
4. 北京大学朱琪豪 ............................................ 5
5. 北京大学代达劢 ............................................ 6
6. 北京大学王炳宣 ............................................ 6
7. 浙江大学梁文锋 ............................................ 7
二、DeepSeek 大模型应用现状 ................... 8
(一)国内情况 ........................... 8
(二)全球情况 .......................... 10
三、DeepSeek 大模型技术特点 .................. 11
(一)技术创新 .......................... 11
1. 压缩:从结构到量化 .................................. 11
(1)多层注意力 MLA ........................... 12
(2)FP8 混合精度训练框架 ................ 13
2. 并行:对硬件的极限使用 .......................... 16
(1)DualPipe 跨节点通信 ..................... 16
(2)无辅助损失的负载均衡策略 ......... 18
(3)底层通信优化 ................................. 20
3. 总结 .............................................................. 20
(二)训练成本 .......................... 21
四、DeepSeek 大模型产业生态 .................. 22
(一)企业 .............................. 22
评论