满血版
不是所有的满血版都是真正的满血版
理论上之后支持FP8 精度的GPU才能能够实现 DS公司原生的满血 671B
其他的方式应该分为两种:
国内的大多数GPU,最低精度是FP16或者是INT8, 并没有DS专门为r1 定制的FP8精度
所以, 方式主要是将FP8转移成FP16, 或者是将FP8的精度量化为INT8后者是到INT4
各种满血版的优缺点
FP8 原生满血
这种方式应该最佳. 也符合DS训练的模型使用.
但是需要说明的是
Hopper 之后才支持这个精度.
之前的像是Ampere 系列的A100/A800/A20 均没有这个算法精度
只能够使用FP16 进行计算
所以这里面有一个问题.
FP8 一个参数 1个字节. 所以 671B的参数加载需要 671G的显存就可以了.
如果是 FP16的话,一个参数2个字节. 就需要 2倍的显存, 也就是 1342G 才可以.
这就会导致最小化部署的时候,对显存要求是不一样的.
显存的情况
A800 等显卡一般是 80G左右的显存
单机一般是 8块显卡, 也就是 640G的显存.
所以, 这种情况下 刚好无法容纳671B的参数文件(而且只能量化, 因为没FP8)
这种情况下必须组集群, 会导致部署难度和价格指数上升.
但是H20 正有有一块 141G 显存的显卡.
这样 8卡的机器就有 1128G的显存
因为hopper 还有FP8 所以理论上 还多了 500多G的显存用于存储 QKV等以及token 使用的内存等.
正好可以部署.
所以国内很多 8卡 H20 非常火.
H20的问题
H20 是 H800 的再阉割版本.
H800 仅是阉割了FP64以及NVlink的带宽等方面.
H20 结果直接来了一个釜底抽薪, FP16 的算力148TFLOPS
这个算力还不如华为的 910B(据说 320T)
而且价格超高 接近,超过 10万人民币/卡
刚上市的时候 8卡服务器 120万/台
因为算力实在是捉急, 所以降价到 100万左右 也没有人问津.
但是deepseek 横空出世之后, 因为141G的显存大小.
又变的非常火, 单台机器价格到了 160万.
主要是中大型企业, 医院,学校私有化部署非常火爆
一台机器就可以实现算力降低但是满血的体验,是非常不错的.
是CIO里面花小钱办大事的最大体现.
转译和量化版本
转译版本理论上损失精度较小
但是问题是: 算力需求增多,并且显存要求变大
相当于杀鸡用牛刀. 拿着金刚钻烧火取暖了.
虽然多花钱当了冤大头(不能怪deepseek)
但是至少体验还是有的. 只不过相当于老实人接盘而已.
量化的问题在于丢失进度.
虽然可以降低算力和显存的需求
但是是降智版本.
相当于花稍微少一点的钱娶到美颜过度的凤姐.
总结
国产当自强
B200 已经达到了 2500TFLOPS 的FP16算力.
应该是国内最强910C的四倍以上.
但是禁售, 不过看英伟达的财报
新加坡200多亿美金的采购英伟达的芯片
估计大部分来到了国内.
但是这种是无法在市面上直接买到的.
H20是一个低并发, 低算力要求的最优解
整体TCO 估计比国内的8卡*2的小集群来的更好
看国内还有 16卡的百度昆仑芯P800的服务器
理论上 1.5T的显然, 可以支撑转译的满血deepseek 671B
但是不知道价格和算力情况如何.
需要注意的是, 跑分高的 使用体验不一定好
但是跑分低的, 使用体验一定非常差.
要是花钱自己有责任, 还是需要擦亮自己的眼睛.
如果只是为了花预算, 支持国货,支持信创没毛病.
文章转载自济南小老虎,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




