DPU市场现状：全球一片混战

架构师技术联盟 2022-02-25

823

市场研究机构Dell’Oro的数据显示，预计2024年，SmartNIC市场规模将超过6亿美元，占全球以太网适配器市场的23%。而整体控制器和适配器市场将以7%的年复合增长率增长，其中25Gbps和100Gbps的销售将是主要增长驱动力。

CPU不能承受之重

之所以能够取得如此高的增长率，原因在于目前数据中心内部流量(也称横向流量)的年复合增长率都在25%以上，但与此同时，随着SDN的增加，云服务器会在CPU和软件中使用很多SDN功能，使得高达30%的数据中心计算资源被分配用于联网I/O处理云数据。

坦率地说，如果听之任之，这个问题随着时间的推移只会越来越严重。

当前，以几何级数幅度增长的联网端口速度，远超摩尔定律和Dennard缩放比例定律(Dennard’s scaling)的计算周期速度，这种差距的存在使得服务器中所有的CPU资源都将遭到挤占，而无暇顾及应用级处理，降低了CPU利用率。如果是公有云的话，他们需要把这样的资源出售给客户来进行变现。但如果不能出售这些核心内容，云服务商就会赔钱，这是一个非常严峻的问题。

图1 端口速度超过摩尔定律

亚马逊和微软这样的一级云服务提供商在很多年前就意识到了上述问题的严重性，纷纷选择卸载掉服务器的联网功能，并将这部分工作转移到SmartNIC上运行，以便释放出更多的CPU核，优化服务器利用率，降低联网成本。

例如亚马逊收购了一家名为Annapurna的初创企业，专门开发类似的器件和SmartNIC，并在2017年发布了AWS Nitro；微软此前也通过将FPGA集成到SmartNIC上去卸载服务器的联网功能，并实现了数以百万计规模的部署；VMware则宣布将SmartNIC集成到VMware Cloud Foundation中的Project Monterey项目；而阿里云的做法是在其神龙服务器核心组件MOC卡中使用了专用的X-Dragon芯片，统一支持网络、I/O、存储和外设的虚拟化。

数字基础设施中的新物种

2020年10月，英伟达将基于Mellanox的SmartNIC方案命名为数据处理单元(Data Processing Units, DPU)，并将CPU、GPU、DPU称为组成“未来计算的三大支柱”。

不过，需要指出的是，从SmartNIC变为DPU并非简单的改改名字。为了在数据中心充分实现应用程序的效率，传输卸载、可编程的数据平面以及用于虚拟交换的硬件卸载等功能是SmartNIC的重要部分，但只是DPU的最基本要求之一。要将SmartNIC提升到DPU的高度，还需要支持更多的功能，比如能够运行控制平面，以及在Linux环境下提供C语言编程等。

说得再直白一些，DPU是面向数据中心的专用处理器，新增了AI、安全、存储和网络等各种加速功能，将成为新一代的重要算力芯片。它能够完成性能敏感且通用的工作任务加速，更好地支撑CPU、GPU的上层业务，成为整个网络的中心节点。

当然，我们还是要佩服黄仁勋的“带货”能力，能让DPU概念一炮而红，吸引业内众多竞争者纷至沓来。从海外的英特尔、博通、英伟达、赛灵思、Marvell、Netronome、Pensando、Fungible、Dream Big Semiconductor，到国内的DPU创企中科驭数、星云智联、大禹智芯、芯启源、云豹智能，每一家企业都在摩拳擦掌，跃跃欲试。

从英伟达公布的DPU产品路线图来看，BlueField-3/3X和BlueField-4将分别于2022年和2023年问世，届时，将可提供400TOPS的AI算力和400Gbps的带宽性能，从而解放GPU，只在单芯片DPU上就可实现网络、存储、安全等关键任务的加速工作。

Marvell今年6月最新推出的OCTEON 10系列DPU，采用了Armv9架构的Neoverse N2 CPU内核和台积电5nm制程工艺，支持最新的PCIe 5.0 I/O与DDR5内存。作为DPU的重要补充，Marvell还为OCTEON 10引入了内部机器学习(ML)引擎。这样，从本质上讲，Marvell正在成为英伟达的直接竞争对手。

英特尔在2021架构日上推出的全新基础设施处理器(IPU) Mount Evans其实也值得一提。按照英特尔的官方说法，IPU是一种可编程网络设备，扩展了英特尔的智能网卡功能，旨在使云和通信服务提供商减少在中央处理器(CPU)方面的开销，并充分释放性能价值。

再回到国内。根据Canalys Cloud Channels Analysis预测，到2023年，中国DPU市场规模将达190亿人民币。当然，还有其它分析机构的预测更加乐观，认为中国DPU市场规模预计将在2025年超过37亿美元，约合240亿人民币。

中科驭数算是国内布局较早的一家DPU企业，其DPU基于自主研发的KPU(Kernel Processing Unit)架构。另一家DPU芯片企业“芯启源”则在6月宣布完成数亿元Pre-A3轮融资。这是一家针对超大规模电信和企业级的智能网络提供核心芯片和系统的高科技公司，可提供从芯片、板卡、驱动软件和全套云网解决方案产品，已获得了中国移动苏研院的首批智能网卡订单。

成立于2021年3月22日的星云智联专注于数据中心基础互联通信架构和DPU芯片研发，今年4月宣布完成数亿元天使轮融资。其正在研发的DPU将在IAAS和PAAS之间形成独立的CAAS(通信服务层)），实现物理资源的“多虚一”和近乎裸金属性能的“一虚多”，可以简化IAAS，提升资源利用率。

DPU发展仍在早期，强调落地和生态打造。数据中心核心算力芯片仍以CPU、GPU、FPGA和少量ASIC为主，并且通用CPU还是占据绝对统治地位。和CPU、GPU一样，DPU作为基础层的应用支撑，发展的关键是必须重视生态建设和应用支撑，落地并抢占市场、营造生态才是DPU产业发展的关键所在。

Intel、Marvell、NVIDIA成为最有潜力的产业先驱。大多数DPU方案是从基本的网络控制器开始扩展至SoC。就Intel而言，其产品采取处理器配合FPGA，外加加速引擎的方式；Marvell则采取使用最新处理器内核配合加速引擎的方式；NVIDIA则采用了处理器配合ASIC，外加加速引擎的方式。这三种方式代表着DPU产业的未来主流的发展方向。

目前DPU市场仍处于蓝海，呈现百家争鸣的竞争格局。Intel、NVIDIA等企业纷纷布局DPU产业，同时包括AWS、阿里巴巴、华为在内的各大云服务商，都已经在布局自己的云端处理器，行业竞争格局分析如下：

DPU方案类型大致可以概括为三种：

一是以通用众核处理器为基础DPU，例如Broadcom的Stingray架构，以多核ARM为核心，以众取胜，可编程灵活性较好，但是应用针对性不够，对于特殊算法和应用的支持，与通用CPU相比并无太显著优势；
二是以专用核为基础的异构核阵列，这种架构的特点是针对性较强、性能较好，但是牺牲了部分灵活性，如IPU；
第三种路线是结合了前面二者优势，即将通用处理器的可编程灵活性与专用的加速引擎相结合，正在成为最新的产品趋势，以NVIDIA的BlueField-3系列DPU来看，就包括16个ARM核及多个专用加速引擎，Fungible的DPU则包含6大类的专用核，和52个MIPS小型通用核。

随着DPU将数据中心的基础设施操作从CPU上卸载过来，数据中心将形成DPU、GPU、CPU三位一体的状态；NVIDIA通过收购Mellanox积极布局DPU，抢占市场，凭借在GPU的绝对优势以及未来DPU的发力，NVIDIA有望在服务器处理器三大芯片中占据其二。对各厂商及现有产品分别综述如下：

1）NVIDIA DPU

在技术路线上，英伟达DPU基于所收购的Mellanox网络方案及ARM架构实现，侧重于数据安全、网络、存储卸载。

本报告已经以英伟达DPU为例详写了产品结构及技术特点等，此部分不再赘述。

2）Intel IPU：技术快速落地，生态迅速成长

在2021年6月15日的Six Five峰会上，英特尔推出了全新的基础设施处理器（IPU，全称Infrastructure Processing Unit）。IPU是一个网络设备，可以安全地加速和管理数据中心的基础设施功能与可编程硬件，旨在使云和通信服务提供商减少在中央处理器方面的开销，并充分释放性能价值。利用IPU，客户能够部署安全稳定且可编程的解决方案，从而更好地利用资源，平衡数据处理与存储的工作负载。IPU可将CPU或xPU连接到网络，加速主机基础设施功能，并适用于现有和新兴基础设施用例，包括安全性、虚拟化、存储、负载平衡，以及虚拟网络功能和微服务的数据路径优化。IPU增强了基础NIC中丰富的以太网网络功能，通过高度优化的硬件加速器和紧密耦合的计算引擎的组合处理任务来实现加速。适应性是通过标准且易于使用的编程框架实现的，该框架结合了硬件和软件功能。IPU扩展了英特尔的智能网卡功能，旨在应对当下复杂的数据中心，并提升效率。

凭借在数据中心领域多年的耕耘与积淀，深谙数据中心企业需求并洞察行业发展的英特尔，IPU产品从设计、生产到推出，每一步都能看到合作伙伴的身影。当前基于Intel FPGA的IPU已经导入多个云端服务商，目前也着手测试第一款采用ASIC的IPU产品；

Intel也强调接下来将会推出更多基于FPGA的IPU与专用ASIC，为新世代资料中心带来更具弹性、安全与效率的XPU架构。在适用于企业和云的IPU阵营，使用英特尔FPGA实现数据中心加速面向云服务提供商的采用英特尔FPGA的IPU有助于充分利用网络功能并帮助提高基础设施投资的收入；英特尔IPU为VMware下一代基础架构提供动力英特尔技术使VMware能够为客户提供对虚拟机、容器和裸机环境的统一管理；Monterey项目则重新定义混合云架构，英特尔IPU创新为边缘节点、网络基础设施和数据中心计算提供了更高的性能。

3）Xilinx：基于FPGA的Smart NIC先驱

Xilinx的开发是基于FPGA的Smart NIC，Xilinx于2019年秋季收购了Solarflare Communications，Solarflare自2012年以来一直在构建基于ASIC和FPGA的NIC进行电子交易。

Xilinx的Alveo U25将双SFP28端口直接连接到Zynq系列芯片，包括6GB DDR4内存，Zynq的FPGA和ARM内核可通过该芯片上运行的程序对其进行访问。FPGA有520K逻辑元件可用，但是提供的四核ARM可以弥补可用门数的减少。Xilinx将Alveo U25推向市场，最初是针对那些要求开放虚拟交换机（OvS）卸载功能的客户。其将增加IPsec、机器学习（ML）、深度包检查（DPI）、视频转码和分析等功能的卸载。

4）Marvell：首款公开宣布采用ARM最新的Neoverse N2基础架构的DPU

Marvell最新推出的OCTEON 10系列DPU采用了台积电5nm制程工艺，且首次用上了ARM的Neoverse N2 CPU内核。这种类型的多功能芯片，旨在帮助移动和处理那些通过网络传输的数据，可实现集成机器学习推理的引擎、Inline加密处理引擎、以及矢量数据包处理器等的虚拟化。OCTEON 10也是Marvell首款采用台积电N5P工艺制造的DPU芯片。其不仅率先集成了ARM的Neoverse N2 CPU核心，还支持最新的PCIe 5.0 I/O与DDR5内存。

受益于最新的ARM处理器内核，OCTEON 10在整型处理上是目前算力最高的DPU，然而其浮点运算仅支持FP16，在做内联机器学习时有一定局限性。OCTEON 10 新系列引入了矢量数据包处理引擎（VPP），与当前一代的标量处理引擎相比，它能够将数据包的处理吞吐量，大幅提升至 5 倍。

5）中科驭数：基于KPU架构的DPU

中科驭数的创始团队主要来自中科院计算所计算机体系结构国家重点实验室，是中国最早进行DPU芯片研发的团队之一。中科驭数提出了软件定义加速器技术（Software Defined Accelerator），自主研发了KPU（Kernel Processing Unit）芯片架构，并于2019年设计出业界首颗数据库与时序数据处理融合加速芯片，已经成功流片。中科驭数的DPU芯片，正是基于自研的KPU芯片架构，具有网络协议处理、数据库和大数据处理加速、存储运算、安全加密运算等核心功能。

下载地址：

专用数据处理器 (DPU)技术白皮书

中国数据处理器行业概览（2021）

ARM CPU处理器资料汇总（1）

ARM CPU处理器资料汇总（2）

ARM系列处理器应用技术完全手册

CPU和GPU研究框架合集

来源：智能计算芯世界