专栏作者:guee
龙芯3A6000是龙芯中科自主研发的最新款桌面CPU,基于自主指令集——龙架构(Loongarch)。集成了4个龙芯自主研发的LA664核心,主频2.5GHz,4核8线程,使用境内12nm可控工艺生产。
龙芯3A6000和10代酷睿i3都是4核8线程,龙芯3A6000以低频战高频,打得有声有色,部分性能指标超过了10代酷睿i3-10100F。我还发现了龙芯官方没有提到的秘密——如果只比较每GHz的性能,那么龙芯3A6000已经追平了13代酷睿,并超过了AMD Zen 3代核心。

每GHz的性能不等于CPU产品的性能,但能体现CPU核心的设计水平。有了高超的CPU设计能力,即便使用较为落后的工艺来生产,也能保证CPU产品具有较高的性能水平。
龙芯3A6000依托境内的可控工艺,主要通过设计能力实现了性能大幅度提升,CPU核心的设计一举达到了世界先进水平。
▍ 测试环境和性能对照组


▍ CPU性能测试——SPEC CPU2006
在3A6000流片之后,龙芯中科公开过两次SPEC CPU 2006测试成绩。第一次单核整数和浮点得分分别是40和55,第二次是在加强了GCC编译器对自主指令集Loongarch的优化之后,由工信部旗下赛西实验室测试的成绩,单核整数和浮点成绩分别是43.1和54.6。

硬盘重新安装了Loongnix系统,并自行配置参数测试了SPEC CPU 2006,单核整数性能测试的结果还不错,达到了40.1分,与龙芯公布的编译器“补课”完成前的40分相符。直接运行测试机中提供的SPEC CPU 2006,得分42.9,与公布的43.1相符。

与编译器“补课”完成后的测试成绩相比,新编译器对12个测试项目的9个项目有提升。这说明龙芯绝不是像ICC和AOCC编译器那样为了跑分而优化,因为编译器如果是针对跑分优化,往往只能把某一个子项目的成绩提到极限,而其它项目的成绩基本不变。

就像下面这款至强CPU的测试成绩,使用了ICC编译器和收费的跑分专用优化库,在测试报告的条形图上,只有一个项目一支独秀,其它项目都被挤压成了薄薄的一片儿。

龙芯新版编译器测出的成绩中,编号462的子项目看起来很像是使用GCC自动并行化参数结果,但我在测试时观察了CPU的占用情况,确定整个测试过程中只有一个核心满负载,其它核心的占用率都低于1%。说明成绩提升是来自于编译器“补课”,也说明龙芯3A6000的向量指令运行效率很高,只是当前版本的编译器还不能释放它的性能。
何况就算把462这一项成绩换成我的测试结果,几何平均后总分也仍然接近42分,完全不影响关于性能水平的结论。后面的Linpack测试也能证明龙芯3A6000的向量计算能力很强,并且当编译器能够完整地支持“龙架构”的向量指令之后,3A6000会更强。

所有CPU都是使用SPEC CPU 2006的base模式进行测试,编译器都是系统自带的GCC8.3版本。不使用第三方使用优化库,也没有开启自动并行化,测出的成绩能真实反映CPU在用户的系统和软件环境中能达到的性能水平。
3A5000和3A6000的频率都是固定的2.5GHz,只要把它们的测试成绩标注在2.5GHz的坐标轴上,就既能看到三款进口CPU与它们在相同频率时的性能对比,也能看到它们与这三款进口CPU的性能差距。

13代酷睿i3-13100F在2.5GHz时的成绩刚好40分,我测得3A6000的40.1分比它更高一点,但13代酷睿工艺比10代酷睿先进,单核最高频率可以比较容易地长时间稳定在4.4GHz,因此3A6000与i3-13100F实际的性能差距还比较大。
下图是各款CPU的单核整数成绩对比,3A6000是使用的官方成绩,其它的CPU都是我自己测试的结果。其中Intel和AMD的CPU包括了自动控制频率和固定2.5GHz时的成绩,便于与2.5GHz的龙芯3A6000对比相同频率时的性能。

3A6000使用与3A5000相同的生产工艺,在频率不变的条件下把单核性能提高了60%,这完全是来自于CPU核心设计的提升。提高每GHz的性能和提高CPU频率都能达到提高性能的目的,两种方式各有各的困难。提高频率必须把CPU电路的布局布线与生产工艺紧密结合,需要反复多次流片寻找短板加以改进,一点一点地推高频率,资金消耗非常大。如果更换了工艺或者对CPU核心设计有重大修改,又必须重复提高频率的过程。
提高每GHz的性能更加困难,考验的是核心技术积累和创新的能力,Intel把每GHz的性能提高到现在的程度用了四十多年,AMD曾经因为设计能力进入瓶颈,每GHz性能多年没有提升而几乎倒闭。提高每GHz的性能和提高频率不是二选一,但龙芯目前的路线是优先提高每GHz的性能,暂时不苛求高频率。大概是因为以国内当前的工艺水平很难达到与Intel一样的频率,在每GHz的性能超越Intel之前盲目提高频率就只是浪费资源,把有限的资金用于研发更多的核心技术才更有意义。

龙芯3A6000无论是43.1还是40.1的得分,都超过了i3-13100F和R5-5600G在2.5GHz时的成绩。假如国内的芯片生产工艺跟得上,并且龙芯也有足够的资金与代工厂反复磨合提高主频,那么3A6000的对手就不止是10代酷睿i3了,至少能再提高一个段位。

无论是51.7还是54.6,都与13代酷睿在2.5GHz时的成绩差距不大,而且要比AMD R5-5600G的Zen 3代核心好一些。因为3A6000的整数通用性能也比相同频率下的R5-5600G更高,所以可以确定3A6000的LA664核心在同频率下的性能超过了AMD的Zen 3代核心,也应该超过了Zen 4代核心。龙芯3A6000的性能虽然只与10代酷睿i3相当,但CPU核心的逻辑设计水平已经是世界一流的水准。

10代酷睿i3-10100F在4.0GHz时,单核浮点通用成绩也才56.1分,而通常情况下i3-10100F保持不了4.0GHz的频率,实测只有51.3分,我测得3A6000的51.7分要比它高一些。因此龙芯3A6000在浮点通用性能方面也已经追平了10代酷睿i3。13代酷睿相对10代酷睿同频率的浮点通用性能提升幅度高达60%,但3A6000相对于3A5000则实现了几乎翻倍的提升,说明龙芯虽然绝对性能与Intel相比还有差距,但进步的速度比Intel更快。
通过下方的条形图,可以明显地看到3A6000的多核并行性能也与i3-10100F是相同水平。测试i3-10100F多核并行性能时与测试单核时的散热条件一致,如果把它装进机箱,测试成绩就会大幅度下降。当然,如果加强散热也可以带来5%左右的性能提升,不过不影响3A6000与i3-10100F性能基本相等的结论。由于Intel和AMD的CPU性能发挥极度依赖于散热,因此对于盖得严严实实的家用和办公电脑,3A6000的多核并行性能甚至能与10代i5拼一拼。

Intel和AMD的CPU非常有趣,因为性能是不确定的,主频和睿频只能决定CPU性能的上限,而管不了CPU性能的下限,所以极大地增强了用户探索CPU性能极限的趣味性。有网友提供了10代i5笔记本的测试成绩,也是4核8线程,但多核并行成绩只有桌面i3的一半,也就是也只有3A6000的一半,甚至低于3A5000的水平。当然如果是游戏笔记本,性能就不会降这么多,但商务笔记本就很难说了。
▍ 浮点运算性能测试——Linpack
前面说过龙芯3A6000的向量指令运行效率很高,那么现在就来测一下比较考验向量计算性能的Linpack。

必须再次强调这个成绩是使用的Phoronix Test Suite测试套件自动编译并自动配置测试参数,测试成绩与CPU能达到的最高水平差距很大。i3-13100F在浮点通用性能测试中比i3-10100F只高了60%,但在Linpack测试中提高了80%。龙芯3A6000则与之相反,在浮点通用性能测试中比3A5000高一倍,但在Linpack测试中只高了28%。出现这样的情况,几乎可以肯定是编译器过于陈旧导致的。因为3A5000的测试成绩已经比10代i3更高,那么3A6000就应该比13代i3更高才对,我非常期待龙芯对编译器的后续更新能带来惊喜!
▍ CPU性能测试——SPEC CPU 2017
我测试了单任务单线程和多任务的全CPU性能,先来看单任务单线程的整数和浮点测试成绩。在当前的系统和编译器环境下,我测试SPEC CPU 2006时得到的单核整数成绩比10代i3稍低一些,但浮点成绩又稍高一些。SPEC CPU 2017的测试结果也差不多,3A6000整数得分5.02,比10代酷睿i3-10100F低了一点,但差距不到10%。浮点成绩是5.87,非常巧合地与i3-10100F成绩一样。

通过3A6000与i3-10100F以及2.5GHz时的i3-13100F的子项成绩对比,可以发现3A6000有小部分的测试项目与它们有较大的差距,大部分的测试项目水平相当,综合评分比较接近。3A6000单核性能与10代酷睿i3基本一样的结论仍然成立,随着系统和编译器的逐渐完善,3A6000无论测试成绩还是实际性能表现也都会再上一个台阶。
与13代i3-13100F在2.5GHz时的成绩相比,3A6000的整数成绩要低3%,但整数和浮点成绩都超过了R5-5600G在2.5GHz时的得分。这与SPEC CPU 2006的测试情况一样,再次证明3A6000的核心设计水平比AMD Zen 3代还强一些,可能和Zen 4代基本一致。只是可惜因为CPU频率的差距,3A6000的单核性能只是与10代i3是相同水平,跟13代i3相比还有较大的差距。

在多任务测试中,3A6000与3-10100F的成绩差距超过了10%,还在可接受的范围内。因为我使用的是还没有完成“补课”的编译器,所以不能很好地发挥3A6000的向量指令性能。尽管3A6000相对于3A5000的成绩提升幅度也仍然超过60~70%,但我认为它的表现应该能够更好一些,对SPEC CPU 2017的测试结果不是很令人满意。

龙芯3A6000确实开启了国产CPU的新时代,使用境内的相对落后的工艺,主要依靠设计能力达到了市场主流CPU的性能水平。龙芯6000系列的下一款桌面CPU是3B6000,预计单核性能再提高20%,并改用8核的设计方案。我估计3B6000无论是单核性能还是多核性能都应该能接近或者追平Intel酷睿11代i7的水平。
▍ 整机系统综合性能测试——UnixBench

3A6000的UnixBench测试成绩也相当不错,单任务成绩比10代i3-10100F高一些,多任务成绩要低一些。3A6000多任务成绩比i3-10100F低不是CPU的原因,应该是受到了操作系统的影响,x86版本的UOS系统对多任务并行的优化可能要比Loongnix更好一些。但随着龙芯对操作系统的优化和升级,以后UnixBench的测试成绩也自然地会随之提高。
把13代i3-13100F和AMD R5-5600G锁定在2.5GHz后,R5-5600G因为有6个物理核心,所以多任务成绩略高于3A6000,其它的成绩都比龙芯3A6000低。UnixBench的测试成绩又一次说明了龙芯3A6000电脑的综合性能与10代酷睿i3是相同水平,也略微超过了2.5Ghz时的13代酷睿i3和AMD Zen 3代。
▍ 内存访问带宽测试——STREAM
龙芯3A6000重新设计了内存控制器,内存访问效率相对于3A5000有飞跃式的进步。下面的图表展示了在使用Steram软件默认的编译参数时,对3A6000和两款Intel CPU的测试结果。因为10代i3搭配H系列主板时最高只能支持到DDR4-2666内存,所以我借了一块Z490主板测试了它使用DDR4-3200内存时的访问速率。
我分别进行了单线程、4线程、全核心的内存访问速率测试。测试成绩的单位是兆字节每秒,每一个子项的测试细节不必深究,反正是越快越好。从测试结果来看,3A6000的内存控制器水平比10代酷睿高,比13代酷睿差,峰值接近42GB每秒,说明龙芯自主设计的内存控制器也达到了主流水平。
3A6000的内存控制器相对13代酷睿来说还需要继续完善,除了访存速度不如13代酷睿之外,最明显的问题是4线程的访存速度居然比8线程更快。不过因为龙芯是第一次实现超线程的设计,出现这样的现象我觉得可以理解。
▍ 总结
龙芯3A6000在基础性能测试中,部分超过了10代酷睿i3,也有部分还有10%左右的差距。主要是因为最新版本的操作系统和编译器还没有发布,目前版本的优化水平相对于x86还有一些距离。以后随着操作系统和编译器的优化逐渐到位,这一点差距也一定能被补上。
尽管在相同频率的时候,龙芯3A6000的单核性能追平了Intel 酷睿13代,但由于工艺落后,以及资金投入不足,龙芯3A6000的主频较低,实际性能仅相当于酷睿10代i3。
工艺和主频在短期内不会有明显的改善,龙芯的下一代CPU产品仍然以提高每GHz的性能为主,将与Intel长期保持低频打高频的局面。美国对我国的自主CPU不会放松工艺限制,但对我国的引进技术CPU倒有可能网开一面。因此自主CPU只能依靠境内相对落后的工艺制程与进口产品展开竞争,也就必须继续强化CPU设计能力,通过提升每GHz的性能抹平工艺差距引起的性能差距。
完全自主的龙芯3A6000每GHz的性能追平了13代酷睿,龙芯未雨绸缪早当先,居安思危谋长远,主动抛弃了与美国有牵连的MIPS指令集,所有CPU产品都已经基于自主指令集龙架构(LoongArch)重新设计。龙芯的CPU生产也使用境内可控的工艺,甚至建立了大量使用国产设备的芯片封装测试厂。龙芯也一直在追求EDA工具的国产化,与国内的EDA软件企业进行了深入合作。
龙芯已经把防御能力点满,美国之前对龙芯实施的制裁,甚至都没有激起一丁点波澜。龙芯仍然按照既定的时间表稳健地发展,3A6000也如期地展现在大家眼前,然后年底量产、发布、销售,节奏一点儿都没乱。
龙芯规划的后续产品中,不止有单核性能更高的且集成了8个核心的3B6600,还有分别集成了16个和32个核心的3C6000和3D6000,这些产品都计划在今年发布。3C6000和3D6000的CPU核心与3A6000相同,并针对服务器CPU核心数量多的特点,改进了多核及多路互联的效率,使CPU并行效率进一步提升。

在新的核心设计通过3B6600得到验证之后,就会推出32个和64个核心的3D7000和3E7000。6000和7000系列的服务器CPU完全具有与Intel高端的同类产品竞争的实力。无论是对比单核性能还是对比多核性能,都是相同的性能水平。
龙芯3A6000的诞生,标志着龙芯已经从被动防御转为了防守反击的阶段。龙芯二十年如一日坚持自主设计,才能有现今的成就。只有脚踏实地、实事求是、自强自立才能真正与国际接轨,成为支撑世界信息技术发展的擎天巨柱。
PS:请点赞、转发、分享点击“❤”小红星
商务、咨询、入群:csva01

声明:部分内容来源网络素材,个人观点、仅供参考




