NASA算力不足：地主家没有余粮了！

LAXCUS分布式操作系统 2024-03-23

114

前几日，老黄在自家的GTC 2024大会上，发布了一系列新的算力芯片和AI产品，具体有：

（1）发布氢弹级GPU，B200和GB200，对比H100推理能力提升30倍，能耗降低至25分之一。

（2）液冷机柜NVL72，单机柜能运行27万亿参数大模型，大约能跑15个GPT4，以及超算中心DGX Superpod。

（3）进军具身智能，推出机器人基础AI模型GROOT和机器人专用的Soc芯片Jetson Thor。

（4）发布模拟物理世界的Ominiverse Cloud API。

（5）发布面向企业的AI微服务平台NIMs。

（6）其他科研创新技术产品。

面对英伟达一系列眩目的新产品，除了让一票吃瓜群众惊艳，更是馋哭了台下和会场外一众AI大模型公司和算力服务商。他们数了数手上拥有的GPU，持续的用户接入数量，还有暴增的大模型数据，默默打开了手里的钱袋子......果然是卖铲子的先发财！

患上算力不足恐惧症的，不只是AI大模型公司和算力服务商，还有宇宙第一大局：美国国家航空航天局（NASA)。根据近期NASA向美国国会披露的文件信息，它在全美有五台超级计算机，分别安放在安放在加州艾莫斯的NASA先进超算中心(NAS)、马里兰州戈达德的NASA气候模拟中心(NCCS)。美国重返月球项目使用的Aitken超级计算机，性能只有13.12PFlops(每秒1.312亿亿次浮点计算)。其它几款超算性能分别是 8.32PFlops的Electra、8.1PFlops的Discover、 7.09PFlops的Pleiades、15.48TFlops的Endeavour。

这些超级计算机不光计算能力普通，关键是技术架构老旧，仍然使用传统的CPU处理器处理大规模计算。其中NAS拥有的CPU超过18000颗，而GPU数量却只有可怜的48颗，NCSS部署的GPU就更少了。

NASA在向国会提供的报告中指出，因为超算基础设施落后，已经严重影响了NASA一系列科研项目进展，并且存在多种安全隐患，强烈建议购买一批以GPU为主的新的超级计算机，加速NASA科研进度。言下之意就是：NASA算力严重不足，我地主家也没有余粮了。赶快打钱买设备，否则拖慢项目进展，到时不上了月球别怪我！

NASA的问题，国内一样存在。国内很多超级计算机、算力中心由于规划设计建设早，没有意识到GPU计算的巨大算力优势，拥有的CPU数量远超过GPU。当大规模计算工作从CPU向GPU时，CPU计算显得力不从心了。

对于目前国外内普遍算力不足的问题，如果算力供应商手头拮据，且不考虑升级硬件的情况下，最简单最快捷的解决办法就是升级软件，用Laxcus分布式操作系统取代Linux操作系统，也就是通常所说硬件不足软件补。

面对大规模计算，相比硬件算力的固定，Laxcus的软件计算模式更具动态和弹性，所有硬件资源都可以随机分配调整，使用完成后释放，继续分配给下一个业务使用。Laxcus的软件计算可以在单位时间内聚合大量的CPU，并调用这些CPU，提高计算业务的并行计算规模，达到接近或者超过GPU算力的目的。

如果说Laxcus和GPU有什么相同之处，那么它们共同特点就是并行计算。在传统的操作系统上，指令只能在一台计算机上顺序串行执行，而Laxcus分布式操作系统的指令，则是分散到多台计算机和多个处理核心上并行执行。这样在单位时间内，Laxcus就能够执行处理更多数据，完成更多的计算工作。

并行计算相对串行计算实现的计算能力大幅增长，是GPU、Laxcus分布式操作系统相对CPU、传统操作系统的核心竞争优势。

Laxcus分布式操作系统分为前端和后端两个部分。在后端，Laxcus分布式操作系统通过网络，把大量物理的硬件的的计算机和服务器连接起来，组成一台虚拟的软件的”超级计算机“，运行过程中，这些物理计算机受到统一管理，根据业务需求调度分配计算资源，输出计算算力。在前端，Laxcus仍然是一台“计算机”，拥有和传统操作系统一样的用户界面，包括图形化的桌面和字符控制台界面。用户像操作一台普通的计算机一样，操作Laxcus后端的计算机集群，而不必考虑这些计算机和服务器分散在哪些地点位置，以及如何管理它们，处理冗余容错等工作。

Laxcus具备高度的可扩展性和弹性伸缩能力，计算集群分为单集群和多集群两种状态。当网络带宽和MASTER节点性能充裕的情况下，如果以单集群状态运行，可以达到8000-10000个计算节点。如果是多集群状态（单集群的叠加状），最大支持超100万个计算机节点。这是一个非常巨大的规模，足以把全国算力中心的服务器连接到一起，组成一个超级算力矩阵。一旦启动Laxcus分布式操作系统，像NASA的超级计算机和国内算力中心性能不足的问题，都可以轻松迎刃而解。

Laxcus还是一个双模态操作系统，分为单机状态和多机状态两种模式。当计算机处理联网状态时，Laxcus是多机操作系统，这时Laxcus可以调度海量的软硬件计算资源，处理计算机集群中巨量的计算业务。如果计算机脱离网络，Laxcus就进入了单机状态。在单机模式下，Laxcus兼容Linux操作系统，所有Linux应用软件都可以在Laxcus上运行。

Laxcus做为一个双模态操作系统，可以在单机状态和多机状态自由切换，正在颠覆传统的单机操作系统市场。

目前全球计算机网络，正在从第一代的互联网，第二代的移动互联网，快速切换到第三代的算力互联网。第三代的算力互联网拥有互联网、移动互联网所有能力，又具备它们不提供的特质：庞大数据计算和算力输出能力。第三代算力互联网的业务重心，也将从互联网、移动互联网的媒体、娱乐、社交业务为主，切换到以人工智能、大数据、高性能计算为主，深度契入融合到工业生产和社会生活各个领域。第三代算力互联网的基础设施，硬件以GPU为代表，软件以Laxcus分布式操作系统为入口，它们正在共同用并行计算取代串行计算，最终重构整个计算体系，重新定义计算机，真正实践40年前SUN提出的“网络就是计算机”。

Laxcus分布式操作系统研发团队正在扩招中，岗位包括：技术合伙人、项目主管、核心开发人员，公司提供了丰厚的股权和期权奖励，欢迎“有想法”和“不安分”的小伙伴联系我，加入Laxcus分布式操作系统研发团队，抓住人工智能算力浪潮红利！

计算机操作系统操作系统开发电脑并行计算 gpu服务器

文章转载自LAXCUS分布式操作系统，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

NASA算力不足：地主家没有余粮了！

评论