暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

NASA算力不足:地主家没有余粮了!

前几日,老黄在自家的GTC 2024大会上,发布了一系列新的算力芯片和AI产品,具体有:

(1)发布弹级GPU,B200和GB200,对比H100推理能力提升30倍,能耗降低至25分之一

(2)液冷机柜NVL72,单机柜能运行27万亿参数大模型,大约能跑15个GPT4,以及超算中心DGX Superpod

3)进军具身智能,推出机器人基础AI模型GROOT和机器人专用的Soc芯片Jetson Thor

(4)发布模拟物理世界的Ominiverse Cloud API

(5)发布面向企业的AI微服务平台NIMs

(6)其他科研创新技术产品

面对英伟达一系列眩目的新产品,除了让一票吃瓜群众惊艳,更是馋哭了台下和会场外一众AI大模型公司和算力服务商。他们数数手上拥有的GPU,持续的用户接入数量,还有暴增的大模型数据,默默打开了手里的钱袋子......果然是卖铲子的先发财!

患上算力不足恐惧症的,不只是AI大模型公司和算力服务商,还有宇宙第一大局:美国国家航空航天局(NASA)。根据近期NASA向美国国会披露的文件信息,它在全美有五台超级计算机,分别安放在安放在加州艾莫斯的NASA先进超算中心(NAS)、马里兰州戈达德的NASA气候模拟中心(NCCS)。美国重返月球项目使用的Aitken超级计算机,性能只有13.12PFlops(每秒1.312亿亿次浮点计算)。其它几款超算性能分别是 8.32PFlops的Electra、8.1PFlops的Discover、 7.09PFlops的Pleiades、15.48TFlops的Endeavour。    

这些超级计算机不光计算普通,关键技术架构老旧,仍然使用传统的CPU处理器处理大规模计算。其中NAS拥有的CPU超过18000颗,而GPU数量却只有可怜的48颗,NCSS部署的GPU就更少了。

NASA在向国会提供的报告中指出,因为超算基础设施落后,已经严重影响了NASA一系列科研项目进展,并且存在多种安全隐患,强烈建议购买一批以GPU为主的新的超级计算机,加速NASA科研进度。言下之意就是:NASA算力严重不足,我地主家也没有余粮了。赶快打钱买设备,否则拖慢项目进展,到时不上了月球别怪我!

NASA的问题,国内一样存在。国内很多超级计算机、算力中心由于规划设计建设早,没有意识到GPU计算的巨大算力优势,拥有的CPU数量远超过GPU。当大规模计算工作从CPU向GPU,CPU计算显得力不从心了。    

对于目前国外内普遍算力不足的问题,如果算力供应商手头拮据,且不考虑升级硬件的情况下,最简单最快捷的解决办法就是升级软件,用Laxcus分布式操作系统取代Linux操作系统,也就是通常所说硬件不足软件补

面对大规模计算,相比硬件算力的固定,Laxcus的软件计算模式更具动态和弹性,所有硬件资源都可以随机分配调整,使用完成后释放,继续分配给下一个业务使用。Laxcus的软件计算可以在单位时间内聚合大量的CPU,并调用这些CPU,提高计算业务的并行计算规模,达到接近或者超过GPU算力的目的。

如果说Laxcus和GPU有什么相同之处,那么它们共同特点就是并行计算。在传统的操作系统上,指令只能在一台计算机上顺序串行执行,而Laxcus分布式操作系统的指令,则是分散到多台计算机和多个处理核心上并行执行。这样在单位时间内,Laxcus就能够执行处理更多数据,完成更多的计算工作。

并行计算相对串行计算实现的计算能力大幅增长,是GPU、Laxcus分布式操作系统相对CPU、传统操作系统的核心竞争优势。

Laxcus分布式操作系统分为前端和后端两个部分。在后端,Laxcus分布式操作系统通过网络,把大量物理的硬件的的计算机和服务器连接起来,组成一台虚拟的软件的”超级计算机“,运行过程中,这些物理计算机受到统一管理,根据业务需求调度分配计算资源,输出计算算力 。在前端,Laxcus仍然是一台“计算机”,拥有和传统操作系统一样的用户界面,包括图形化的桌面和字符控制台界面。用户像操作一台普通的计算机一样,操作Laxcus后端的计算机集群,而不必考虑这些计算机和服务器分散在哪些地点位置,以及如何管理它们,处理冗余容错等工作。    

Laxcus具备高度的可扩展性和弹性伸缩能力,计算集群分为单集群和多集群两种状态。当网络带宽和MASTER节点性能充裕的情况下,如果以单集群状态运行,可以达到8000-10000个计算节点。如果是多集群状态(单集群的叠加状),最大支持超100万个计算机节点。 这是一个非常巨大的规模,足以把全国算力中心的服务器连接到一起,组成一个超级算力矩阵。一旦启动Laxcus分布式操作系统,像NASA的超级计算机和国内算力中心性能不足的问题,都可以轻松迎刃而解。

Laxcus还是一个双模态操作系统,分为单机状态和多机状态两种模式。当计算机处理联网状态时,Laxcus是多机操作系统,这时Laxcus可以调度海量的软硬件计算资源,处理计算机集群中巨量的计算业务。如果计算机脱离网络,Laxcus就进入了单机状态。在单机模式下,Laxcus兼容Linux操作系统,所有Linux应用软件都可以在Laxcus上运行。

Laxcus做为一个双模态操作系统,可以在单机状态和多机状态自由切换,正在颠覆传统的单机操作系统市场。    

目前全球计算机网络,正在从第一代的互联网,第二代的移动互联网,快速切换到第三代的算力互联网。第三代的算力互联网拥有互联网、移动互联网所有能力,又具备它们不提供的特质:庞大数据计算和算力输出能力。第三代算力互联网的业务重心,也将从互联网、移动互联网的媒体、娱乐、社交业务为主,切换到以人工智能、大数据、高性能计算为主,深度契入融合到工业生产和社会生活各个领域。第三代算力互联网的基础设施,硬件以GPU为代表,软件以Laxcus分布式操作系统为入口,它们正在共同用并行计算取代串行计算,最终重构整个计算体系,重新定义计算机,真正实践40年前SUN提出的“网络就是计算机”。

          

Laxcus分布式操作系统研发团队正在扩招中,岗位包括技术合伙人、项目主管、核心开人员,公司提供了丰厚的股权和期权奖励,欢迎“有想法”和“不安分”的小伙伴联系我,加入Laxcus分布式操作系统研发团队,抓住人工智能算力浪潮红利!

              

文章转载自LAXCUS分布式操作系统,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论