Lambda一键集群：引领大型AI模型训练新潮流

Andy730 2024-06-07

Lambda正式推出了一键集群（1-Click Clusters）服务，为用户提供16至512个互联的NVIDIA H100 Tensor Core GPU。这项服务按需提供，无需签订长期合同，真正实现了资源的灵活调度。

启动短期GPU集群，从此不再困难

理想情况下，进行大规模训练的机器学习工程师和研究人员应能随时访问数百个最新一代的GPU。然而，现实中却并非如此。

现实挑战

到目前为止，仅有大型企业能在云端短期访问GPU集群。
对于大多数机器学习团队来说，全天候使用数百个顶级GPU长达一年或更长时间既不现实也不经济。他们通常需要在短时间内利用数十到数百个GPU进行实验，随后休息数周以准备下一次迭代。

这种现状确实令人沮丧，对吧？我们完全认同这一点。是时候改变这种固有的模式了。

一键集群：GPU集群的新纪元

现在，Lambda带来了一键集群服务，用户可轻松访问多节点集群，配备16至512个互联的NVIDIA H100 Tensor Core GPU，并搭载NVIDIA Quantum-2 InfiniBand 400 Gb/s。预订期限最低仅需两周，为机器学习团队提供了前所未有的灵活性和高性能。

Lambda的一键集群服务使机器学习团队无需在灵活性和性能之间做出妥协。不再需要为长期合同和闲置GPU时间而烦恼，更无需担心在关键时刻无法获得足够的H100 GPU资源。

Lambda坚信，工程师的时间应专注于核心机器学习工作流，而非基础设施管理。

一键集群的便捷性：一键集群的预订过程非常简单，只需从Lambda的按需云仪表板出发，按照向导指引轻松完成预订。
全面预装的工具与框架：一键集群预装了Lambda Stack（拥有超过10万用户信赖的产品），并集成了工程师们立即开始工作所需的所有AI框架，包括PyTorch、TensorFlow、NVIDIA CUDA、NVIDIA cuDNN以及NVIDIA驱动程序，让您无需额外配置即可快速上手。

Lambda机器学习研究团队的亲身体验

Lambda的机器学习研究团队也亲身体验了一键集群的便捷与高效。他们使用了一个4节点、32 GPU的一键集群来微调Open-Sora，这是一种开源的文本到视频模型，用于生成砖块动画视频片段。

该项目充分展示了一键集群的优势，包括易用性和高性能。借助预装软件和共享存储，工程师们能够专注于核心机器学习工作流，无需分心于基础设施管理。一键集群中高速互联的H100 GPU为扩展训练自有基础模型提供了理想平台。

您可以在Weights & Biases上查看Lambda的Text2BrickAnime项目的详细步骤和迭代进展。如有兴趣，请与Lambda的Chuan Li及其机器学习研究团队联系，共同探讨更多可能性！

DevOps团队也将对Lambda的一键集群赞不绝口

Lambda专注于基础设施，因此您可以省心省力：

一键集群由Lambda独家开发并提供：我们完全掌控这一解决方案。我们不依赖其他云平台，Lambda自有的数据中心运营团队将负责处理所有支持请求。
快速部署与撤除：一键集群的核心目标是在短短几天内为机器学习工程师和研究人员提供访问16-512个NVIDIA H100 Tensor Core GPU的权限，最低预订时间仅为两周。
透明定价，无隐藏成本：

工作节点搭载NVIDIA HGX H100，配备8个互联的NVIDIA H100 SXM GPU，拥有208个虚拟CPU（104核）、1.9TB RAM和24TB本地NVMe存储。
头节点配置为8个虚拟CPU、34GB RAM和208GB本地NVMe存储。
NVIDIA Quantum-2 InfiniBand 400 Gb/s无阻塞优化计算网络。
NVIDIA ConnectX-7 NIC与NVIDIA H100 GPU保持1:1的比例。
工作节点之间的节点到节点计算带宽高达3200 Gb/s。
带内以太网网络提供高达200 Gb/s的带宽。
两个共享的冗余100 Gb/s DIA（ISP）连接，确保稳定可靠。
每个集群附带3个静态公网IP地址，附加到头节点，使用静态NAT技术。

-----

Source:JEREMY EDBERG; Introducing Lambda 1-Click Clusters, a new way to train large AI models; JUNE 3, 2024

--【本文完】---

近期受欢迎的文章：

更多交流，可添加本人微信

（请附姓名/单位/关注领域）

文章转载自Andy730，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。