Google Cloud发布了最新的Google Kubernetes Engine版本,最高可支持最高达65000个节点的服务器集群,从而可执行超大规模的AI模型。
生成式AI技术的演进及应用的普及,推动了大型语言模型的规模及参数量不断增加,目前许多已突破千亿参数,甚至有些达到了2万亿。而训练这些大型模型的加速器,需要超过1万个节点的计算基础架构。
GKE一直以来可支持多节点集群,以执行AI模型训练任务。先前版本的GKE可支持1.5万个集群节点,随着新版本的推出,现在GKE可支持高达6.5万个节点的集群。
Google认为最新GKE支持的节点规模,是Amazon和微软的10倍以上。
对于Google Cloud来说,现在单个节点提供了多个加速器,比如搭载4颗芯片的Cloud TPU v5e节点,因此单个集群使用最新版GKE后,最多可管理超过25万颗加速器。
有了新版GKE,训练AI模型时企业需要分配计算资源给多个工作负载,因此将任务集中在少量集群可提供最大调度弹性,执行推理、研究和训练的作业。
Google说,由于支持6.5万个节点,现在GKE允许单个集群执行5种任务,每种任务的执行性能,都足以媲美2023年Google Cloud以5万余颗TPU v5e,创造的10 exa-FLOPs的LLM训练速度世界纪录。
参考:https://cloud.google.com/blog/products/containers-kubernetes/gke-65k-nodes-and-counting
文章转载自虞大胆的叽叽喳喳,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




