
云原生混部解决方案依托容器、微服务、编排调度等云原生技术,可以帮助用户将业务应用与大数据分析、人工智能计算等不同类型和不同优先级的应用混合部署到共享的基础设施上,提高资源利用率,实现“降本增效”。

中国信通院联合阿里云等企业单位,经过多轮研讨,形成了《云原生混部技术能力要求》标准。标准内容涉及基础设施能力要求、平台混部能力要求、业务应用能力要求,以及混部效果评价共四个部分,具体从资源隔离、资源复用、干扰检测、负载反馈、任务调度、资源预测、应用服务质量等不同维度,对混部产品及解决方案进行全面评估。

阿里云容器服务 Kubernetes 版(Alibaba Cloud Container Service for Kubernetes,简称容器服务ACK)是全球首批通过 Kubernetes 一致性认证的服务平台,提供高性能的容器应用管理服务,支持企业级 Kubernetes 容器化应用的生命周期管理。

针对不同类型工作负载混部场景,ACK 提供了一套完整的混部调度增强的能力,主要包含三个部分:
任务调度
差异化 SLO
QoS 感知调度、重调度
延迟敏感服务的调优、CPU 绑核、CPU burst、Memory QoS 等
弹性额度控制,支持任务类型典型的弹性资源调度(min/max 模型)
任务协同调度,AllorNothing
异构设备的拓扑感知,GPU share,NvLink拓扑感知等

资源分级调度,根据 Pod 真实负载运行情况进行资源画像,并将模型预估可用的资源进行二次分配,以满足具备容灾能力的计算任务的资源诉求
资源隔离与干扰抑制,对于二次分配的任务,提供 CPU、Memory、Disk、Network 多个维度配套的资源隔离保障机制,将计算任务对原延迟敏感任务的干扰控制在非常小的范围

负载感知调度,在调度打分阶段引入对于节点运行时状态的判断,避免节点负载过高导致机器出现热点响应慢等影响稳定性的问题
重调度,提供了具备资源确定性、腾挪安全保护的重调度器,支持用户在特定时间段执行设定的重调度策略,持续的调整集群资源编排以达到理想状态

随着企业数字化转型工作深入推进,精细化的资源管理、跨集群跨地域资源协同、灵活快捷的资源编排调度,以及异构资源共享复用等能力,正在帮助企业实现更加灵活的弹性资源供给、更加智能的应用自动部署,以及更大规模节点的算力协同。

点击阅读原文,快速了解如何使用 ack-koordinator 搭建在离线混部环境




