暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

llm-d: Kubernetes原生分布式推理服务框架

AI云枢 2025-05-22
414
llm-d是基于Kubernetes原生的分布式推理服务框架,旨在为大型语言模型提供高效的服务部署方案。该项目由多家领先技术公司共同开发,提供了一套模块化解决方案,利用最新的分布式推理优化技术,与Kubernetes操作工具紧密集成。
项目背景
llm-d项目的背景是解决大型语言模型在规模化部署时面临的复杂性和运营挑战。
根据项目提案文档,生成式AI推理服务在大规模部署时非常复杂,关键技术虽然被广泛理解但实现稀少,导致高运营负担。
大量运行LLM推理的加速器基于Kubernetes,但缺乏明确的部署、扩展和定制高效服务的路径。这些团队需要在多种客户工作负载(聊天、摘要、搜索、代理等)之间实现高容量利用率。 

参与开发的组织
llm-d是由多家领先技术公司共同发起的开源项目,项目由Kubernetes和vLLM项目的领导者构建,采用开放开发模式,使用Apache-2许可证。并于今年5月20号共同启动了llm-d社区:
  • CoreWeave
  • Google
  • IBM Research
  • NVIDIA
  • Red Hat
核心功能
  1. vLLM优化的推理调度器:基于IGW的可定制负载均衡模式,实现vLLM优化的调度。利用遥测数据,实现P/D、KV缓存、SLA和负载感知的决策。
  2. 使用vLLM的分解服务:在独立实例上运行预填充和解码操作,使用高性能传输库如NIXL。支持使用快速互连(IB、RDMA、ICI)的延迟优化实现和使用数据中心网络的吞吐量优化实现。
  3. 分解前缀缓存:使用vLLM的KVConnector提供可插拔的KV缓存层次结构,包括卸载到主机、远程存储和LMCache等系统。
  4. 变体自动缩放:实现流量和硬件感知的自动缩放,测量每个模型服务器实例的容量,考虑不同请求形状和QoS,评估最近的流量组合,计算最佳实例组合。

核心组件
llm-d是一个由多个仓库组成的元项目,每个仓库专注于特定组件:
llm-d
    • 主项目仓库
    • 包含项目文档、治理规则和整体架构设计
    • 作为整个项目的中心枢纽

llm-d-deployer
    • 部署工具和Kubernetes的Helm图表
    • 用于在Kubernetes环境中安装和配置完整的llm-d解决方案
    • 提供快速入门体验

llm-d-inference-scheduler
    • vLLM优化的推理调度系统实现
    • 基于IGW的可定制负载均衡模式
    • 实现P/D-、KV缓存-、SLA-和负载感知的决策
    • 处理请求路由和流量控制

llm-d-kv-cache-manager
    • KV缓存管理系统,用于分布式缓存
    • 提供可插拔的KV缓存层次结构
    • 支持将KV缓存卸载到主机、远程存储和LMCache等系统

llm-d-routing-sidecar
    • 请求路由组件,用于流量管理
    • 协助推理调度器进行请求分发
    • 处理服务之间的通信

llm-d-model-service
    • 模型服务组件,与vLLM接口
    • 负责模型加载和推理执行
    • 实现分解服务功能,支持在独立实例上运行预填充和解码操作

llm-d-benchmark
    • 性能测试和基准测试工具
    • 用于评估系统性能和优化效果
    • 帮助用户了解不同配置下的性能表现

llm-d-inference-sim
    • 推理模拟工具,用于开发和测试
    • 模拟不同工作负载和流量模式
    • 无需实际硬件即可测试系统行为

这些组件可以通过以下命令一次性克隆:
    repos="llm-d llm-d-deployer llm-d-inference-scheduler llm-d-kv-cache-manager llm-d-routing-sidecar llm-d-model-service llm-d-benchmark llm-d-inference-sim"for r in $reposdo git clone https://github.com/llm-d/$r.git; done
    这些组件可以作为完整解决方案部署,也可以单独部署进行实验。 

    系统架构
    llm-d采用基于vLLM、Kubernetes和Inference Gateway的分层架构:
    总结
    llm-d项目于2025年5月刚刚启动,目前处于活跃开发阶段。项目采用Apache 2.0许可证,并有一个明确的治理结构,包括项目维护者和贡献者。项目的核心技术基于vLLM和Kubernetes Inference Gateway,专注于解决大型语言模型部署的特定挑战。但也因为处于初期阶段,对于各种性能及目标需要时间去验证,笔者后面会持续关注,并部署测试,同样对于云原生的分布式推理框架,可平替的技术包括AibrixNVIDIA Dynamo,总体来说对于一些结合云原生的AI公司还是值得关注和跟进的。

    参考
    Git:https://github.com/llm-d
    社区:https://llm-d.ai/blog/llm-d-announce
    AIBrix:字节跳动AIBrix来袭:深度解析云原生部署测试,开启大模型推理新时代

    文章转载自AI云枢,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

    评论