了解企业级 AI 应用程序构建的完整生命周期

Azure云科技 2023-11-29

332

在之前的文章「LLMOps 时代，更简化的方式释放无限价值」里，我们探讨了大语言模型应用开发与运营维护（LLMOps）的新兴实践，及其与传统机器学习运营（MLOps）的不同之处；讨论了扩展 LLM（大语言模型）驱动应用时会遇到的困难，以及微软 Azure AI 的独特解法；提到了把开发过程视为迭代进程以保证应用质量的重要性。

企业的开发进程要求通力协作、审慎评估、风险管理与规模化部署，凭借一整套应对以上挑战的强大功能，Azure AI 绘制了一条清晰而高效的路径来为您的客户提升产品价值。

▲ 企业 LLM 的生命周期

构思与探索的循环

第一个循环通常是单个开发人员搜索与其特定业务需求相符的大型语言模型（LLM）的模型目录。开发人员会借助提示和数据子集，尝试通过原型开发与评估了解每个模型的能力和限制。

不同的模型提示、分块大小和向量索引方法，以及在尝试验证或否定业务假设时进行的基本交互等，都是常见的探索方向。

比如说在客户支持场景中，他们可能会输入样本客户查询，以查看模型能否生成适当且有用的回应。他们可以通过输入示例进行初步验证，但很快就会转向使用文件和自动化指标进行批量测试。

了解 Azure AI 模型

除了 Azure OpenAI 服务，Azure AI 还提供了一个综合模型目录，赋能用户探索、定制、评估和部署来自领先供应商（如 Hugging Face、Meta 和 OpenAI）的基础模型。这有助于开发人员发现并挑选适用于其特定用例的最佳基础模型。开发人员可以用自己的数据对模型进行快捷的测试与评估，以了解预训练模型在目标场景中的表现。

构建与扩展的循环

在发现并评估了所选 LLM 的核心能力后，开发人员就推进到了下一个循环，重点是引导和增强 LLM 以进一步满足特定需求。传统上，基础模型是用特定时间段数据进行训练的。然而具体场景通常会需要企业本地数据、实时数据或更基础的调整。

对企业数据进行推理分析，首选的方法是检索增强生成（Retrieval Augmented Generation，RAG），它将来自内部数据源的信息注入到基于用户特定要求的提示中。常见的数据源包括文档搜索系统、结构化数据库和非 SQL 存储。通过 RAG，开发人员可以利用大型语言模型（LLM）的能力，根据这些注入的数据来处理和生成响应，从而确保他们的解决方案基于（或“依据”）事实数据。这帮助开发人员在保持相关性的同时实现定制化解决方案，并优化成本。RAG 还便于在不需要模型微调的情况下进行持续的数据更新，因为数据来自其他来源。

在这个循环中，开发人员可能会遇到输出准确性未达到预期阈值的情况。调整 LLM 输出结果的另一种方法是微调。当系统性质需要改变时，微调最为有效。通常情况下，LLM 将以相似的语气和格式回答任何提示。但比如说，当用例需要代码输出或任何类似的修改时，输出可能会有一致的变化或限制，此时可以使用微调来更好地使系统响应与任务的具体需求相匹配。通过在微调过程中调整 LLM 的参数，开发人员可以显著提高输出的准确性和相关性，使系统对于特定用例更有用且更高效。

我们也可以把提示工程、RAG 增强和 LLM 微调结合起来。由于微调需要额外数据，大多数用户在进行模型微调之前会开始进行提示工程和数据检索修改。

最重要的是，持续评估是这个循环的一个关键元素。开发人员会在这一阶段评估其 LLM 的质量和总体稳固性。最终目标是形成安全、负责任的基于数据的洞见，进而支持决策并确保 AI 解决方案可以投入生产。

Azure AI prompt flow

Azure AI prompt flow 是这个循环中的一个关键组件。Prompt flow 通过提供系统化实验工具、丰富的内置模板和指标，帮助团队 LLM 应用程序的开发和评估，确保用结构化的知情方法进行 LLM 优化。开发人员还可以对 LangChain 或 Semantic Kernel 之类的框架进行轻松集成，根据其业务需求定制 LLM 流程。添加可重用的 Python 工具也增强了数据处理能力，而简化、安全的 API 与外部数据源连接使解决方案得以灵活扩展。开发人员还可以在其工作流中使用多个 LLM，根据具体条件动态地应用于特定任务或进行成本管理。

Azure AI 使开发方法有效性评估变得直截了当。开发人员可以轻松地设计、比较不同的提示写法在样本数据上的表现，对比指标富有深度，如确凿性、流畅性和连贯性。本质上讲，prompt flow 是整个循环的关键，弥合了创新理念和切实的 AI 解决方案之间的差距。

实施阶段的循环

第三个循环抓住了 LLM 开发与生产的过渡阶段。这个循环主要涉及部署、监控、整合 Content Safety 系统，以及与 CI/CD（持续集成、持续部署）流程的集成。这通常由拥有现成应用程序部署流程的生产工程师来管理。该阶段的核心是协作，促使应用程序开发人员和在 LLM 上进行构建的数据科学家，以及负责部署它们的生产工程师之间的资产顺利交接。

部署过程中可以将 LLM 和 prompt flow 轻松传输到端点进行推理，无需进行复杂的基础架构设置。监控则可以帮助团队在生产中跟踪和优化其 LLM 应用程序的安全性和质量。Content Safety 有助于检测和减少和不受欢迎的内容，在应用程序的入口和出口都可以实现。这些系统的结合加强了应用程序对潜在风险的防范，提高了与风险、治理和合规标准的一致性。

不同于可能对内容进行分类的传统的机器学习模型，LLM 的本质是生成内容。这些内容通常用于支持面向最终用户的体验，比如聊天机器人，而集成的责任通常落在未必具备概率模型管理经验的开发人员身上。基于 LLM 的应用程序通常会整合代理和插件以增强模型功能或触发动作，这也可能会加大风险。这些因素，加上 LLM 输出固有的不确定性，突出了 LLMOps 风险管理的重要性。

Azure AI prompt flow 旨在确保将模型平稳部署到 Azure 机器学习的托管在线端点。Prompt flow 是符合公开结构的明确定义文件，可以轻松地纳入现有的产品化流水线中。在部署时，Azure 机器学习会调用自主收集生产数据的模型数据收集器。这样一来，Azure AI 中的监控功能可以提供对资源利用的详细理解，通过 token 用量和成本监控确保最佳性能和经济效益。更重要的是，客户可以使用内置或自定义的度量标准定期检测生成式 AI 应用程序的偏移，以监控其在生产中的质量和安全性。

Azure AI Content Safety

开发人员还可以使用 Azure AI Content Safety 来检测和减少有害内容，或者启用 Azure OpenAI 服务模型提供的内置 Content Safety 过滤器。这些系统共同提升了可控性、质量和透明度，提供了更安全、更高效的 AI 解决方案，更容易满足企业的合规标准。

Azure AI 还通过使用 Registry 实现了模型、提示、数据和实验结果等资产的无缝共享，从而促进不同角色之间的紧密协作。在一个工作区中创建的资产可以在另一个工作区中轻易找到，确保了 LLM 和提示的顺畅交接。这不仅使开发过程更加顺畅，而且在开发和生产环境中保存了追溯线索。这种综合方法确保了 LLM 应用程序的效用和洞察力，而且深深植根于业务结构中，创造了无与伦比的价值。

管理阶段的循环

这是 LLM 进程在企业生命周期中的最后一个循环，将会制定一个结构化框架，用于长期的治理、管理和安全保障。通过为 AI 项目提供明确而一致的指南、流程和标准，AI 治理可以帮助企业加强对 AI 的运用和创新。

探索负责任的 AI 实践

Azure AI 提供了内置的 AI 治理功能，涵盖隐私、安全、合规和负责任的 AI，同时还提供了广泛的接口与集成，简化了数据体系中的 AI 治理。举例来说，管理员可以规定允许或强制执行特定的安全配置，比如 Azure 机器学习工作区是否使用私有端点。企业也可以将 Azure 机器学习工作区与 Microsoft Purview 集成，把 AI 资产的元数据自动发布到 Purview 数据映射，从而更轻松地进行溯源。这有助于风险和合规专家了解训练 AI 模型的数据、基础模型微调与扩展的方式，以及模型在不同的生产应用程序中的使用情况。这些信息对支持负责任的 AI 实践、提供审计与合规报告相关证据至关重要。

无论是使用开源模型构建生成式 AI 应用程序、Azure 托管的 OpenAI 模型，还是使用自己预训练的自定义模型，Azure AI 都可以通过专用可扩展基础架构，更轻松地实现安全、可靠的 AI 解决方案。

企业会在用 LLMOps 简化流程的过程中发现一个日益明确的事实：这一旅程是全方位的，需要多样化的技能。虽然像 Azure AI prompt flow 这样的工具和技术发挥了至关重要的作用，但人的因素和多样化的专业知识是不可或缺的。正是跨职能团队的协同合作创造了真正的奇迹。他们共同确保一个有潜力的想法被转化为概念验证，然后再成为具有颠覆性影响的 LLM 应用程序。

使用 LLMOps • 简化 AI 应用构建

👇🏻 点击查阅更多

[1] LLMOps 时代，更简化的方式释放无限价值

文章转载自Azure云科技，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

了解企业级 AI 应用程序构建的完整生命周期

评论