暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Meta在机器学习预测稳健性上的方法与进展

Andy730 2024-09-18
197

Meta的广告业务依赖大规模机器学习(ML)推荐模型,每秒为旗下应用提供数百万条广告推荐。保持ML系统的可靠性对确保用户和广告主获得最佳服务及持续价值至关重要。为最小化中断并提升ML系统的内在韧性,我们构建了全面的预测稳健性解决方案,在不牺牲性能和可用性的前提下确保系统稳定。

机器学习稳健性面临的挑战

ML预测稳定性问题比传统在线服务更为复杂,主要体现在以下方面:

  1. ML模型的固有随机性与不确定性:ML模型的输出并非确定性结果,而是基于概率分布的估计。这种不确定性源于数据噪声、随机初始化和优化算法的随机性。模型输出的波动性使得预测问题变得复杂,难以准确定义、诊断、复现和调试。
  2. 模型和特征频繁更新带来的挑战:为了适应用户兴趣的动态变化,ML模型和特征需要频繁更新。然而,这种持续的更新导致模型不稳定,预测结果波动较大。开发者难以在快速变化的环境中定位并修复问题,直接影响模型的性能和可靠性。
  3. 可靠性与性能的模糊界限:传统在线服务的可靠性通过延迟和可用性等指标衡量。但在ML系统中,可靠性与性能的界限模糊。模型的稳定性并不等同于可靠性,即使模型可用,预测准确性也可能持续下降。
  4. 微小分布变化的累积效应:ML模型的随机性使得预测质量的微小下降难以区分。然而,这些微小下降若未及时纠正,会累积成严重问题。尽管单次预测质量的下降可能不明显,但长期来看会显著影响模型的整体性能。
  5. 复杂长链交互的挑战:最终ML预测结果源自多个ML系统间复杂的处理和传播链。预测质量回归可能源于链条上游多个环节,增加了针对特定ML系统诊断和定位稳定性改进的难度。
  6. 小波动放大效应:输入数据(如特征、训练数据和模型超参数)的微小变化可能对最终预测产生显著且不可预测的影响。这不仅增加了在特定ML构件(模型、特征、标签)中遏制预测质量问题的难度,还需要端到端的全局保护机制。
  7. 快速模型创新带来的复杂性:Meta机器学习技术的快速发展增加了模型和系统架构的复杂性。开发者必须不断适应新的技术变革,以确保模型在不断变化的数据环境中保持稳定和可靠。

Meta预测稳健性策略与进展

Meta构建了系统化框架以增强预测稳健性。该框架包括三个层面:外部预防护栏(prevention guardrails)建立控制机制;深入问题理解(fundamental understanding)获取ML洞察;内部技术强化实现内在稳健性(intrinsic robustness)。

这三方面策略应用于模型、特征、训练数据、校准和可解释性等领域,全面覆盖ML生态系统潜在问题。通过这些措施,Meta的ML系统具备内在稳健性,能主动监控并及时解决稳定性问题,确保用户和广告主的广告投放顺畅。

Meta广告推荐系统的简化视图展示了生成最终预测结果的复杂交互流程

我们的预测稳健性解决方案系统性地覆盖了推荐系统各个方面,包括训练数据、特征、模型、校准和可解释性。

模型稳健性(Model robustness)

模型稳健性面临的挑战包括模型快照质量、新鲜度和推理可用性。我们使用内部开发的Snapshot Validator作为预防措施,这是一个实时、可扩展、低延迟的模型评估系统,用于在每个模型快照投入生产前验证其质量。

Snapshot Validator对新发布的模型快照实时运行测试数据集评估,判断其是否适用于生产流量。过去两年,Snapshot Validator将模型快照损坏率降低74%,保护了生产环境中90%以上的Meta广告排序模型,同时未延长实时模型更新时间。

此外,Meta工程师开发了新的机器学习技术提升模型内在稳健性,如裁剪次要模块、增强泛化能力防止过拟合、改进量化算法,以及确保模型在输入数据存在少量异常时仍能保持性能。这些技术综合提高了广告ML模型的稳定性,使其具备抗过拟合、避免损失发散等能力。

特征稳健性(Feature robustness)

特征稳健性主要保证机器学习特征在覆盖率、数据分布、新鲜度及训练推理一致性方面的质量。作为预防措施,强大的特征监控系统已在生产中使用,持续检测ML特征异常。由于ML特征值分布可能随模型性能的非确定性变化而大幅波动,异常检测系统已适应特定流量和ML预测模式,以确保准确性。

一旦检测到异常,自动预防措施立即启动,确保异常特征不用于生产环境。此外,实时特征重要性评估系统的建立有助于深入理解特征质量与模型预测质量间的相关性。

这些解决方案有效解决了Meta中ML特征覆盖率下降、数据损坏和一致性问题。

训练数据稳健性(Training data robustness)

Meta广告产品的多样性需要不同的标注逻辑用于模型训练,显著增加了标注复杂性。此外,复杂的日志基础设施和自然流量波动可能导致计算标签的数据源不稳定。为此,我们建立了专门的训练数据质量系统作为预防措施,能高精度检测标签随时间的漂移,并迅速、自动地缓解异常数据变化,防止模型学习受影响的训练数据。

同时,深入理解训练数据标签的一致性,使我们在训练数据生成上进行了优化,从而提升了模型学习效果。

校准稳健性(Calibration robustness)

校准稳健性通过构建实时监控和自动缓解工具,确保最终预测的校准精确度,这是提升广告主体验的关键。校准机制技术上具有独特性,因其基于非联合数据的实时模型训练,且比联合数据机制对流量分布变化更敏感。

为提升校准的稳定性和准确性,Meta构建了包括高精度告警系统在内的预防措施,以最大限度缩短问题检测时间,同时通过高标准的自动化协调缓解措施,加快问题处理速度。

机器学习可解释性(ML interpretability)

ML可解释性致力于识别所有ML不稳定问题的根本原因。HawkEye是Meta内部的AI调试工具,允许工程师查找复杂ML预测问题的根源。HawkEye提供端到端的诊断体验,涵盖Meta内所有ML构件,目前已覆盖80%以上的广告ML构件,成为Meta ML工程团队使用最广泛的工具之一。

除调试外,ML可解释性还大力投入于理解模型内部状态,这是ML稳定性领域中最复杂且技术挑战最大的部分。虽然这一挑战尚无标准化解决方案,Meta通过模型图跟踪技术,利用模型激活和神经元重要性等内部状态,准确解释模型损坏原因。

这些ML可解释性方面的进展将ML预测问题根因定位时间缩短50%,并显著提升了对模型行为的基本理解。

通过预测稳健性提升排序和生产力

未来,我们将进一步扩展预测稳健性解决方案,以提升ML排序性能,并通过加速ML开发提高工程生产力。

预测稳健性技术能通过更稳定的训练、减少归一化熵爆炸或损失发散、增强对数据变化的适应性以及提高泛化能力,从内在提升ML性能。应用梯度截断和更健壮的量化算法等稳健性技术后,我们已观察到性能提升。我们还将继续通过模型理解技术,寻找更多系统性改进机会。

此外,通过减少陈旧性、加强标签、特征、推理平台等方面的训练与服务环境一致性,模型性能将得到进一步改善。我们计划继续升级Meta的广告ML服务,提供更强的训练服务一致性保证,并进一步缩短陈旧性服务等级协议(SLA)时间。

在ML开发生产力方面,预测稳健性技术能简化模型开发,并通过缩短解决ML预测稳定性问题的时间来提升日常操作效率。目前我们正在构建智能ML诊断平台,结合最新ML技术与预测稳健性,帮助即使对ML知识有限的工程师也能在数分钟内找到ML稳定性问题的根本原因。

该平台还将持续评估整个开发生命周期中的可靠性风险,最大限度减少因可靠性回归导致的ML开发延误。它将在从概念探索到在线实验直至最终上线的每个ML开发阶段,嵌入可靠性保障。

参考资料:Meta. (2024, July 10). Meta's approach to machine learning prediction robustness. https://engineering.fb.com/2024/07/10/data-infrastructure/machine-learning-ml-prediction-robustness-meta/

---【本文完】---

近期受欢迎的文章:

  1. Meta:AI基础设施的未来(演讲/PPT)

  2. AI基础设施转型:如何构建高效可靠的AI基础设施

  3. OpenAI演讲:可预测的扩展与基础设施(PPT)

  4. 参考架构:为超大规模AI构建高效数据基础设施

  5. Gartner AI技术成熟度曲线(2023-2024)



更多交流,可加本人微信

(请附中文姓名/公司/关注领域)

文章转载自Andy730,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论