我们之前的讨论集中在数据治理计划的数据保留方面。必须尽早定义策略,通过数据扫盲计划和技术控制共享策略,以实现数据的自动保留、保护和清除。这些策略由自动化数据存储和销毁的流程支持,为法规遵从性团队创建了强大的审计跟踪,以用于改进方法和工具。
到目前为止,我们的谈话完全集中在我们环境中的数据,或数据治理程序的传统范围。许多组织正在迅速部署分析模型以增强人类决策。这一转变促使我们将我们的计划定义为数据和分析治理,识别并捕获治理我们的分析模型、培训集和输出的需求。这种模型治理确保了决策的可重复性和消除偏差,同时保护了组织的知识产权。在这篇文章中,我们将继续参考数据治理,但将我们的定义转变为包括为我们的组织提供动力的数据和分析模型。
今天的分析模型可以跨越多种技术,包括R、Python、Go、SQL扩展和SPSS。这些模型的部署可以通过自定义ML Ops框架或供应商提供的堆栈进行,包括Google Vertex AI、AWS SageMaker或Azure机器学习。虽然该技术将促进治理策略的实施,但组织将负责设置模型部署、测试、使用和保留的条件和边界。
模型治理仍然是新的,因为许多组织还处于为生产使用部署模型的早期阶段。在标准定义方面处于领先地位的一个行业是金融服务。在投资、现金储备、压力测试和消费者行为建模等规划方面使用分析模型是需要高度自信的早期领域。这一过程早在2011年就开始了,美联储发布了SR信函11-7,为我们金融系统各个方面使用的模型制定了标准。
构建一个强大的策略框架,并在系统自动化的支持下执行和审计,确保模型治理的一致性。该框架的关键要素包括:
-
再现性:在特定条件下再现特定结果的能力。虽然并非总是需要,但政策应定义需要再现性的地方。
-
可追溯性:现代业务流程的复杂性要求有能力确定关键决策是如何做出或在何处受到影响的。关于模型可追溯性的组织标准将有助于确定过程在不同输入下的行为。
-
准确度:准确度是根据一组标准的组织基准对模型结果的度量。随着时间的推移,必须跟踪模型的准确性,以确保在性能下降到定义的阈值以下时,可以依靠输出进行决策和干预。
-
性能:模型响应性是衡量用户体验的关键指标。随着时间的推移,对性能进行监控,对最低水平进行基准测试,并对异常行为发出警报,以确保高水平的用户满意度。
-
测试框架:许多模型将部署在复杂环境中,同时运行多个版本。当这种类型的部署被接受为策略时,框架应确保捕获遥测数据,以便将行为和结果与模型版本明确关联。这些数据使数据科学团队能够快速决定模型的版本,以供将来使用、改进或退役。
-
偏差:在模型可能会强化数据中的偏差的领域,应定义并定期测试偏差测试的领域,包括人力资源、信用评分、广告定位或服务交付标准。
-
保留和修订控制:与任何软件资产一样,复制过去的代码库或模型的能力应该是自动化工具和过程的一部分。保留策略应与源代码和软件构建资产相关联,以确定特定片段需要保留多长时间。
-
依赖关系映射:许多分析模型将共同工作以产生可操作的结果。我们必须构建模型供应链的整体视图,以确保我们能够适应供应商供应能力的变化,并管理不同组织或供应商构建的资产的可追溯性的复杂性。
-
数据集沿袭:必须通过自动修订控制跟踪培训数据集的沿袭,并将其与模型版本相关联。这种关联确保了如果以后的问题与性能或偏差有关,则可以对模型进行评估。这种关联对于满足日益增长的模型再现性监管要求至关重要。
模型治理的每个元素都需要实现和自动化的特定技术特性。更多地使用自动化将提高再现性,并最大限度地减少模型创建和部署中可能对组织风险态势产生负面影响的人为错误。在当今复杂的数据环境中,分析模型无法独立存在;他们有独特的需求,必须在政策中加以捕捉,通过我们的ML Ops平台实现自动化,并定期进行审查和更新,以适应不断变化的技术能力和市场条件。
下一篇文章将探讨遗留环境中数据治理的风险和回报。从70年代到80年代,许多组织继续依赖大型机或UNIX技术,这给数据治理程序带来了更多风险。风险可能表现为技能流失、缺乏集成或策略执行自动化方面的差距。我们将探索这些风险、缓解技术和方法,以随着时间的推移使这些平台现代化,并将数据治理作为加速驱动因素。
确保注册更新,以免错过下一篇文章。
关于作者
乔伊·贾布隆斯基(Joey Jablonski)是Pythian的分析副总裁,他领导战略合作,帮助客户制定数据战略,定义和执行数据治理计划,并构建分析模型,为现代数据驱动组织提供动力。在加入Pythian之前,Joey是Manifold的产品副总裁,在那里他带来了一个产品思维定势,它是所有业务的一部分,允许在任何项目中快速交付价值,并随着时间的推移推动组织采用新的以数据为中心的能力。乔伊领导了包括高科技、制药和联邦政府在内的多个行业的合作。在Manifold之前,Joey曾在西北互惠银行、iHeartMedia和云技术合作伙伴担任行政领导职务。他在软件工程、高性能计算、网络安全、数据治理和数据工程领域拥有20多年的经验。
原文标题:WHY DATA GOVERNANCE SHOULD INCLUDE ANALYTICAL MODELS
原文作者:Joey Jablonski
原文链接:https://blog.pythian.com/why-data-governance-should-include-analytical-models/




