暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Pythian上定义数据保留

原创 eternity 2022-08-17
263

之前,我们讨论了地理空间数据的价值,以及它如何推动当今移动应用程序中的大部分个性化和价值,如果通过强大的数据治理计划在整个组织中进行整体管理,这种价值会带来风险。通过利用法律团队定义的策略和数据附带的用户上下文实现自动化,将确保跨系统的法规遵从性。

除了地理空间数据之外,我们还将研究数据保留、确保数据可用性的必要策略,以及实施数据保留策略所需的技术实现。

保留的定义是“持有或保持对某物的占有”。这是数据保留的一个坚实的基本定义。重要的是要注意,该定义没有任何时间元素,时间元素由r定义,即数据保留多长时间,或者访问您仍然拥有的数据多长时间。这些都是必须包含在组织的数据保留策略和系统设计资产中的考虑因素。

保留数据的原因是无穷无尽的,并且因组织和行业而异。虽然潜在保留原因的列表很长,但各组织应努力将列表缩短到保留数据的具体原因,以及何时保留数据,以及哪些数据在策略范围内。如果数据没有定义的业务价值,则应清除它。

  • 法律要求:在规定的期限内保留特定类型的记录有一长串法律要求。这些信息涵盖财务文件、并购数据、员工详细信息和合同。这是数据保留策略最常见的驱动因素,通常为广泛的记录类型保留设置最小值和最大值。

  • 历史背景:组织通常维护其销售的产品、保修详细信息或维修数据的记录,以确保其具有长期的客户参与历史、产品或销售产品的维修工作,以确保提供支持。根据行业的不同,此数据可以具有高度灵活的保留期。由于消费者更换手机的频率越来越高,将手机购买的详细信息保留5年以上并没有太大帮助,但将汽车维修记录保留10年以上是很常见的。

  • 预测:许多组织将保留历史数据,以帮助预测未来的需求。这可能包括产品需求、消费者行为或财务表现。由于经济和客户条件的变化,这些数据的价值会随着时间的推移而变化,在某些点上会逐渐减少。

  • 个性化:许多面向消费者的组织将在设定的时间段内保留数据,以确保他们能够个性化买家体验。这可以像利用历史数据显示过去的购买一样简单,也可以演变为更复杂的未来购买建议。

  • 懒惰:许多组织保留数据的原因很简单:他们没有定义何时必须删除数据并强制执行该策略的策略。数据保留策略必须包括何时保留数据的条件,以及何时必须清除数据的明确定义,以确保对于对组织没有价值或价值不大的数据,存储成本不会急剧上升。

应以易于理解、易于编程实现的方式定义数据保留策略,并应使工程团队在处理组织已知并已利用的数据集时,能够在大部分时间独立操作。除政策定义外,数据治理领导者还应确保变更是数据素养培训和推广计划的一部分,以确保整个组织的意识。

  • 保留和清除:策略应包括数据保留时间的最小值和清除不必要或昂贵数据的最大值。

  • 示例:强策略包括示例,包括特定类型的数据、记录的外观以及如何正确处理不同类型的环境或消费模型。示例使工程团队不仅能够理解数据定义和类型,还能够理解当复杂数据集中可能存在细微变化时,什么是可接受的用途。

  • 定期报告:企业范围的报告应该是您的数据治理计划的一部分,包括按组织中的类型报告数据量,在其中存储和处理数据的系统,以及数据是否符合保留和清除策略。

  • 成本审查:数据保留有成本,既包括存储数据的基础架构成本,也包括可访问数据给组织带来的风险。策略应定义定期审查,以根据业务价值评估存储特定年龄和数据类型的成本,以确定是否需要更新策略以比以前更快地清除数据。

我们的讨论集中在生成和存储的原始数据上。引入复杂性的地方是我们开始评估和构建衍生数据策略的时候。今天的分析环境为我们提供了无尽的方法,以新的独特方式组合数据。数据保留策略应该考虑到这一点,方法是创建一个正在运行的策略文档,显示已经评估了哪些新数据组合,并为其创建了策略。数据治理计划应为工程师定义快速通道计划,以提出新的数据组合供法律、归档、法规遵从性和体系结构团队审查,以确定新衍生数据类型的策略,使他们能够快速进行分析。

试图简化数据保留策略的一种常见方法是“永远保留所有数据”。虽然表面上这听起来是一个简单的解决方案,但对于一个大多数人都不愿意长期接受的组织来说,这会带来越来越大的成本和风险。对所有历史数据的需求是有限的。消费者行为的变化、经济指标的变化和行业法规的演变都导致需要清除不再有价值或给组织带来无法管理的风险的数据。

数据保留是数据治理计划的关键组成部分。必须尽早定义策略,通过数据读写计划和技术控制进行共享,以根据策略自动保留、保护和清除数据。流程应包括技术要素和人工流程,以确保将意外事件上报给您的数据管理员,以便在需要时定义新策略,并在需要时更新现有策略。

接下来,我们将讨论分析模型在数据治理项目中的作用。随着越来越多的组织转向使用预测建模和机器学习,管理我们的分析模型、培训集和输出对于确保可重复性、消除决策偏差和保护组织知识产权至关重要。确保注册更新,以免错过下一篇文章。

作者相关

乔伊·贾布朗斯基(Joey Jablonski)是Pythian的分析副总裁,他领导战略合作,帮助客户制定数据战略,定义和执行数据治理计划,并构建分析模型,为现代数据驱动的组织提供动力。在加入Pythian之前,Joey是Manifold的产品副总裁,他在那里提出了产品思维定势,这是所有项目的一部分,允许在任何项目中快速交付价值,并随着时间的推移进行构建,以推动组织采用新的以数据为中心的能力。乔伊领导了包括高科技、制药和联邦政府在内的多个行业的合作。在Manifold之前,Joey曾在西北互惠银行、iHeartMedia和云技术合作伙伴担任执行领导职务。他在软件工程、高性能计算、网络安全、数据治理和数据工程领域拥有20多年的经验。

原文标题:DEFINING DATA RETENTION
原文作者:Joey Jablonski
原文链接:https://blog.pythian.com/defining-data-retention

最后修改时间:2022-08-18 16:38:16
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论