图
1.
与
MADlib
性能对比
!
技术原理与优势
)
45
首先
5
特性需要用户通过对操作数据存储的
6
查询指定哪些数据将填
充新快照来创建快照。初始快照始终创建为操作数据的真实和可重用副本,使数据的特定
状态不可变。因此,初始快照作为后续数据整理的起点,但它始终允许回溯到创建初始快
照时原始数据的确切状态。
由于已创建的快照无法更改,因此在开始数据整理之前,必须“准备”快照。准备好的
快照的数据可以进行协作修改,为模型训练做准备,特别是为数据管理做准备。此外,快
照通过将每个操作作为元数据记录在
系统目录中,自动跟踪所有的更改,为数据提
供完整的集成历史。
快照准备完成后,可以发布快照。发布的快照是不可变的,
系统强制只有发布
的快照才能用于模型训练。保证训练任务
存档过时的快照以用于文档目的。在这种状态下,数据保持不变但不能用于训练新的
模型。最后,清除快照,删除模式中的数据表以及视图、恢复存储空间。需要注意的是,
快照管理为了实施严格的模型来源无法清除具有依赖的快照。
利用
参数,
5
使用物化存储模式或者增量存储。在增量存储模式中,新快
照对应的视图和数据表只保存相对父快照修改的内容,从而大大降低存储空间。
!
)
46%'7
评论