GBASE分享FP 树的算法的两大步骤

三金先生 2023-11-06

192

频繁模式增长算法(FP-growth)

频繁模式增长算法（Frequent Pattern-Growth， FP-Growth），它采取如下分治策略：将提供频繁项集的数据库压缩到一棵频繁模式树（FP-tree），但仍保留项集关联信息。其中使用了一种称为频繁模式树（Frequent Pattern Tree）的数据结构，FP-tree 是一种特殊的前缀树，由频繁项头表和项前缀树构成。FP-Growth 算法基于以上的结构加快整个挖掘过程。

关联分析又称关联挖掘，就是在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。关联分析的一个典型例子是购物篮分析。通过发现顾客放入购物篮中不同商品之间的联系，分析顾客的购买习惯。比如，67%的顾客在购买尿布的同时也会购买啤酒。通过了解哪些商品频繁地被顾客同时购买，可以帮助零售商制定营销策略。关联分析也可以应用于其他领域，如生物信息学、医疗诊断、网页挖掘和科学数据分析等。

FP 树的算法主要由两大步骤完成：

（1）利用数据集构建 FP-Tree

（2）建立频繁项集规则

为了更好的理解建树规则，这里以具体例子进行说明。

假设有一个购物清单，如下表：

购物清单