
啤酒与纸尿裤
某超市发现顾客订单当中,啤酒和纸尿裤会一起出现,他们去探求原因的时候发现是奶爸们在家照料小孩子的时候需要喝点啤酒看比赛来放松娱乐。于是,超市大胆将“啤酒”和“纸尿裤”这两个看上去没有关系的商品摆放在一起进行销售,最终获得了很好的销售收益。

从案例当中得到的信息有两个:首先在所有的订单当中,购买啤酒与纸尿裤的订单数量要足够多。其次,当我们发现一个订单当中购买了纸尿裤的时候,这个订单大概率也购买了啤酒。依赖这两条信息,我们才会得到一个结论,应该把啤酒放到纸尿裤旁边,促进销售量增长。
以上的案例其实反映出一个强关联规则,叫做:纸尿裤啤酒
以购物篮分析为例,当我们有如下的一些订单:
表一 购物篮清单
| 订单号 | 订单内容 |
|---|---|
| 001 | A,C,D |
| 002 | B,C,E |
| 003 | A,B,C.E |
| 004 | B,E |
| 005 | A,B,C |

这里,我们把订单里的每一个商品称为项(item),商品A,商品B等都是项;
项构成的集合称为项集,如果项集含有个项我们就把它称之为项集,这里{A,B}就是一个2-项集,{B,C,D}就是一个3-项集;
每笔当中所包含的全部商品称为记录,用t来表示,全部的记录称为数据集,用表示。
这句话当中包含了两层含义:
某两个项集在记录当中频繁出现。 当一个记录当中出现其中一个项集,另外一个项集也大概率会在这个记录当中出现。
这两层含义在概率学的角度上其实是有区分的,第一层含义是说两事件发生的概率比较大,第二层含义是事件发生的条件概率比较大。用数学语言来表示就是:
支持度:所有包含的记录构成,则项集的支持度为,其中表示数据集中包含的记录数量,表示数据集T中记录的数量 置信度 :的置信度为,其中和分别表示数据集T中包含项集和的记录数量,容易得到
通常在实践当中,我们会给一个简单的临界值来界定频繁()以及大概率()这两个词。
如果(𝛼为自定义的最小支持度阈值),则称为频繁项集(frequent itemset) 如果满足第一点的同时, (为自定义的最小置信度阈值)成立,则称是一个合格的关联规则
基于此,我们在面对任何数据的时候,只需要两步便可以找到合格的关联规则:
计算出所有支持度大于等于的项集作为频繁项集 计算所有频繁项集之间的置信度,置信度大于等于的关系称为合格的关联规则

给定最小支持度阈值,最小置信度阈值,判断表一当中是否为合格的关联规则。
结论:不是合格的关联规则。

[1] 唐四薪, 赵辉煌, 唐琼. 《大数据分析实用教程:基于Python实现》, [M]北京: 机械工业出版社, 2021
[2] 张瑾, 翁张文.《Python 商业数据分析》, [M]北京:中国人民大学出版社, 2021





