研究的主要内容:
jiawei Han在2000年文献中提出了一个称为FP-tree的算法如下[3]:
这个算法只进行2次数据库扫描。它不使用候选集,直接压缩数据库生成一个频繁模式树,最后通过这棵树生成关联规则。
用FP-tree挖掘频繁集的基本思想是分而治之的,即使用FP-tree递归增长频繁集的方法:
(1)对事物数据库中的每个项,生成它的条件模式库,然后是它的条件FP-tree;
(2)对每个新生成的条件FP-tree,重复这个步骤;
(3)直到结果FP-tree为空,或只含唯一的一个路径(此路径的每个子路径对应的项目集都是频繁集)。
挖掘FP-tree的主要步骤可以归纳如下:
(1)为FP-tree中的每个结点生成条件模式库,即从FP-tree的头开始;按照每个频繁项的连接遍历FP-tree,列出能够到达此项的所有前缀路径,得到条件模式库;
(2)有条件模式库构造对应的条件FP-tree,即对每个模式库,计算库中每个项的支持度,并用模式库中的频繁项建立FP-tree;
(3)递归构造条件FP-tree同时增长其包含的频繁集,这一步中,为了正确地挖掘条件模式树以生成频繁模式,需要对下面两种情况加以讨论,首先,是单FP-tree路径生成,二是,FP-tree中的唯一前缀路径;
(4)如果条件FP-tree只包含一个路径,则直接生成所包含的频繁集。 |