📌  相关文章
📜  最大频繁项集

📅  最后修改于: 2021-04-17 11:54:03             🧑  作者: Mango

先决条件:Apriori算法和频繁项集挖掘

由Apriori算法生成的频繁项集的数量通常可能非常大,因此,确定一个较小的代表集可以从中得出每个频繁项集是有益的。一种这样的方法是使用最大频繁项集。

最大频繁项目集t是其立即超集都不频繁的频繁项目集。为了说明这个概念,请考虑以下示例:

支持计数显示在每个节点的左上角。假设支持计数阈值= 50% ,即每个项目必须在2个或更多事务中发生。基于该阈值,频繁项集为:a,b,c,d,ab,ac和ad(阴影节点)。

在这7个频繁项集中,有3个被标识为最大频繁项(具有红色轮廓):

  • ab :即时超集abc和abd很少出现。
  • ac :即时超集abc和acd很少出现。
  • ad :立即超集abd和acd很少出现。

其余的4个频繁节点(a,b,c和d)不能成为最大频繁节点,因为它们都具有至少1个频繁的立即超集。

优势
最大频繁项集提供了特定数据集的所有频繁项集的紧凑表示。在上面的示例中,所有频繁项集都是最大频繁项集的子集,因为我们可以通过枚举ab,ac和ad的子集(包括最大频繁项集本身)来获得集合a,b,c,d。

缺点
最大频繁项集的支持计数不提供有关其子集的支持计数的任何信息。这意味着需要额外遍历数据来确定非最大频繁项目集的支持计数,这在某些情况下可能是不希望的。