📜  机器学习-关联规则学习

📅  最后修改于: 2020-09-29 01:34:16             🧑  作者: Mango

关联规则学习

关联规则学习是一种无监督的学习技术,它检查一个数据项与另一个数据项之间的依存关系,并相应地进行映射,以使其更具收益。它试图在数据集的变量之间找到一些有趣的关系或关联。它基于不同的规则来发现数据库中变量之间有趣的关系。

关联规则学习是机器学习中非常重要的概念之一,它被用于市场篮分析,Web使用挖掘,连续生产等。这里,市场篮分析是各种大型零售商用来发现关联的技术。项目之间。我们可以通过以超市为例来理解它,因为在超市中,所有一起购买的产品都放在一起了。

例如,如果客户购买面包,那么他很可能也可以购买黄油,鸡蛋或牛奶,因此这些产品存储在架子内或附近。考虑下图:

关联规则学习可以分为三种算法:

  • 阿普里里
  • 埃克拉特
  • FP增长算法

我们将在后面的章节中了解这些算法。

关联规则学习如何工作?

关联规则学习基于If和Else语句的概念,例如if A thenB。

在这里,If元素称为先行,然后语句称为Consequent。我们可以找出两个项目之间的某种关联或关系的这些类型的关系称为单基数。这完全与创建规则有关,如果项目数量增加,则基数也会相应增加。因此,要测量数千个数据项之间的关联,有几个指标。这些指标如下:

  • 支持
  • 置信度
  • 电梯

让我们了解它们中的每一个:

支持

支持率是频率A或项目在数据集中出现的频率。它定义为包含项集X的事务T的分数。如果存在X个数据集,那么对于事务T,它可以写为:

置信度

置信度表示多久一次发现该规则为真。或者,当已经给出X的出现时,项X和Y在数据集中一起出现的频率。它是包含X和Y的事务与包含X的记录数之比。

电梯

它是任何规则的强度,可以按以下公式定义:

如果X和Y彼此独立,则是观察到的支持量度与预期支持量的比率。它具有三个可能的值:

  • 如果Lift = 1 :事前发生和随后发生的可能性彼此独立。
  • Lift> 1 :确定两个项目集相互依赖的程度。
  • Lift <1 :它告诉我们一个项目可以替代其他项目,这意味着一个项目对另一项目具有负面影响。

关联规则提示的类型

关联规则学习可以分为三种算法:

先验算法

该算法使用频繁的数据集来生成关联规则。它旨在用于包含事务的数据库。该算法使用广度优先搜索和哈希树来有效地计算项目集。

它主要用于市场购物篮分析,有助于了解可以一起购买的产品。它也可以用于医疗保健领域,以查找患者的药物反应。

离散算法

Eclat算法代表等价类转换。该算法使用深度优先搜索技术来查找交易数据库中的频繁项目集。它执行的速度比Apriori算法要快。

FP增长算法

FP增长算法代表“频繁模式”,它是Apriori算法的改进版本。它以树结构的形式表示数据库,这种树结构被称为频繁模式或树。该频繁树的目的是提取最频繁的模式。

关联规则学习的应用

它在机器学习和数据挖掘中具有各种应用。以下是关联规则学习的一些流行应用程序:

  • 市场篮子分析:这是关联规则挖掘的流行示例和应用之一。大型零售商通常使用此技术来确定商品之间的关联。
  • 医学诊断:借助关联规则,可以轻松治愈患者,因为它有助于确定特定疾病的发病率。
  • 蛋白质序列:关联规则有助于确定人造蛋白质的合成。
  • 它也用于目录设计损失领导者分析以及更多其他应用。