测量数据挖掘中的聚类质量

集群是同一组内彼此相似的数据对象的集合。集群的数据对象与其他组或集群的数据对象不同。

数据挖掘中的聚类

聚类方法：

1.分区方法：分区方法构造各种分区，然后通过一些标准来评估它们，例如，最小化平方误差之和。它采用排他性集群分离（每个对象恰好属于一个组）并使用迭代重定位技术通过将对象从一组移动到另一组来改进分区。它使用贪婪方法和局部最优方法。它在中小型数据库中查找具有球形形状的集群。

分区方法：

k-均值
k-中心点
娇韵诗

2.基于密度的方法：这种方法基于连通性和密度函数。它将对象集划分为多个互斥的集群或集群的层次结构。基于密度的方法：

DBSACN
光学

3.基于网格的方法：这种方法将对象量化为有限数量的单元，这些单元形成网格结构。处理时间快且独立于多个数据对象。基于网格的聚类方法是解决空间数据挖掘问题的有效方法。

基于网格的方法：

刺
波群
集团

4.分层方法：这通过使用一些措施来创建数据对象的分层分解。分层方法：

戴安娜
艾格尼丝
桦木
喀麦隆

聚类质量度量：

如果集群中的所有数据对象都高度相似，则集群具有高质量。在大多数情况下，我们可以使用 Dissimilarity/Similarity 度量来衡量聚类的质量。但是，如果集群相似，还有一些其他方法可以衡量良好集群的质量。

1. Dissimilarity/Similarity metric：聚类之间的相似度可以用一个距离函数来表示，用d(i, j)来表示。对于各种数据类型和数据变量，距离函数是不同的。距离函数度量对于连续值变量、分类变量和向量变量是不同的。对于不同类型的数据，距离函数可以表示为欧几里得距离、马氏距离和余弦距离。

2 .聚类完整性：聚类完整性是良好聚类的基本参数，如果任何两个数据对象具有相似的特征，则根据基本事实将它们分配到聚类的同一类别。如果对象属于同一类别，则集群完整性很高。

让我们考虑聚类 C1，它包含子聚类 s1 和 s2，其中 s1 和 s2 聚类的成员根据基本事实属于同一类别。让我们考虑另一个集群 C2，它与 C1 相同，但现在 s1 和 s2 合并到一个集群中。然后，我们定义聚类质量度量 Q，根据聚类完整性 C2，与 C1 相比，将具有更高的聚类质量，即 Q(C2, Cg ) > Q(C1, Cg )。

3. Ragbag：在某些情况下，可能存在一些类别，其中这些类别的对象无法与其他对象合并。然后通过 Rag Bag 方法测量这些聚类类别的质量。根据碎布袋法，我们应该将异类对象归入碎布袋类。

让我们考虑一个聚类 C1 和一个聚类 C ∈ C1，使得 C 中的所有对象都属于聚类 C1 的同一类别，根据基本事实，除了对象 o。考虑一个与 C1 相同的聚类 C2，除了将 o 分配给包含不同类别对象的聚类 D。根据基本事实，这种情况是嘈杂的，聚类的质量是使用破布袋标准来衡量的。我们定义了聚类质量度量 Q，并且根据 rag bag 方法标准 C2，与 C1 相比，将具有更高的聚类质量，即 Q(C2, Cg)>Q(C1, Cg)。

4.小簇保留：如果将一个小类聚类进一步拆分成小块，那么这些小块对整个聚类就成为噪声，因此很难从聚类中识别出那个小类。小集群保留标准状态将一个小类别分成几部分是不可取的，它进一步降低了集群的质量，因为集群的部分是独特的。假设聚类 C1 已分成三个聚类，C11 = {d1, . . . , dn}, C12 = {dn+1}, C13 = {dn+2}。

让聚类 C2 也分裂成三个聚类，即 C1 = {d1, . . . , dn−1}, C2 = {dn}, C3 = {dn+1,dn+2}。由于 C1 拆分对象的小类别，C2 拆分大类别，根据上述规则，聚类质量度量 Q 应该给 C2 更高的分数，即 Q(C2, Cg ) > Q(C1, CG）。