📜  分类的基本概念(数据挖掘)

📅  最后修改于: 2021-04-17 03:42:07             🧑  作者: Mango

数据挖掘:广义上的数据挖掘是指对不同形式的数据进行挖掘或深入研究,以获取模式并获取有关该模式的知识。在数据挖掘过程中,首先对大型数据集进行排序,然后识别模式并建立关系以进行数据分析并解决问题。
分类:这是一项数据分析任务,即查找描述和区分数据类和概念的模型的过程。分类是根据包含观察值且已知其类别成员资格的训练数据来确定新观察值属于一组类别(子群体)中的哪一个的问题。
示例:在开始任何项目之前,我们需要检查其可行性。在这种情况下,需要分类器来预测诸如“安全”和“风险”之类的分类标签,以采用该项目并进一步批准它。这是一个两步过程,例如:

  1. 学习步骤(训练阶段) :分类模型的构建
    通过使用可用的训练集使模型学习,使用了不同的算法来构建分类器。必须对模型进行训练以预测准确的结果。
  2. 分类步骤:用于预测类别标签并在测试数据上测试构建的模型,从而估计分类规则的准确性的模型。

培训和测试:
假设有一个人坐在风扇下,风扇开始掉落在他身上,他应该坐到一边,以免受到伤害。因此,这是他离开的培训部分。在测试人员是否看到任何重物向他跌落或跌落到他身上并移开时,对系统进行正面测试;如果人员不移开,则对系统进行负面测试。
数据也是如此,应该对其进行培训以便获得准确和最佳的结果。

与数据挖掘相关的某些数据类型实际上告诉我们文件的格式(无论是文本格式还是数字格式)。
属性–表示对象的不同功能。不同类型的属性是:

  1. 二进制:仅具有两个值,即True或False
    示例:假设有一项评估某些产品的调查。我们需要检查它是否有用。因此,客户必须以“是”或“否”来回答。
    产品实用性:是/否
    • 对称:这两个值在各个方面都同等重要
    • 不对称:两个值都不重要时。
  2. 标称值:可能有两个以上的结果时。它采用字母形式,而不是整数形式。
    示例:需要选择一些材料,但是要使用不同的颜色。因此,颜色可能是黄色,绿色,黑色,红色。
    不同颜色:红色,绿色,黑色,黄色
    • 序数:必须具有有意义顺序的值。
      示例:假设有几名学生的成绩单,根据他们的表现可能包含不同的成绩,例如A,B,C,D
      成绩:A,B,C,D
    • 连续的:可能具有无限数量的值,为浮点型
      示例:按顺序或有条理地测量少数学生的体重,即50、51、52、53
      重量:50、51、52、53
    • 离散的:有限数量的值。
      示例:在几个学科中的学生成绩:65、70、75、80、90
      标记:65,70,75,80,90

句法:

  • 数学符号:分类基于建立具有输入特征向量“ X”并预测其结果“ Y”的函数(定性响应采用集合C中的值)
  • 这里使用的分类器(或模型)是一种监督函数,可以根据专家的知识手动设计。它被构造为预测班级标签(例如:标签–某些事件的批准为“是”或“否”)。

分类器可以分为两种主要类型:

  1. 判别式:这是一个非常基本的分类器,并且每行数据仅确定一个类。它试图仅根据观察到的数据进行建模,而在很大程度上取决于数据的质量而不是分布。
    示例:逻辑回归
    被大学录取的学生(需要考虑考试和成绩)
    假设学生很少,其结果如下:
    Student 1 : Test Score: 9/10, Grades: 8/10  Result: Accepted
    Student 2 : Test Score: 3/10, Grades: 4/10, Result: Rejected
    Student 3 : Test Score: 7/10, Grades: 6/10, Result: to be tested

  2. 生成式的:它对各个类的分布进行建模,并尝试通过估计模型的假设和分布来学习生成幕后数据的模型。用于预测看不见的数据。
    示例:朴素贝叶斯分类器
    通过查看以前的数据来检测垃圾邮件。假设有100封电子邮件,并且也按1:4划分,即A类:25%(垃圾邮件)和B类:75%(非垃圾邮件)。现在,如果用户希望检查电子邮件中是否包含“便宜”一词,则可以将其称为“垃圾邮件”。
    似乎是在A类(即25%的数据)中,每25封电子邮件中有20封是垃圾邮件,而其余则不是。
    在B类(即75%的数据)中,每75封电子邮件中有70封不是垃圾邮件,其余是垃圾邮件。
    因此,如果电子邮件中包含“便宜”一词,那么它成为垃圾邮件的可能性有多大? (= 80%)

机器学习分类器:

  1. 决策树
  2. 贝叶斯分类器
  3. 神经网络
  4. K最近邻居
  5. 支持向量机
  6. 线性回归
  7. 逻辑回归<

相关工具和语言:用于从原始数据中挖掘/提取有用的信息。

  • 使用的主要语言:R,SAS, Python,SQL
  • 使用的主要工具:RapidMiner,Orange,KNIME,Spark,Weka
  • 使用的库:Jupyter,NumPy,Matplotlib,Pandas,ScikitLearn,NLTK,TensorFlow,Seaborn,底图等

现实生活中的例子:

  • 市场篮分析:
    这是一种建模技术,已与购买某些物品组合的频繁交易相关联。
    示例:亚马逊和许多其他零售商使用此技术。在查看某些产品时,会显示一些人过去购买的商品建议。
  • 天气预报:
    需要根据温度,湿度,风向等参数观察天气状况的变化模式。这种敏锐的观察还需要使用以前的记录,以便准确地对其进行预测。

好处:

  • 基于挖掘的方法既经济又高效
  • 帮助识别犯罪嫌疑人
  • 帮助预测疾病风险
  • 帮助银行和金融机构识别违约者,以便他们批准信用卡,贷款等。

缺点:
隐私权:如果数据是可能的,则公司可能会向其他供应商提供有关其客户的某些信息,或利用此信息来牟利。
准确性问题:必须在其中选择“精确模型”才能获得最佳的准确性和结果。

应用范围:

  • 市场营销与零售
  • 制造业
  • 电信业
  • 入侵检测
  • 教育体系
  • 欺诈识别

数据挖掘的要点:

  1. 选择正确的分类方法,例如决策树,贝叶斯网络或神经网络。
  2. 需要一个数据样本,其中所有类值都是已知的。然后,数据将分为两部分:训练集和测试集。

现在,将训练集提供给一种学习算法,该算法可得出分类器。然后使用测试集对分类器进行测试,其中所有类的值均被隐藏。
如果分类器正确地对测试集中的大多数情况进行了分类,则可以假定它也可以在将来的数据上正确地工作,否则可能选择了错误的模型。