📜  大数据分析-数据生命周期

📅  最后修改于: 2020-12-02 06:36:45             🧑  作者: Mango


传统数据挖掘生命周期

为了提供一个框架来组织组织所需的工作并从大数据中获得清晰的见解,将其视为具有不同阶段的循环是很有用的。它绝不是线性的,意味着所有阶段都是相互关联的。此循环与CRISP方法中描述的更传统的数据挖掘循环有表面上的相似之处。

CRISP-DM方法论

代表跨行业数据挖掘标准过程的CRISP-DM方法论描述了数据挖掘专家用来解决传统BI数据挖掘问题的常用方法。传统的BI数据挖掘团队仍在使用它。

看一下下图。它显示了CRISP-DM方法所描述的周期的主要阶段以及它们之间的相互关系。

生命周期

CRISP-DM于1996年构思,第二年作为ESPRIT资助计划下的欧盟项目而进行。该项目由五家公司牵头:SPSS,Teradata,戴姆勒股份公司,NCR公司和OHRA(保险公司)。该项目最终并入SPSS。该方法在如何指定数据挖掘项目方面非常详细。

现在让我们学习一下CRISP-DM生命周期中涉及的每个阶段的更多信息-

  • 业务理解-这个初始阶段的重点是从业务角度理解项目目标和需求,然后将这些知识转换为数据挖掘问题定义。设计初步计划以实现目标。可以使用决策模型,尤其是使用决策模型和表示法标准构建的决策模型。

  • 数据理解-数据理解阶段从初始数据收集开始,然后进行一些活动,以便熟悉数据,识别数据质量问题,发现对数据的初步见解或检测有趣的子集以形成隐藏的假设信息。

  • 数据准备-数据准备阶段涵盖了从初始原始数据构建最终数据集(将输入到建模工具的数据)的所有活动。数据准备任务可能会多次执行,而不是按任何规定的顺序执行。任务包括表,记录和属性选择以及建模工具的数据转换和清理。

  • 建模-在此阶段,选择并应用了各种建模技术,并将它们的参数校准为最佳值。通常,对于相同的数据挖掘问题类型,有多种技术。一些技术对数据形式有特定要求。因此,通常需要退回到数据准备阶段。

  • 评估-在项目的此阶段,从数据分析的角度来看,您已经构建了一个看起来高质量的模型。在继续进行模型的最终部署之前,重要的是要彻底评估模型并查看为构建模型而执行的步骤,以确保模型能够正确实现业务目标。

    一个主要目标是确定是否存在一些尚未充分考虑的重要业务问题。在此阶段结束时,应就使用数据挖掘结果做出决定。

  • 部署-模型的创建通常不是项目的结束。即使模型的目的是增加数据知识,也需要以对客户有用的方式组织和展示所获得的知识。

    根据需求,部署阶段可以像生成报告一样简单,也可以像实现可重复的数据评分(例如,段分配)或数据挖掘过程一样复杂。

在许多情况下,执行部署步骤的将是客户而不是数据分析师。即使分析师部署了该模型,对于客户来说,也必须预先了解要实际使用所创建的模型所需执行的操作,这一点很重要。

SEMMA方法论

SEMMA是SAS为数据挖掘建模开发的另一种方法。它代表着对于s充足,E Xplore数据库,odify,奥德尔和A的SSE。这是其阶段的简要说明-

  • 样本-该过程从数据采样开始,例如,选择要建模的数据集。数据集应足够大以包含足以检索的信息,但又应足够小以有效使用。此阶段还涉及数据分区。

  • 探索-该阶段通过数据可视化帮助发现变量之间的预期和意外关系以及异常,从而涵盖了对数据的理解。

  • 修改-修改阶段包含选择,创建和转换变量的方法,以准备进行数据建模。

  • 模型-在模型阶段,重点是在准备好的变量上应用各种建模(数据挖掘)技术,以创建可能提供所需结果的模型。

  • 评估-对建模结果的评估显示了所创建模型的可靠性和有用性。

CRISM-DM与SEMMA之间的主要区别在于SEMMA专注于建模方面,而CRISP-DM在建模之前更加重视周期的各个阶段,例如了解要解决的业务问题,理解和预处理要处理的数据。用作输入,例如机器学习算法。

大数据生命周期

在当今的大数据环境中,以前的方法要么不完整,要么不理想。例如,SEMMA方法论完全忽略了不同数据源的数据收集和预处理。这些阶段通常构成成功的大数据项目中的大部分工作。

大数据分析周期可以通过以下阶段来描述-

  • 业务问题定义
  • 研究
  • 人力资源评估
  • 数据采集
  • 数据整理
  • 数据存储
  • 探索性数据分析
  • 建模和评估的数据准备
  • 造型
  • 实作

在本节中,我们将介绍大数据生命周期的每个阶段。

业务问题定义

这是传统BI和大数据分析生命周期中常见的一点。通常,定义问题并正确评估组织可能获得多少潜在收益是大数据项目的重要阶段。提到这一点似乎很明显,但是必须评估该项目的预期收益和成本是多少。

研究

分析其他公司在相同情况下所做的事情。这涉及寻找适合您公司的解决方案,即使它涉及使其他解决方案适应您公司的资源和需求。在此阶段,应定义未来阶段的方法。

人力资源评估

一旦确定了问题,就可以继续分析当前员工是否能够成功完成项目。传统的BI团队可能无法为所有阶段提供最佳解决方案,因此,如果需要外包项目的一部分或雇用更多的人,则应在开始项目之前考虑它。

数据采集

本节是大数据生命周期中的关键。它定义了交付结果数据产品所需的配置文件类型。数据收集是该过程的重要步骤。它通常涉及从不同来源收集非结构化数据。举个例子,它可能涉及编写搜寻器以从网站检索评论。这涉及处理文本,也许以不同的语言处理文本,通常需要大量时间才能完成。

数据整理

例如,一旦从Web检索到数据,就需要以易于使用的格式存储数据。为了继续审阅示例,让我们假设数据是从不同的站点检索的,每个站点都有不同的数据显示。

假设一个数据源根据星级进行评论,因此可以将其作为响应变量y∈{1,2,3,4,5}的映射来读取。另一个数据源使用两个箭头系统提供评论,一个用于上投票,另一个用于下投票。这意味着形式为y∈{positive,negative}的响应变量。

为了合并两个数据源,必须做出决定以使这两个响应表示形式相等。这可以涉及将第一个数据源响应表示形式转换为第二种形式,将一颗星视为负,将五颗星视为正。此过程通常需要大量时间才能以高质量交付。

数据存储

处理完数据后,有时需要将其存储在数据库中。关于这一点,大数据技术提供了许多替代方案。最常见的替代方法是使用Hadoop文件系统进行存储,该存储为用户提供了有限版本的SQL,称为HIVE查询语言。从用户的角度来看,这使得大多数分析任务可以用与传统BI数据仓库中类似的方式完成。其他要考虑的存储选项是MongoDB,Redis和SPARK。

就人力资源知识实施不同体系结构的能力而言,该周期的这一阶段与人力资源知识有关。传统数据仓库的修改版本仍在大规模应用中使用。例如,teradata和IBM提供了可以处理TB级数据的SQL数据库。诸如postgreSQL和MySQL之类的开源解决方案仍在用于大型应用程序。

尽管不同存储在后台的工作方式有所不同,但从客户端来看,大多数解决方案都提供了SQL API。因此,对SQL的深入理解仍然是大数据分析的一项关键技能。

先验阶段似乎是最重要的话题,实际上,这是不正确的。它甚至不是必不可少的阶段。可以实现一个可以处理实时数据的大数据解决方案,因此,在这种情况下,我们只需要收集数据以开发模型,然后就可以实时实现它。因此,根本就不需要正式存储数据。

探索性数据分析

一旦以可以从中获取见解的方式清理并存储了数据,则数据探索阶段是必不可少的。此阶段的目的是了解数据,通常使用统计技术完成此工作并绘制数据。这是评估问题定义是否合理或可行的好阶段。

建模和评估的数据准备

此阶段包括重塑先前获取的清理数据,并对缺失值进行归因,离群值检测,归一化,特征提取和特征选择使用统计预处理。

造型

前一个阶段应该已经产生了一些用于训练和测试的数据集,例如预测模型。这个阶段涉及尝试不同的模型,并期待解决眼前的业务问题。在实践中,通常希望模型能够对业务有所了解。最后,选择最佳模型或模型组合以评估其在遗漏数据集上的性能。

实作

在此阶段,开发的数据产品将在公司的数据管道中实施。这涉及在数据产品运行时设置验证方案,以跟踪其性能。例如,在实施预测模型的情况下,此阶段将涉及将模型应用于新数据,并在响应可用后评估模型。