📜  用于数据分析的不同数据源

📅  最后修改于: 2021-10-19 05:03:13             🧑  作者: Mango

数据收集是获取、收集、提取和存储海量数据的过程,这些数据可能是结构化或非结构化的形式,如文本、视频、音频、XML 文件、记录或其他用于后期数据的图像文件分析。
在大数据分析过程中,“数据收集”是开始分析数据中的模式或有用信息之前的第一步。要分析的数据必须从不同的有效来源收集。

数据分析的不同数据源

收集到的数据被称为原始数据,现在没有用,但在清除不纯数据并利用该数据进行进一步分析形成信息时,获得的信息被称为“知识”。知识有很多含义,如商业知识或企业产品的销售、疾病治疗等。数据收集的主要目标是收集信息丰富的数据。

数据收集首先要问一些问题,例如要收集什么类型的数据以及收集的来源是什么。收集的大部分数据有两种类型,称为“定性数据”,它是一组非数字数据,例如单词、句子,主要集中在该组的行为和动作上,另一种是“定量数据”,它以数字表示可以使用不同的科学工具和抽样数据进行计算。

然后将实际数据主要分为两种类型:

  1. 主要数据
  2. 二手数据

数据分析中的数据划分

1.主要数据:

原始数据、原始数据和直接从官方来源提取的数据称为原始数据。此类数据是通过执行问卷、访谈和调查等技术直接收集的。收集的数据必须根据进行分析的目标受众的需求和要求,否则将成为数据处理的负担。

收集原始数据的几种方法:

一、面试方式:

在这个过程中收集的数据是通过一个叫做采访者的人采访目标受众而得到的,回答采访的人被称为被采访者。一些基本的业务或产品相关问题以笔记、音频或视频的形式被询问和记录下来,这些数据被存储以供处理。这些可以是结构化的和非结构化的,例如个人访谈或通过电话、面对面、电子邮件等进行的正式访谈。

2、调查方法:

调查方法是研究过程,其中提出一系列相关问题,并以文本、音频或视频的形式记录答案。调查方法可以通过网站表格和电子邮件等在线和离线模式获得。然后存储调查答案以分析数据。例如在线调查或通过社交媒体民意调查进行的调查。

3、观察方法:

观察法是研究人员利用某种数据收集工具敏锐地观察目标受众的行为和实践,并将观察到的数据以文本、音频、视频或任何原始格式的形式存储的一种数据收集方法。在这种方法中,数据是通过向参与者发布一些问题来直接收集的。例如,观察一组客户及其对产品的行为。获得的数据将被发送进行处理。

4、实验方法:

实验方法是通过进行实验、研究和调查来收集数据的过程。最常用的实验方法是CRD、RBD、LSD、FD。

  • CRD-完全随机化设计是一种简单的实验设计,用于基于随机化和复制的数据分析。它主要用于比较实验。
  • RBD-随机块设计是一种实验设计,其中将实验分成称为块的小单元。对每个块进行随机实验,并使用称为方差分析 (ANOVA) 的技术绘制结果。 RBD 起源于农业部门。
  • LSD – 拉丁方设计是一种实验设计,类似于 CRD 和 RBD 块,但包含行和列。它是 NxN 正方形的排列,具有相等数量的行和列,其中包含仅在一行中出现一次的字母。因此,可以通过实验中较少的错误轻松找到差异。数独游戏是拉丁方格设计的一个例子。
  • FD- 因子设计是一种实验设计,其中每个实验都有两个因子,每个因子都有可能的值,并且在执行试验时会推导出其他组合因子。

2. 二手资料:

二手数据是已经收集并再次用于某些有效目的的数据。这种类型的数据以前是从原始数据中记录下来的,它有两种类型的来源,称为内部来源和外部来源。

内部来源:

这些类型的数据可以在组织内轻松找到,例如市场记录、销售记录、交易、客户数据、会计资源等。获取内部资源的成本和时间消耗较少。

外部源:

在内部组织中无法找到而可以通过外部第三方资源获得的数据是外部源数据。成本和时间消耗更多,因为它包含大量数据。外部来源的例子有政府出版物、新闻出版物、印度注册总署、规划委员会、国际劳工局、辛迪加服务和其他非政府出版物。

其他来源:

  • 传感器数据:随着物联网设备的进步,这些设备的传感器收集可用于传感器数据分析的数据,以跟踪产品的性能和使用情况。
  • 卫星数据:卫星每天通过监控摄像头收集大量 TB 级的图像和数据,可用于收集有用的信息。
  • 网络流量:由于互联网设施快速且廉价,用户在不同平台上上传的多种格式的数据都可以在用户许可的情况下进行预测和收集,以进行数据分析。搜索引擎还通过主要搜索的关键字和查询提供他们的数据。