📜  使用 Hadoop 的数据

📅  最后修改于: 2022-05-13 01:58:08.097000             🧑  作者: Mango

使用 Hadoop 的数据

数据的基本问题
尽管多年来硬盘驱动器的容量限制已经大幅扩展,但速度——从驱动器中读取信息的速度——并没有跟上。一个 1990 年的普通驱动器可以存储 1, 370 MB 的信息,移动速度为 4.4 MB/s,因此人们可以在大约五分钟内阅读完整驱动器中的每一项信息。 20多年过去了,1TB的硬盘是标配,但是交换速度在100MB/s左右,所以每一个盘下的信息都需要两个多小时。
在一个单独的驱动器上仔细阅读所有信息需要相当长的时间——而且写作速度要慢得多。减少时间的明确方法是从无数个圆圈中仔细阅读,不要有片刻的延迟。假设我们有 100 个驱动器,每个驱动器都保存着百分之一的信息。通过并行工作,我们可以在不到两分钟的时间内仔细阅读信息。
仅使用百分之一的印版似乎效率低下。尽管如此,我们可以存储 100 个数据集,每个数据集都是 1 TB,并提供对它们的共享访问。我们可以想象,这样一个框架的客户会很乐意分享访问作为缩短考试时间的最终结果,更重要的是,事实上,他们的考试职业可能会在一段时间后扩散,所以他们不会干涉彼此到了极致。然而,还有完全不同的选择可以平行于不同的板块或从不同的板块仔细阅读和撰写信息。
问题 :

  • 需要解决的主要问题是设备失望:当一个人开始使用大量设备时,一个人的命中率确实很高。避免信息不幸的典型方法是通过复制:框架保留信息的重复副本,以便在失望的情况下,可以访问另一个副本。这就是RAID 的工作方式,例如,尽管事实上 Hadoop 的文件系统,即Hadoop 分布式文件系统 (HDFS)采用了某种独特的方法,您将在后面看到。
  • 第二个问题是,大多数调查错误可能应该以某种方式整合信息,从一个圆圈读取的信息可能会与来自其他 99 个板块中的任何一个的信息合并。

不同的分散框架可以整合来自众多来源的信息,而有效地做到这一点就是众所周知的测试。 MapReduce给出了一个编程模型

  • 编辑作品的问题从板块阅读和撰写
  • 将其更改为对键和质量安排的计算。

与 HDFS 一样,MapReduce 一直在可靠性方面工作。或多或少,这就是 Hadoop 提供的东西:一个可靠的、多功能的容量和检查阶段。此外,因为它一直在项目设备上运行并且是开源的。 Hadoop是合理的。