📜  使用PySpark提取功能

📅  最后修改于: 2021-01-23 05:52:02             🧑  作者: Mango


在本章中,我们将学习PySpark提取功能在敏捷数据科学中的应用。

Spark概述

可以将Apache Spark定义为快速的实时处理框架。它进行计算以实时分析数据。 Apache Spark是作为实时流处理系统引入的,还可以处理批处理。 Apache Spark支持交互式查询和迭代算法。

Spark用“ Scala编程语言”编写。

PySpark可被视为Python与Spark的结合。 PySpark提供了PySpark外壳程序,该外壳程序将Python API链接到Spark核心并初始化Spark上下文。如上一章所述,大多数数据科学家都使用PySpark跟踪功能。

在此示例中,我们将集中于构建名为counts的数据集并将其保存到特定文件的转换。

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

使用PySpark,用户可以使用Python编程语言来处理RDD。内置库涵盖了“数据驱动”文档和组件的基础知识,可为您提供帮助。