使用PySpark提取功能

📌 相关文章

📜 使用PySpark提取功能

📅 最后修改于: 2021-01-23 05:52:02 🧑 作者: Mango

在本章中，我们将学习PySpark提取功能在敏捷数据科学中的应用。

Spark概述

可以将Apache Spark定义为快速的实时处理框架。它进行计算以实时分析数据。 Apache Spark是作为实时流处理系统引入的，还可以处理批处理。 Apache Spark支持交互式查询和迭代算法。

Spark用“ Scala编程语言”编写。

PySpark可被视为Python与Spark的结合。 PySpark提供了PySpark外壳程序，该外壳程序将Python API链接到Spark核心并初始化Spark上下文。如上一章所述，大多数数据科学家都使用PySpark跟踪功能。

在此示例中，我们将集中于构建名为counts的数据集并将其保存到特定文件的转换。

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

使用PySpark，用户可以使用Python编程语言来处理RDD。内置库涵盖了“数据驱动”文档和组件的基础知识，可为您提供帮助。