📜  从元组列表创建 PySpark DataFrame(1)

📅  最后修改于: 2023-12-03 15:36:16.254000             🧑  作者: Mango

从元组列表创建 PySpark DataFrame

PySpark是Apache Spark的Python API,它提供了一个快速、可扩展的开发框架来处理大型数据集。在PySpark中,DataFrame是一种基本的数据结构,它类似于关系数据库中的表格,可以轻松地在分布式环境中进行处理和操作。

在本文中,我们将介绍如何从元组列表创建PySpark DataFrame。元组列表是一种常见的数据结构,它由多个元组组成,每个元组包含一个或多个数据项。在PySpark中,我们可以使用SparkSession.createDataFrame方法来将元组列表转换为DataFrame。

以下是从元组列表创建DataFrame的示例代码:

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.appName("TupleToListDF").getOrCreate()

# 定义元组列表
data = [("John", 25), ("Lisa", 27), ("Sam", 30)]

# 将元组列表转换为DataFrame
df = spark.createDataFrame(data, ['Name', 'Age'])

# 显示DataFrame内容
df.show()

在上述示例代码中,我们首先导入了SparkSession。然后,我们使用SparkSession.builder方法创建一个新的SparkSession对象,并指定应用程序的名称。接下来,我们定义了一个名为data的元组列表,其中包含三个元组,每个元组包含两个数据项:名字和年龄。

最后,我们使用SparkSession.createDataFrame方法将元组列表转换为DataFrame。我们向该方法传递两个参数:元组列表和列名列表。列名列表是可选的,但如果指定,则必须与元组中的数据项数量相同。在本例中,我们将列名列表指定为["Name", "Age"]。

最后,我们使用df.show()方法显示DataFrame的内容。show()方法默认显示前20行数据。

以下是DataFrame的输出结果:

+----+---+
|Name|Age|
+----+---+
|John| 25|
|Lisa| 27|
| Sam| 30|
+----+---+

在实际工作中,元组列表可能来自不同的数据源,例如文本文件、数据库或其他数据存储。无论数据源如何,PySpark DataFrame提供了一种方便、轻松的方法来处理和操作数据。