从元组列表创建 PySpark DataFrame(1)

📌 相关文章

📜 从元组列表创建 PySpark DataFrame(1)

📅 最后修改于: 2023-12-03 15:36:16.254000 🧑 作者: Mango

从元组列表创建 PySpark DataFrame

PySpark是Apache Spark的Python API，它提供了一个快速、可扩展的开发框架来处理大型数据集。在PySpark中，DataFrame是一种基本的数据结构，它类似于关系数据库中的表格，可以轻松地在分布式环境中进行处理和操作。

在本文中，我们将介绍如何从元组列表创建PySpark DataFrame。元组列表是一种常见的数据结构，它由多个元组组成，每个元组包含一个或多个数据项。在PySpark中，我们可以使用SparkSession.createDataFrame方法来将元组列表转换为DataFrame。

以下是从元组列表创建DataFrame的示例代码：

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.appName("TupleToListDF").getOrCreate()

# 定义元组列表
data = [("John", 25), ("Lisa", 27), ("Sam", 30)]

# 将元组列表转换为DataFrame
df = spark.createDataFrame(data, ['Name', 'Age'])

# 显示DataFrame内容
df.show()

在上述示例代码中，我们首先导入了SparkSession。然后，我们使用SparkSession.builder方法创建一个新的SparkSession对象，并指定应用程序的名称。接下来，我们定义了一个名为data的元组列表，其中包含三个元组，每个元组包含两个数据项：名字和年龄。

最后，我们使用SparkSession.createDataFrame方法将元组列表转换为DataFrame。我们向该方法传递两个参数：元组列表和列名列表。列名列表是可选的，但如果指定，则必须与元组中的数据项数量相同。在本例中，我们将列名列表指定为["Name", "Age"]。

最后，我们使用df.show()方法显示DataFrame的内容。show()方法默认显示前20行数据。

以下是DataFrame的输出结果：

+----+---+
|Name|Age|
+----+---+
|John| 25|
|Lisa| 27|
| Sam| 30|
+----+---+

在实际工作中，元组列表可能来自不同的数据源，例如文本文件、数据库或其他数据存储。无论数据源如何，PySpark DataFrame提供了一种方便、轻松的方法来处理和操作数据。