如何在 PySpark DataFrame 中添加常量列？(1)

📌 相关文章

📜 如何在 PySpark DataFrame 中添加常量列？(1)

📅 最后修改于: 2023-12-03 14:52:29.671000 🧑 作者: Mango

如何在 PySpark DataFrame 中添加常量列？

PySpark DataFrame 可以使用 lit() 方法创建常量列。lit() 方法接受一个参数，参数即为该列的常量值。

以下是一个简单的示例，展示如何将一个常量列添加到 DataFrame 中：

from pyspark.sql.functions import lit

# 创建 DataFrame
df = spark.createDataFrame([(1, "John"), (2, "Jane"), (3, "Bob")], ["id", "name"])

# 添加常量列
df = df.withColumn("age", lit(30))

# 展示 DataFrame
df.show()

这将输出以下结果：

+---+----+---+
| id|name|age|
+---+----+---+
|  1|John| 30|
|  2|Jane| 30|
|  3| Bob| 30|
+---+----+---+

如上述代码所示，使用 withColumn() 方法添加常量列。该方法接受两个参数：列名和列表达式。在这里，列名为“age”，列表达式使用 lit() 方法创建一个常量为 30 的列。

在 DataFrame 中添加常量列是非常有用的操作，可以轻松地查看每行的相同信息。如果您需要添加一个具有相同值的列，请尝试 lit() 方法。