📜  如何在 PySpark DataFrame 中添加常量列?(1)

📅  最后修改于: 2023-12-03 14:52:29.671000             🧑  作者: Mango

如何在 PySpark DataFrame 中添加常量列?

PySpark DataFrame 可以使用 lit() 方法创建常量列。lit() 方法接受一个参数,参数即为该列的常量值。

以下是一个简单的示例,展示如何将一个常量列添加到 DataFrame 中:

from pyspark.sql.functions import lit

# 创建 DataFrame
df = spark.createDataFrame([(1, "John"), (2, "Jane"), (3, "Bob")], ["id", "name"])

# 添加常量列
df = df.withColumn("age", lit(30))

# 展示 DataFrame
df.show()

这将输出以下结果:

+---+----+---+
| id|name|age|
+---+----+---+
|  1|John| 30|
|  2|Jane| 30|
|  3| Bob| 30|
+---+----+---+

如上述代码所示,使用 withColumn() 方法添加常量列。该方法接受两个参数:列名和列表达式。在这里,列名为“age”,列表达式使用 lit() 方法创建一个常量为 30 的列。

在 DataFrame 中添加常量列是非常有用的操作,可以轻松地查看每行的相同信息。如果您需要添加一个具有相同值的列,请尝试 lit() 方法。