pyspark 打印一列 (1)

📌 相关文章

📜 pyspark 打印一列 (1)

📅 最后修改于: 2023-12-03 14:45:52.768000 🧑 作者: Mango

PySpark 打印一列

PySpark 是 Apache Spark 的 Python 接口，是大数据处理中常用的工具之一。在 PySpark 中，可使用 DataFrame 和 RDD 两种数据结构操作数据集。

在 PySpark 中，如需打印 DataFrame 中的某一列，可使用 select 函数并指定列名，随后使用 show 函数打印出来。

# 导入 PySpark 模块
from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder.appName("Print Column").getOrCreate()

# 创建 DataFrame
data = [("Alice", 22, "female"), ("Bob", 25, "male"), ("Charlie", 30, "male")]
df = spark.createDataFrame(data, ["name", "age", "gender"])

# 打印 'age' 列
df.select("age").show()

输出：

+---+
|age|
+---+
| 22|
| 25|
| 30|
+---+

需要注意的是，show 函数默认打印前 20 行数据，如需打印全部数据，可使用 show 函数的 truncate 参数将其设为 False。

# 打印 'age' 列全部数据
df.select("age").show(truncate=False)

输出：

+---+
|age|
+---+
| 22|
| 25|
| 30|
+---+