📌  相关文章
📜  pyspark 打印一列 (1)

📅  最后修改于: 2023-12-03 14:45:52.768000             🧑  作者: Mango

PySpark 打印一列

PySpark 是 Apache Spark 的 Python 接口,是大数据处理中常用的工具之一。在 PySpark 中,可使用 DataFrame 和 RDD 两种数据结构操作数据集。

在 PySpark 中,如需打印 DataFrame 中的某一列,可使用 select 函数并指定列名,随后使用 show 函数打印出来。

# 导入 PySpark 模块
from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder.appName("Print Column").getOrCreate()

# 创建 DataFrame
data = [("Alice", 22, "female"), ("Bob", 25, "male"), ("Charlie", 30, "male")]
df = spark.createDataFrame(data, ["name", "age", "gender"])

# 打印 'age' 列
df.select("age").show()

输出:

+---+
|age|
+---+
| 22|
| 25|
| 30|
+---+

需要注意的是,show 函数默认打印前 20 行数据,如需打印全部数据,可使用 show 函数的 truncate 参数将其设为 False

# 打印 'age' 列全部数据
df.select("age").show(truncate=False)

输出:

+---+
|age|
+---+
| 22|
| 25|
| 30|
+---+