📅  最后修改于: 2023-12-03 14:45:52.768000             🧑  作者: Mango
PySpark 是 Apache Spark 的 Python 接口,是大数据处理中常用的工具之一。在 PySpark 中,可使用 DataFrame 和 RDD 两种数据结构操作数据集。
在 PySpark 中,如需打印 DataFrame 中的某一列,可使用 select
函数并指定列名,随后使用 show
函数打印出来。
# 导入 PySpark 模块
from pyspark.sql import SparkSession
# 创建 SparkSession
spark = SparkSession.builder.appName("Print Column").getOrCreate()
# 创建 DataFrame
data = [("Alice", 22, "female"), ("Bob", 25, "male"), ("Charlie", 30, "male")]
df = spark.createDataFrame(data, ["name", "age", "gender"])
# 打印 'age' 列
df.select("age").show()
输出:
+---+
|age|
+---+
| 22|
| 25|
| 30|
+---+
需要注意的是,show
函数默认打印前 20 行数据,如需打印全部数据,可使用 show
函数的 truncate
参数将其设为 False
。
# 打印 'age' 列全部数据
df.select("age").show(truncate=False)
输出:
+---+
|age|
+---+
| 22|
| 25|
| 30|
+---+