pyspark drop - Python (1)

📌 相关文章

📜 pyspark drop - Python (1)

📅 最后修改于: 2023-12-03 15:18:51.297000 🧑 作者: Mango

PySpark Drop - Python

PySpark是Apache Spark的Python API。 PySpark编程接口使Python程序员能够使用Spark应用程序（包括Spark SQL，Spark Streaming和MLlib）的所有功能。一个普遍任务是从数据集中删除列。本文将介绍如何在PySpark中使用drop()函数从DataFrame中删除列。

DataFrame简介

DataFrame是一种分布式的内存表，它可以容纳具有命名列的不同类型的数据，类似于SQL表或电子表格。DataFrame可以从多种数据来源创建，如结构化数据文件，Hive表，外部数据库（如MySQL，PostgreSQL）和Apache HBase。 DataFrame可以使用各种操作，如选择，筛选，聚合和连接，来处理数据。

Drop()函数

drop()函数用于删除DataFrame中的指定列。 PySpark中的drop()函数采用一个参数，该参数是要删除的列的名称。如果要删除多个列，则可以传递包含多个列名称的列表。

下面是一个删除单个列名称的示例：

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("PySparkDrop").getOrCreate()
df = spark.read.csv('path/to/file.csv', header=True, inferSchema=True)
df = df.drop('column_name_to_drop')

如果要删除多列名称，则可以使用以下代码：

columns_to_drop = ['column_name_1', 'column_name_2', 'column_name_3']
df = df.drop(*columns_to_drop)

总结

在PySpark中删除列是一个常见的任务。drop()函数是一个方便且易于使用的方法，可以轻松地实现这一任务。通过drop()函数可以通过给出列名称或列名称列表在DataFrame中删除指定列的信息。