📜  pyspark drop - Python (1)

📅  最后修改于: 2023-12-03 15:18:51.297000             🧑  作者: Mango

PySpark Drop - Python

PySpark是Apache Spark的Python API。 PySpark编程接口使Python程序员能够使用Spark应用程序(包括Spark SQL,Spark Streaming和MLlib)的所有功能。一个普遍任务是从数据集中删除列。本文将介绍如何在PySpark中使用drop()函数从DataFrame中删除列。

DataFrame简介

DataFrame是一种分布式的内存表,它可以容纳具有命名列的不同类型的数据,类似于SQL表或电子表格。DataFrame可以从多种数据来源创建,如结构化数据文件,Hive表,外部数据库(如MySQL,PostgreSQL)和Apache HBase。 DataFrame可以使用各种操作,如选择,筛选,聚合和连接,来处理数据。

Drop()函数

drop()函数用于删除DataFrame中的指定列。 PySpark中的drop()函数采用一个参数,该参数是要删除的列的名称。 如果要删除多个列,则可以传递包含多个列名称的列表。

下面是一个删除单个列名称的示例:

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("PySparkDrop").getOrCreate()
df = spark.read.csv('path/to/file.csv', header=True, inferSchema=True)
df = df.drop('column_name_to_drop')

如果要删除多列名称,则可以使用以下代码:

columns_to_drop = ['column_name_1', 'column_name_2', 'column_name_3']
df = df.drop(*columns_to_drop)
总结

在PySpark中删除列是一个常见的任务。drop()函数是一个方便且易于使用的方法,可以轻松地实现这一任务。 通过drop()函数可以通过给出列名称或列名称列表在DataFrame中删除指定列的信息。