📜  pyspark 过滤器 isNotNull (1)

📅  最后修改于: 2023-12-03 15:04:02.203000             🧑  作者: Mango

PySpark过滤器isNotNull

在PySpark中,我们可以使用isNotNull方法筛选出数据框中不为空的行,这对于数据清洗和转换非常有用。

语法

下面是isNotNull方法的基本语法:

DataFrame.filter(col(column_name).isNotNull())

其中,col(column_name)用于访问数据框中的列,isNotNull()方法则用于筛选不为空的行。

示例

假设我们有以下的数据框:

+----+-------+----+
| id | name  | age |
+----+-------+----+
| 1  | Alice | 30 |
| 2  |  Bob  |    |
| 3  |  Eve  | 25 |
| 4  |       | 28 |
+----+-------+----+

我们可以使用isNotNull方法来筛选出不为空的行:

from pyspark.sql.functions import col

df.filter(col('name').isNotNull() & col('age').isNotNull())

筛选结果如下:

+----+-------+----+
| id | name  | age |
+----+-------+----+
| 1  | Alice | 30 |
| 3  |  Eve  | 25 |
+----+-------+----+
总结

isNotNull方法是PySpark中非常有用的过滤器方法,可以帮助我们筛选出不为空的行,避免数据清洗和转换过程中的错误。