如何选择DataFrame的子集？

在本文中，我们将讨论如何从 DataFrame 中选择列和行的子集。我们将使用 nba.csv 数据集来执行所有操作。

Python3

# import required module
import pandas as pd
 
# assign dataframe
data = pd.read_csv("nba.csv")
 
# display dataframe
data.head()

Python3

# import required module
import pandas as pd
 
# assign dataframe
data = pd.read_csv("nba.csv")
 
# get a single columns
ages = data["Age"]
 
# display the column
ages.head()

Python3

# import required module
import pandas as pd
 
# assign dataframe
data = pd.read_csv("nba.csv")
 
# get a single columns
name_sex = data[["Name","Age"]]
 
# display the column
name_sex.head()

Python3

# importing pandas library
import pandas as pd
 
# reading csv file
data = pd.read_csv("nba.csv")
 
# subset of dataframe
above_25 = data[data["Age"] > 35]
 
# display subset
print(above_25.head())

Python3

# importing pandas library
import pandas as pd
 
# reading csv file
data = pd.read_csv("nba.csv")
 
# subset of dataframe
adults = data.loc[data["Age"] > 25, "Name"]
 
# display susbset
print(adults.head())

输出：

以下是我们可以为给定数据帧选择子集的各种操作：

从数据框中选择特定列

要选择单列，我们可以使用方括号 [ ]：

蟒蛇3

# import required module
import pandas as pd
 
# assign dataframe
data = pd.read_csv("nba.csv")
 
# get a single columns
ages = data["Age"]
 
# display the column
ages.head()

输出：

从数据框中选择多列

我们可以在方括号 [] 中传递一个列名列表来获得多个列：

蟒蛇3

# import required module
import pandas as pd
 
# assign dataframe
data = pd.read_csv("nba.csv")
 
# get a single columns
name_sex = data[["Name","Age"]]
 
# display the column
name_sex.head()

输出：

从数据框中选择行的子集

要在给定数据集中选择 25 岁以上的人的行，我们可以将条件放在括号内以根据条件选择特定的行。

蟒蛇3

# importing pandas library
import pandas as pd
 
# reading csv file
data = pd.read_csv("nba.csv")
 
# subset of dataframe
above_25 = data[data["Age"] > 35]
 
# display subset
print(above_25.head())

输出：

选择行和列组合的子集

在这种情况下，一次性完成所有行和列的子集，现在选择 [] 是不够的。需要loc或iloc运算符。逗号前的部分是您选择的行，逗号后的部分是您要使用loc或iloc选择的列。这里我们只选择 25 岁以上的人的名字。

蟒蛇3

# importing pandas library
import pandas as pd
 
# reading csv file
data = pd.read_csv("nba.csv")
 
# subset of dataframe
adults = data.loc[data["Age"] > 25, "Name"]
 
# display susbset
print(adults.head())

输出：