📜  Python| Pandas Dataframe.describe() 方法

📅  最后修改于: 2022-05-13 01:54:36.499000             🧑  作者: Mango

Python| Pandas Dataframe.describe() 方法

Python是一种用于进行数据分析的出色语言,主要是因为以数据为中心的Python包的奇妙生态系统。 Pandas就是其中之一,它使导入和分析数据变得更加容易。

Pandas describe()用于查看数据框或一系列数值的一些基本统计细节,如百分位数、平均值、标准差等。当此方法应用于一系列字符串时,它会返回不同的输出,如下例所示。

要下载以下示例中使用的数据集,请单击此处。
在以下示例中,使用的数据框包含一些 NBA 球员的数据。下面附上任何操作之前的数据帧图像。

示例 #1:用对象和数字数据类型描述数据框

在此示例中,描述了数据框,并将 ['object'] 传递给包含参数以查看对象系列的描述。 [.20, .40, .60, .80] 被传递给 percentile 参数以查看数字系列的各个百分位数。

# importing pandas module 
import pandas as pd 
  
# importing regex module
import re
    
# making data frame 
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv") 
    
# removing null values to avoid errors 
data.dropna(inplace = True) 
  
# percentile list
perc =[.20, .40, .60, .80]
  
# list of dtypes to include
include =['object', 'float', 'int']
  
# calling describe method
desc = data.describe(percentiles = perc, include = include)
  
# display
desc

输出:
如输出图像所示,数据帧的统计描述与各自通过的百分位数一起返回。对于带有字符串的列,为数值运算返回 NaN。
示例 #2:描述一系列字符串

在此示例中,名称列调用 describe 方法以查看对象数据类型的行为。

# importing pandas module 
import pandas as pd 
  
# importing regex module
import re
    
# making data frame 
data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv") 
    
# removing null values to avoid errors 
data.dropna(inplace = True) 
  
# calling describe method
desc = data["Name"].describe()
  
# display
desc

输出:
如输出图像所示, describe() 的行为与一系列字符串不同。
在这种情况下,返回了不同的统计信息,例如值计数、唯一值、顶部和出现频率。