Pandas Groupby 和计算中位数
Python中的 Pandas 被称为最流行和最强大的数据分析工具。这是因为 Pandas 的功能之美以及处理大型数据集的集合和子集的能力。因此,在本文中,我们将研究 pandas Group By 功能如何工作并在处理大型数据集时节省大量精力。此外,我们将使用 Pandas Group By 和 Median 功能解决实际问题。
熊猫 groupby()
pandas 中的 groupby() 方法将数据集拆分为子集以使计算更容易。通常,groupby() 会拆分数据,应用功能,然后为我们组合结果。让我们举个例子,如果我们有不同国家的酒精消费数据,并且我们想对大陆进行数据分析,这个问题可以使用 pandas 中的 groupby() 方法最小化。它按大洲拆分数据并使用median() 方法计算中位数。
句法 :
DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=
示例 1 :在给定的数据集上查找大陆酒精消费的中位数。
数据集: Drinksbycountry.csv
Python3
# import the packages
import pandas as pd
# read Dataset
data = pd.read_csv("drinksbycountry.csv")
data.head()
# perform groupby on continent and find median
# of total_litres_of_pure_alcohol
data.groupby(["continent"])["total_litres_of_pure_alcohol"].median()
# perform groupby on continent and find median
# of wine_serving
data.groupby(["continent"])["wine_servings"].median()
Python3
# import packages
import pandas as pd
# read Dataset
data = pd.read_csv("WorldPopulationByAge2020.csv")
data.head()
# perform group by AgeGrp and find median
data.groupby(["AgeGrp"])["PopTotal"].median()
输出 :
示例 2:在给定数据集上按年龄查找总人口组的中位数。
数据集: WorldPopulationByAge2020.csv
蟒蛇3
# import packages
import pandas as pd
# read Dataset
data = pd.read_csv("WorldPopulationByAge2020.csv")
data.head()
# perform group by AgeGrp and find median
data.groupby(["AgeGrp"])["PopTotal"].median()
输出 :