四分位数(1) - 芒果文档

📌 相关文章

📜 四分位数(1)

📅 最后修改于: 2023-12-03 15:37:13.176000 🧑 作者: Mango

四分位数

概述

四分位数是统计学中常用的一种描述数据分布情况的方法，通过将数据按大小排序，将数据集分成四部分，可以将数据集划分为四个部分，每一部分包含25%的数据，分别称为第一、二、三、四分位数。

算法

计算第一、二、三分位数

将数据按从小到大的顺序排列。
找到第一分位数 Q₁：即将数据分成两个部分，50%的数据位于中位数以下，50%的数据位于中位数以上。以中位数为分割点，将中位数以下的数据集按从小到大排列，中位数以上的数据集按从小到大排列。Q₁是中位数下方的那个数。
找到第三分位数 Q₃：即将数据分成两个部分，50%的数据位于中位数以上，50%的数据位于中位数以下。以中位数为分割点，将中位数以上的数据集按从小到大排列，中位数以下的数据集按从小到大排列。Q₃是中位数上方的那个数。
找到第二分位数 Q₂：即为数据的中位数。

Python实现

def quartiles(data):
    # 先将数据从小到大排序
    data = sorted(data)

    # 计算中位数
    n = len(data)
    q2 = (data[(n - 1) // 2] + data[n // 2]) / 2

    # 按照上述算法计算Q1和Q3
    lower_half = data[:n // 2]
    upper_half = data[(n + 1) // 2:]
    q1 = (lower_half[(len(lower_half) - 1) // 2] + lower_half[len(lower_half) // 2]) / 2
    q3 = (upper_half[(len(upper_half) - 1) // 2] + upper_half[len(upper_half) // 2]) / 2

    # 返回结果
    return q1, q2, q3

应用场景

四分位数通常用于描述数据的集中趋势和离散程度，尤其是在数据集中存在异常值的情况下。例如，在统计销售额数据时，可能存在极高或极低的销售额，四分位数可以帮助识别这些异常值，并更好地了解销售额的分布情况。

注意事项

计算四分位数时需要将数据按照从小到大的顺序排列，因此在使用时需要注意数据的相对大小关系。此外，四分位数并不能说明所有数据的情况，只是针对一个数据集进行的描述。在进行数据分析时，需要结合其他统计方法，更全面地了解数据。