📜  单变量分析 (1)

📅  最后修改于: 2023-12-03 15:07:20.916000             🧑  作者: Mango

单变量分析

简介

单变量分析是指使用单个变量(或称因子)对不同样本数据进行分析的方法。它是数据分析中最基础的一种方法,通过对单个变量的探索,可以帮助我们了解数据的基本情况,以及在不同因子下的变化趋势和差异。

常见的单变量分析方法
1. 直方图

直方图通过将数据分成若干个区间,然后统计每个区间内的数据的个数或频率来展现数据的分布情况。通常,直方图的横轴表示数据所在区间的范围,纵轴表示样本的数量或频率。

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# 创建数据
data = pd.Series([1, 2, 3, 4, 4, 4, 5, 6, 6, 7, 7, 7, 7, 8, 9, 10])

# 绘制直方图
sns.histplot(data, kde=False)

plt.show()
2. 箱线图

箱线图是一种展示数据分布情况和异常值的方法,它主要用于比较不同因子下的数据的分布情况和异常值。箱线图由五个部分组成:最小值,下四分位数(Q1),中位数,上四分位数(Q3),最大值和异常值。

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# 创建数据
data = pd.DataFrame({'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 
                     'B': [5, 4, 3, 2, 1, 10, 9, 8, 7, 6]})

# 绘制箱线图
sns.boxplot(data=data)

plt.show()
3. 密度图

密度图是一种用于展示数据分布情况的方法,它通过连续的曲线来表示数据的密度情况,从而更直观地展现数据的分布情况,通常和直方图一起使用。

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# 创建数据
data = pd.Series([1, 2, 3, 4, 4, 4, 5, 6, 6, 7, 7, 7, 7, 8, 9, 10])

# 绘制密度图
sns.kdeplot(data, shade=True)

plt.show()
总结

单变量分析是数据分析中最基础、常用的方法之一,它通过对单个变量的探索,帮助我们了解数据的基本情况和在不同因子下的变化趋势和差异。常见的单变量分析方法包括直方图、箱线图和密度图等,我们可以根据具体情况选择合适的方法进行分析。