标准差图
标准偏差图用于检查不同组数据之间是否存在偏差。这些组可以手动生成,也可以根据数据集的某些属性来决定。
标准偏差图可以由以下组成:
- 纵轴:组标准差
- 水平轴:组标识符/组标签。
在整体标准偏差之间绘制了一条参考直线。
标准差图用于回答以下问题:
- 变异有变化吗?
- 变化的变化幅度是多少?
- 变异的转变是否有任何明显的模式?
标准差图通常用于度量尺度,同样的尺度度量也可用于求平均绝对图和平均偏差图。这些图在识别异常值方面也提供了更好的准确性。
标准差图的用途
- 标准偏差图通常用于测量尺度,同样的尺度测量也可以通过均值绝对图和平均偏差图找到。这些图在识别异常值方面也提供了更好的准确性。
- 许多分析(例如 1 因子分析)中的一个常见假设是,不同水平的因子变量的方差相同。可以使用标准偏差图来验证这一点。
- 我们还可以通过将数据划分为相等大小的分区并为每个分区绘制方差来验证单变量数据的恒定方差假设。
执行
- 在这个实现中,我们使用来自 Kaggle 的德里天气数据集。数据集的链接可以在这里找到
Python3
# import necessary modeules
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
sns.set_style('darkgrid')
%matplotlib inline
sns.mpl.rcParams['figure.figsize'] = (10.0, 8.0)
# read weather dataset
df =pd.read_csv('weather.csv')
# remove the hours and minutes from time to keep date only
df['datetime_utc'] = pd.to_datetime(df['datetime_utc']).dt.date
df.head()
# group by dataframe into months, calculate standard deviation,
# and sort them in chronological order
month_Df =df.groupby(df['datetime_utc'].dt.strftime('%B'))[" _tempm"].std()
new_order = ['January', 'February', 'March', 'April', 'May', 'June', 'July',
'August', 'September', 'October', 'November', 'December']
month_Df=month_Df.reindex(new_order)
month_Df
# plot scatterplot of the standard deviation (standard deviation plot)
graph =sns.scatterplot(y= month_Df.values, x= month_Df.index)
graph.axhline(df[" _tempm"].std(), color='red')
plt.show()
datetime_utc _conds _dewptm _fog _hail _heatindexm _hum _precipm _pressurem _rain _snow _tempm _thunder _tornado _vism _wdird _wdire _wgustm _windchillm _wspdm
0 1996-11-01 Smoke 9.0 0 0 NaN 27.0 NaN 1010.0 0 0 30.0 0 0 5.0 280.0 West NaN NaN 7.4
1 1996-11-01 Smoke 10.0 0 0 NaN 32.0 NaN -9999.0 0 0 28.0 0 0 NaN 0.0 North NaN NaN NaN
2 1996-11-01 Smoke 11.0 0 0 NaN 44.0 NaN -9999.0 0 0 24.0 0 0 NaN 0.0 North NaN NaN NaN
3 1996-11-01 Smoke 10.0 0 0 NaN 41.0 NaN 1010.0 0 0 24.0 0 0 2.0 0.0 North NaN NaN NaN
4 1996-11-01 Smoke 11.0 0 0 NaN 47.0 NaN 1011.0 0 0 23.0 0 0 1.2 0.0 North NaN NaN 0.0
datetime_utc
April 5.817769
August 2.928722
December 5.288852
February 5.404892
January 4.646874
July 3.394908
June 4.520245
March 5.905230
May 5.441476
November 5.556417
October 4.930381
September 3.437260
Name: _tempm, dtype: float64
执行
- NIST 笔记本