分位数-分位数图(Quantile-Quantile Plot),简称Q-Q图,是一种分析数据的图形化工具,常用于确定两组数据是否来自共同分布的总体。
这篇文章将从如下几个方面介绍Q-Q图:
①什么是分位数?
②如何绘制Q-Q图?
③什么是正态概率图?(一种特殊的、常用的Q-Q图。)
④正态概率图的参考线
⑤如何识别数据的偏态性
01 什么是分位数
Q-Q图是一组数据的分位数与另一组数据分位数的对比图。在Q-Q图中,「分位数」是一个重要概念。所以,我们先了解下什么是分位数?
分位数,是将概率分布的范围划分为概率相等的连续区间,或以相同方式划分样本中的观测点的值。常用的四分位、十分位和百分位。
1)四分位
假设现有9个数据,从小到大排列如下,现在求其四分位数。
1.1、3.2、4.1、6.5、9.8、10.9、13.2、15.3、16.4 (升序排列)
① 第一四分位数
a.先求秩
共有9个数据,第一四分位的秩为:(9+1)/4=2.25,说明第一四分位数位于第2个和第3个数据之间,也就是在3.2和4.1之间。
b.再求数
知道了第一四分位数的区间,但具体为多少呢?可以使用下面的方法求得:
可见,第一四分位分数是3.875。注意:这个数并不在数据集中。
② 第二四分位数(也就是:中位数)
同样,先求秩为:(9+1)*(2/4)=5。从数据集的开头往下数到第五个数据是9.8,所以第二四分位数是9.8。
③ 第三四分位数
先求秩:(9+1)*(3/4)=7.5,说明数据在第7个数据和第8个数据之间,按照下列方法可求得为:14.25。
2)十分位数
拿标准正态分布来举例。把标准正态分布分成10等分,计算出其Z值。如下图所示。
在标准正态分布中,左侧和右侧相对要矮而宽,而中间部分则是高而窄,但①-⑩区域的面积是一样的,概率是一样的,都等于0.1。所有区域累计起来的概率是1。
其中,第一个十分位数是-1.28,第二个十分位数是-0.84…第九个十分位数是1.28。
3)百分位数
这也是一种常用的方法,计算方法和四分位的计算类似。利用Minitab和Excel很容易求得。
02 如何绘制Q-Q图
Q-Q图由横轴(X轴)和纵轴(Y轴)组成,其中:
横轴(X轴): 第一组样本的数据
纵轴(Y轴):第二组样本的数据
Q-Q图中,不绘制实际的分位数,而是以各自数据为单位来绘制的。但,Q-Q图中的所有点对应的X轴和Y轴的数据,都具相同分位数。
判断两组样本数据是否来自相同总体的判据:所有点落在一条直线上(或非常靠近),那么可以认为两组数据具有相同的分布(来自同一总体)。
下面举例说明。
现在有三组数据。分别是:(以下四个样本都是25个数据)
①从服从标准正态分布N(0,1)的总体中抽取两组大小为25的样本数据,具体为下表蓝色和浅橙色所在列的数据。
②从服从正态分布N(5,3)的总体中抽取一组大小为25的样本数据,具体为下表灰色所在列的数据;
③从服从尺度为0.8,阈值为0的指数分布中抽取一组大小为25的样本数据,具体为下边浅绿色所在列的数据。
注意:以上数据要升序排列。
接下来,制作三组Q-Q图,分别如下:
1)两个标准正态分布(蓝色列、橙色列)的Q-Q图
说明:红色圆圈中点的坐标为(-2.080,-2.441),分别是标准正态分布2和标准正态1中的数据。
从Q-Q图上看,两组数据组成的点还是围绕在一条直线周围,聚集比较紧密,从而可以说明两组样本数据是来自同一分布的。(站在上天的视角,肯定知道他们是来自同一分布,本来就是从同一个分布里抽取的数据,这里只是做验证)
2)标准正态分布1与正态分布(5,3)的Q-Q图
从Q-Q图上看,虽然两组数据形成的点,还是围绕在直线周围,但和图1相比,还是要离散一些。在实务中,除了使用Q-Q图,还是要结合样本数据的均值、方差等描述性统计量一起来判断。
3)标准正态分布1与正态分布(5,3)的Q-Q图
从上图看,两组数据组成的点,虽然围绕在直线周围,远离直线的点较多,可以判断出两组数据不是来自同一总体。
03 什么是正态概率图
正态概率图是一种特殊的Q-Q图。正态概率图主要用于判断某组数据是否服从整改分布。
先看看标准正态分布1(0,1)所在列数据的正态概率图。如下图。
可以看到,与Q-Q图不同的是,正态概率图纵坐标的刻度不再是样本数据的单位,而是以样本中的数据占整个样本的百分比来度量的。其实,这个「百分比」就是累计概率。其主要特点有:
① 刻度不是等分的。Minitab中列示的刻度有:1、5、10、20、30、40、50、60、70、80、90、95、99。(单位:%)
②在百分比为50%的刻度紧密,越远离则刻度越稀疏。为什么会这样呢?这里解释下。
在标准正态分布中,求出累计概率为5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%所对应的Z值,并在正态图中标识出来。
将上图向右旋转90度后,可以看到累计概率值所对应的Z值就是在50%时紧密,而向两端走越稀疏。看下图,不就是正态概率图的纵坐标嘛。
以上,就是正态概率图的纵坐标的内容介绍。
接下来,如果不用Minitab,开始手绘正态概率图。
第一步:将抽样数据升序排列。
第二步:计算累计概率。正态概率图纸是根据标准正态分布来绘制的。在不知道样本数据的分布时,如何求出样本数据所处分布的累计概率呢?在Minitab中,提供了一个计算累计概率的公式:
其中:
① 是数据的秩(排序)
② 是数据的数量
③ 是累计概率,其范围为:0<P≤1
可以发现累计概率与样本大小n和排序a有关。表 1的第1列数据量是25个,即。-2.44124是第一个数据,即a=1。那么,把数据代入后计算如下:
0.0275591就是排秩为1的累计概率。同理,可计算出后续24个数据的累计概率(百分比)(保留三位小数)。
第三步:在正态概率纸中绘图。上表中的「标准正态分布1(0,1)」为X轴,「百分比/累计概率」为Y轴,就可以得到正态概率图。
了解到这儿,工作中可以就足以判断样本是否服从正态分布了。
04 正态概率图的参考线
接下来,了解更深入一点。正态概率图中,有一条红色的直线,问题是:这条红色参考线是怎么得来的?
还记得求样本数据中累计概率的公式(公式1)吗?根据该公式,利用Minitab和Excel可以求得理论Z值。
红色参考线,就是根据上表中「理论Z值」和「百分比/累计概率」绘制得到的。
06 根据正态概率图,判断数据的偏态性
1)样本数据右偏
在Minitab中随机生成以下数据。
根据以上30个数据,绘制直方图(如下),可以发现数据是右偏的(长尾在右侧)。
在Minitab中绘制概率图(如下),可以发现:数据形状是弯曲的,而且是向右偏。(记忆口诀:右弯右偏)
2)样本数据左偏
将表 2中的数据变形后,形成成左偏分布(长尾向左)。其直方图如下:
在Minitab中绘制正态概率图(如下),可以发现:数据形状是弯曲的,而且是向左偏。(记忆口诀:左弯左偏)
最后,相关的Minitab或Excel操作视频有:
① 四分位数、十分位数、百分位数的求法
② 制作三组数据的Q-Q图
③ 求「标准正态分布1(0,1)」的概率图
④ 求累计概率为5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%时的理论Z值
⑤ 已知样本数据,求其累计概率(百分比)
⑥ 把左偏分布转换成右偏分布
以上视频已上传知识星球—「卓越质量笔记」,请加入后自行下载。
最后:
昨天,小林开通了知识星球,叫「卓越质量笔记」。在星球发布的内容有:
① 13年从事质量管理的心得;
② 质量管理体系知识;
③ 六西格玛统计工具在实践中的运用;
④ 质量从业的职业发展;
⑤ 戴明、朱兰、克劳士比、石川磬等质量管理大师的方法论;
⑥ 自己创业故事。
小林在外企、民企、咨询机构从事质量管理工作13年+,有丰富的质量管理和质量咨询经验,我的想法和成长路径,相信对你会有一些启发。