概率分布分位点_分位数与QQ图

news/2024/7/4 13:26:01

常说的QQ图究竟是怎么来的,QQ图有何意义。今天我们来了解QQ图~

1.基础知识

  • 分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。在实际运用中,可以根据数据的情况,确定其他的分位数,如七分位数、八分位数等等。

  • 四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。

    • 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
    • 第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
    • 第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
    • 第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。

2.分位数计算简单举例

50%分位数:如测量15个基因的表达水平。在中位值将数据平均分成2份,50%基因的表达量高于该值,50%基因的表达量低于该值。故中位值为分位数,可将它标记为0.5或50%分位数。计算得出中位数值为4.5,故50%(0.5)分位数的值为4.5。

7eae753eeddd769e3cfdd25dabf5a9db.png

25%和75%分位数:在中位数值的基础上,继续添加两个值,将数据进行四等分。新添加的值也是分位数,因为其将数据平均分为4份。较小四分位数(最小的一个值)2.5为25%(0.25)分位数,因为25%的数据小于2.5;较大四分位数(最大的一个值)7.3位75%(0.75)分位数,因为75%的数据小于7.3。

4e9c5eadcb7a8ad972f1f7cf79b3cf8b.png

综合以上,我们可以进行简单总结:将数据等分的数值为分位数,它们可将数据进行2等分、3等分、4等分......百分位数(percentile)将数据100等分

R中quantile()函数提供了9中计算分位数的方法,各方法得出的结论是否相似与样本含量有关。

具体而言,如果是小样本量的数据,9种方法得出的结果可能有较大的差别;如果是大样本量的数据,9种方法得出的结果可能非常相似。

3. 分位数与QQ图

在实际运用中,分位数的运用非常灵活,且不同分位数之间可以具有相同的意义。

  • 尽管在只有15个数据的样本中,我们仍然能将数据平均分成100份,中位数值为50%分位数,较小四分位数为25%分位数,较大四分位数对75%分位数。

  • 分位数往往取决于数据本身。例如在只有15个数据的样本中,我们可以将数据平均分为15份,不同等分位点值表示不同的分位数值(如下)。b4cbadcfb41c19e7a34ccf0775056740.png

基于分位数的性质,我们可以利用QQ-plot(分位数-分位数图)探究一组数据的分布类型,也可以探究两组数据的分布类型是否一致。

探究数据属于何种分布

  • 探究数据属于哪种分布,可以使用QQplot进行探究。例如我们测量15个基因的表达水平,想要探究它属于哪一种分布。首先探究15个基因的表达水平是否属于正态分布:
    • 第一步:绘制数据中每一个基因表达水平的分位数(十五分位数)。d68377423d8a10ac6f3cae4e802f7536.png

    • 第二步:任意绘制一个标准正态分布曲线。99b28b870f2a31a07710f1a58b7456a0.png

    • 第三步:在标准正态分布曲线上绘制与已知数据数量相同的分位数(十五分位数)。对于正态分布曲线,将其等分为15份,表示每一区间内发生的概率相等。因为中间数据发生的可能性更大,故中间数据对应的区间较窄,两边数据对应的区间较宽。2f1d376072d83c12fc42d2d7a5058831.png

    • 第四步:绘制QQ-plot。QQ-plot为二维图,其中正态分布分位数(Normal Quantiles)来自正态分布(x轴)数据分位数(Data quantiles)来自真实数据(y轴)正态分布与未知分布数据分位数值一一对应,将对应结果绘制在QQ-plot中。下图展示1/15分位数值绘制的过程(正态分布的1/15分位数值与真实数据的1/15分位数数值组成第一个点),其他分位数的绘制方式与之相同。e5c577835e978cf74843e9feb84269df.png

    • 第五步:对新的数据进行直线拟合如果未知数据为正态分布,那么大多数的点应该位于直线上。在此案例中,直线对该新数据的拟合效果并不是很好(如下图,右下位置),故这15个基因表达水平量的分布不太可能是正态分布。e4b2afa08d4ca24254386d77a3eac5c3.png

因为这15个基因的表达水平不太可能是正态分布,故接着探究15个基因的表达水平是否属于均匀分布将假设中的正态分布换成均匀分布,余探究的方法同前,最后得到均匀分布与位置分布数据的QQ-plot(如下图,右下位置)对新数据进行直线拟合,发现大多数数据位于拟合直线上,故我们可以认为这15个基因表达水平的数据属于均匀分布。

最后,得出结论:与正态分布的QQ-plot相比,我们也更有理由认为这15个基因表达水平的数据属于均匀分布。

8e4896e3e1ab9fce6cb6513105235c7e.png

探究两组数据的分布是否一致

探索两组数据的分布是否一致,也可以采用QQ图。例如我们一组数据仍然为15个基因的表达水平,另有一组数据仅含4个基因表达水平,我们想要探究这两组数据的分布是否一致。

  • 将假设的某种分布类型换成新数据的分位数值,其余步骤同前,对QQ-plot中的结果进行直线拟合。如果大部分数据位于拟合直线上,说明二者的分布类型一致,相反则分布类型不一样。9c0434a1a75b20d1ade7f669cb946591.png

以上展示的是在2组具有少量数据时,探究二者分布类型是否一致。当2组数据更多时,探究二者分布类型是否一致的原理与之相同,我们将会在更多数据中得到更多的分位数和更多的结论。

4.小结

今天和大家一起学习了分位数,及分位数的重要应用——QQ图。相信大家会对熟悉而陌生的QQ图有了更加深刻的印象,在自己的研究数据中能够更加有主见地判断数据分布类型。

参考视频:

1.https://www.youtube.com/watch?v=IFKQLDmRK0Y&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=32

2.https://www.youtube.com/watch?v=okjYjClSjOg&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=33

编辑:吕琼

校审:罗鹏

f20f2322f449aeacb06c8802dceaab87.png


http://www.niftyadmin.cn/n/604163.html

相关文章

TVB十大女星比美十大名花

1、兰花:宣萱折茎聊可佩,入室自成芳。萱宣的美正如兰花的香,虽然淡淡但是持久。从“宠物情缘”到寻秦记再到“憨夫成龙”,她的每部戏总是那么的深入人心,令人回味。大多数男性的TVBfans可能更喜欢她,因为她…

idea 连接云mysql_idea配置MySQL数据库异常处理

配置MySQL数据库过程中经常出现的问题,在这里给大家说一下idea配置MySQL数据库页面常见问题一:数据库驱动driver-class-name设置错误MySQL数据库之前用的比较多的时MySQL5.6/5.7版本,再后来就是现在用的比较多的MySQL8.0.*的版本两个版本的驱…

假期安排计划

7.18到8.18是学校规定的假期。 我按照往常的习惯,还是不回家了。 必须给这个假期订立一个计划,否则会过得浑浑噩噩。 基本指导原则是: 按时作息,工作学习不要过度,当然休闲也要适当。 具体的计划: 7:30起床,8:00之…

我的世界java版gamemode指令_【服务器相关】【求助!】关于服务器中使用gamemode等命令错误。...

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼事情是这样的我自己开个服务器玩玩,装了一堆插件给自己了一个op不知道怎么,TMI内置修改器每一个指令都不能用了,客户端里红字提示an internal error occurred while attempting to perform this …

orc识别较慢_关于半自动标注工具PPOCRLabel运行速度由快逐渐变慢的问题

1.问题描述在使用PPOCRLabel进行自动标注的过程中,发现文本检测模块运行速度由最开始的每帧三百多毫秒逐渐变为每帧数秒,且速度还在不断变慢中。初步定位为后处理DBPostProcess耗时在增加,db模型预测速度正常。其余方向分类和文本识别模块运行…

香港十大气质男明星

周润发:大气 此君出演的多数电影中,都实难挡其魅力,无论主演客串,都令众多演员望尘莫及。大将之风。 梁朝伟:灵气 不要被他油头粉面或落魄颓废的造型迷离忧郁的眼神所迷惑。实有让观众细细品味的风采,具有影帝风采。 周…

django admin应用开发(1) 之 引言

2019独角兽企业重金招聘Python工程师标准>>> 第一节 引言 1.1 准备知识 Python&Django配置 Django官方主页:www.djangoproject.com 开发IDE,个人倾向于PyCharm,在这里可以快速的学习到一些Django使用技巧。 1.2 什么是应用&am…

指令详解 三菱plc_收藏向!PLC编程语言/操作指令/使用步骤详解

点击箭头处“工业之家”,选择“关注公众号”!PLC编程语言/操作指令/使用步骤详解一、PLC编程语言1.梯形图编程语言梯形图沿袭了继电器控制电路的形式,它是在电器控制系统中常用的继电器、接触器逻辑控制基础上简化了符号演变来的&…