中位数

统计学上,中位数英语:),又称中央值[1]中值,是一个样本、种群或概率分布中之一个数值,其可将数值集合划分为数量相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数。

一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。

连续随机变量X的分布函数为F(X),那么满足条件P(X≤m)=F(m)=1/2的数称为X或分布F的中位数。

对于一组有限个数的数据来说,其中位数是这样的一种数:这群数据的一半的数据比它大,而另外一半数据比它小。

计算有限个数的数据的中位数的方法是:把所有的同类数据按照大小的顺序排列。如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间那2个数据的算术平均值就是这群数据的中位数。

公式

实数按大小顺序(顺序,降序皆可)排列为

实数数列的中位数

其中 odd number 表示奇数,even number 表示偶数。


中位数特性

中位数在叙述统计学上和平均数、众数并列为数据的集中趋势。三者的位置排序亦对应着偏度的正负偏态意义。一般而言,平均数是最常被使用做为数据的集中趋势,但如果有极端值存在,平均数的代表性降低,也就所谓的「男人女人平均一颗睾丸」的问题,因此在有极端值的状况下,中位数是比较好的集中趋势代表。因此,在各国的每人所得分布上,通常以中位数代表集中趋势,而非平均数[2]

中位数通常出现在描述统计学无母数统计,有母数的统计分析很少提及。中位数为集中趋势时,对应的离散趋势系数为平均绝对离差(Mean absolute deviation, MAD)或是四位位距(Q3 - Q1)。不过如果论及母体中位数的统计量时,仍需根据统计分析对抽样分配的要求,寻找母体中位数统计量的期望值与变异数,再依照点估计的充分、不偏、效率、一致性进行讨论。而母体中位数的统计量通常是样本中位数。因此,样本中位数的期望值与变异数就值得被讨论,进行基础研究。

常态分配下的中位数

常态分配下的平均数、中位数、众数都是同一个位置。目前最为世人熟知的是平均数的抽样分配会是常态分配,期望值为母体平均数且变异数为母体变异数()。统计学对常态分配的母体平均数统计量说明甚多,并发展完善。那么中位数可基于几率分配仿真器和数值分析发展,在n个独立随机变量来自常态分配可生成n个随机样本,则E(样本中位数)=且Var(样本中位数)=,其中,k(n)受到样本个数(n)影响。当样本个数介于2至200时,两者的关系不明显,但可计算出样本个数和k(n)的关联表[3]

k(n)和n的对应表
nk(n)nk(n)nk(n)
20.500267128700.0219851791380.011271806
30.448703237710.0214036371390.011269587
40.298172500720.0213932711400.011109049
50.286770401730.0208408451410.011111745
60.214713620740.0208304271420.010959968
70.210476952750.0202958641430.010962027
80.168172011760.0202945991440.010810205
90.166171644770.0197769711450.010809127
100.138304145780.0197774661460.010661452
110.137221972790.0192917771470.010659591
120.117603985800.0192947671480.010513172
130.116875871810.0188319551490.010523498
140.102209683820.0188268541500.010377973
150.101704592830.0183946571510.010379735
160.090397468840.0183904671520.010244606
170.090046842850.0179726571530.010247290
180.081017991860.0179723091540.010109136
190.080776427870.0175674471550.010114347
200.073450103880.0175643401560.009986419
210.073284584890.0171872951570.009984465
220.067168338900.0171891101580.009862704
230.067002164910.0168129031590.009858886
240.061881619920.0168136661600.009735345
250.061762647930.0164666601610.009736185
260.057309720940.0164626681620.009617128
270.057271174950.0161254881630.009619325
280.053440064960.0161192371640.009501480
290.053332370970.0158028801650.009502525
300.049992614980.0157978561660.009389839
310.049937448990.0154928721670.009388423
320.0470293511000.0154904321680.009279058
330.0469652111010.0151907731690.009277712
340.0443379881020.0151897761700.009169514
350.0443365581030.0149045671710.009169768
360.0419909271040.0148966401720.009061071
370.0419422181050.0146287251730.009060657
380.0398529271060.0146236381740.008961003
390.0398324581070.0143594521750.008957769
400.0379390731080.0143591661760.008860612
410.0379047451090.0141006141770.008859363
420.0361842741100.0141041291780.008762802
430.0361521921110.0138568181790.008760489
440.0345795911120.0138547121800.008665028
450.0345775691130.0136096001810.008663662
460.0331331771140.0136106801820.008571695
470.0331188071150.0133833601830.008570240
480.0317911451160.0133823291840.008475410
490.0317833991170.0131537281850.008477845
500.0305488731180.0131561671860.008388634
510.0305338111190.0129385601870.008384818
520.0294118821200.0129394551880.008300454
530.0294028851210.0127297061890.008300175
540.0283476911220.0127313811900.008214157
550.0283420621230.0125330401910.008211878
560.0273487471240.0125251811920.008130539
570.0273504731250.0123338991930.008128310
580.0264428091260.0123344081940.008045347
590.0264362891270.0121410841950.008041810
600.0255732421280.0121385221960.007964784
610.0255752791290.0119640571970.007961234
620.0247806101300.0119618871980.007882679
630.0247519231310.0117828741990.007882009
640.0240055741320.0117799412000.007806200
650.0240066881330.0116042162010.007801090
660.0233042091340.0116009082020.007729016
670.0232874601350.0114333152030.007728333
680.0226169081360.0114385872040.007654504
690.0226244251370.0112718062050.007652196

如果样本个数超过200,但不超过1000时,两者有明显的关系,并且受到样本个数是否为奇数或偶数影响。此时可使用回归分析寻找两者的关系。

1. 样本个数为偶数,回归式为k(n) = 0.0000148965 + 1.5599936862 / n。

2. 样本个数为奇数,回归式为k(n) = 0.0000084608 + 1.5674001064 / n。

由此可得到样本中位数的变异数和母体常态分配的变异数形成稳定的对应关系[4]

参考文献

  1. . 国家教育研究院. [2022-04-21]. (原始内容存档于2018-11-24) (中文(台湾)).
  2. 台北市政府主计处,台北市家庭所得概况,民国106年。(链接 页面存档备份,存于)
  3. . ResearchGate. [2021-10-21]. doi:10.13140/rg.2.2.16784.23041 (英语).
  4. . ResearchGate. [2021-10-31]. doi:10.13140/rg.2.2.12462.13124/1 (英语).

外部链接

本条目含有来自PlanetMathMedian of a distribution》的内容,版权遵守知识共享协议:署名-相同方式共享协议

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.