三分钟学统计之：平均差、标准差、差异系数

三分钟学统计之：平均差、标准差、差异系数
2018/2/8 明姬心理工作室

     我的女神统计学老师常说：统计学是工具，日常生活中随处可见统计方法应用的身影。今天我们就一起讨论三种不同的离散量数(表示数据离散程度的量数)：平均差、标准差、差异系数。

     平均差(Average deviation)

     平均差是总体所有数据与其算术平均数的离差绝对值的算术平均数，是用来反映各测量值与算术平均数之间的平均差异，也可以反映算数平均数是否具有代表性。

     平均差的符号为AD，计算公式为：

     平均差越大，表明各数据到平均值的距离越远，即与算术平均数的差异程度越明显，该算术平均数的代表性就越小；平均差越小，各项数据到均值的距离越近，即与算术平均数的差异程度越小，该算术平均数的代表性就越大。

     举个例子来说明一下。比如，A、B两组人游戏得分如下：

     此时，计算可得，A组的MD=566.67分，B组的MD=1800分；说明A组的得分更加集中，而B组则相对分散，所以，A组的平均成绩更能代表A组队员的水平，而对于B组来说，平均成绩的代表性则大大降低。

     标准差(Standard Deviation)

     标准差，也被称为标准偏差或者实验标准差，是用来反映一个数据集的离散程度的最好指标之一。平均数相同的两组数据，标准差未必相同。

     总体标准差的符号为σ，计算公式为：

     简单来说，标准差是对一组数据平均值分散程度的度量，说明的一组数的波动问题。一个较大的标准差，代表大部分数值和平均值之间差异较大；一个较小的标准差，代表这些数值比较接近平均值，相对集中。

     比如，两个班的学生分数，标准差的大小能说明两个班的学生成绩哪一个波动更小，也就是哪个班的学生成绩稳定些，标准差大的不稳定些，标准差小的稳定些。

     标准差分为总体标准差和样本标准差。总体标准差用σ表示，公式根号内除以总体容量N；样本标准差用S表示，公式根号内除以样本量减1(即n-1)。因为我们大量接触到的是样本，所以普遍使用样本标准差公式进行计算。

     标准差日常应用比较广泛，常应用于投资上，可作为量度回报稳定性的指标。标准差数值越大，代表回报远离过去平均数值，回报较不稳定，故风险越高。相反，标准差数值越小，代表回报较为稳定，风险亦较小。下文会有详细解释。

     再举一个例子。比如，A、B两组各有6位学生参加同一次语文测验，成绩如下：

     A组的分数分别为：95、85、75、65、55、45

     B组的分数分别为：73、72、71、69、68、67

     这两组的平均数都是70分，但A组的S=17.08分，B组的S=2.16分，说明A组学生之间得分的差距，要明显比B组学生之间的差距大得多。

     那么问题就来了，既然都是离散量数，反映数据的离散程度时，为什么更常用标准差而不是平均差呢？

     因为在平均差的计算公式中，使用了绝对值的计算，这是非常不利于代数计算的；而在标准差的计算公式中，采取的是先平方再开根号的处理，有效克服了平均差的问题。并且，平均差受到数据极端值的影响较大，因此一般我们常用标准差来反映数据的离散程度。

     差异系数(Coefficient of variation)

     平均差和标准差，都是用来评价同一组数据的离散特征的。如果遇到了两组不同数据比较离散程度，又该怎么办呢？

     举个例子来说。某小学一年级学生的平均体重为25公斤，体重的标准差是3.7公斤，平均身高110厘米，标准差为6.2厘米。我们想要比较他们的体重与身高的数据，哪一组离散程度更大。不管是平均差公式，还是标准差公式，似乎都鞭长莫及，该怎么办呢？

     此时，我们要引入另一种离散量数——差异系数。

     差异系数是一组数据的标准差与其均值的百分比，是测算数据离散程度的相对指标。适用于测量单位不同或测量单位相同但集中量数相差较大的数据变异情况的比较。

     差异系数的符号为CV，计算公式为：

     其中S为标准差，M为平均数。

     差异系数通过用标准差除以平均数，衡量的是标准差相对于平均数的大小，这样就可以在两组不同类型的数据之间进行比较，看离散程度孰大孰小。

     回到刚刚的例子，如果需要比较体重与身高的离散程度哪个大，就使用差异系数(CV)来计算。

     CV体重=3.7/25×100%=14.8%

     CV身高=6.2/110 ×100%=5.64%

     所以，结论就是，体重的离散程度比身高的离散程度更大。

     再来看两组数据测量单位相同、但集中量数相差较大的例子。此时同样需要使用差异量数。

     通过同一个测验，一年级学生的平均分数为60分，标准差为4.02分，五年级学生的平均分数为80分，标准差为6.04分，问这两个年级的测验分数中哪一个离散程度大。

     CV一年级=4.02/60 ×100%=6.7%

     CV五年级=6.04/80 ×100%=7.55%

     所以，结论是五年级测验分数的分散程度大。

     其实，用来表示数据离散程度的指标有很多，比如今天讲过的平均差、标准差、差异系数，此外还有极差(全距)、方差等其他指标。在实际处理数据时，一定要认清数据特性及类型，根据实际情况选择更具有代表性的指标进行计算。

不同指标在实际生活中的应用

     选择基金可以看标准差

     在投资基金上，一般人比较重视的是业绩，但往往买进了近期业绩表现最佳的基金之后，基金表现反而不如预期，这是因为所选基金波动度太大，没有稳定的表现。衡量基金波动程度的工具就是标准差。

     标准差越大，基金未来净值可能变动的程度就越大，稳定度就越小，风险就越高。比方说，一年期标准差是30%的基金，表示这类基金的净值在一年内可能上涨不止30%，但也可能下跌不止30%。

     也就是说，如果有两只收益率相同的基金，投资人应该选择标准差较小的基金(承受较小的风险得到相同的收益)，如果有两只相同标准差的基金，则应该选择收益较高的基金(承受相同的风险，但是收益更高)。

     建议投资人同时将收益和风险计入，以此来判断基金。

     例如，A基金二年期的收益率为36%，标准差为18%；B基金二年期收益率为24%，标准差为8%，从数据上看，A基金的收益高于B基金，但同时风险也大于B基金。A基金的每单位风险收益率为2(0.36/0.18)，而B基金的每单位风险收益率为3(0.24/0.08)。因此，原先仅仅以收益评价是A基金较优，但是经过标准差即风险因素调整后，B基金反而更为优异。

     另外，标准差也可以用来判断基金属性。根据有关机构统计结果，2017年以来，股票基金的平均标准差为5.14；积配型基金的平均标准差为5.04；保守配置型基金的平均标准差为4.86；普通债券基金平均标准差为2.91；货币基金平均标准差则为0.19。同样，标准差越大，意味着可能获得的收益越不确定、投资风险越高。

     薪酬跨地区比较可以看差异系数

     企业将市场薪酬调研报告与城市薪酬差异系数结合应用，将会收到事半功倍的效果。

     一是用于不同地区的薪酬水平转换。当企业拿到某一城市的薪酬报告时，可以使用“城市差异系数”将本地薪酬水平与其他城市的薪酬水平转换后进行对比，从而帮助企业快速且相对准确的进行市场比较。

     二是用于全国性报告的薪酬定位参考。当企业拿到全国的薪酬报告时，可以根据薪酬差异系数对各地在此报告中所处的水平位置以及其相关间差距有所了解和比对，差异系数可以更好的帮助企业解读全国性报告。

     具体步骤是，首先，企业要了解报告数据来源的地域，以及数据量的分布状况；其次，找到各地对应的薪酬差异系数，了解地域间的差距；最后，综合数据分布状况和薪酬差异系数找到企业需要的合理参考定位。

     三是用于比较城市薪酬差异。城市薪酬差异系数代表了城市整体薪酬水平，反映的也是城市间整体薪酬水平的关系。而影响薪酬的因素除了地域外，还有行业因素，实际上，不同行业因素在影响薪酬时的权重往往是不同的。因此，使用薪酬差异系数做转换时会有误差。企业要判断这种误差是否是在允许的范围内，如果不在，就要选择更有针对性的城市市场的薪酬报告，以期更加准确地做出符合企业状况、符合市场规律、符合企业人员期望的薪酬制度。

     所有的统计学指标都是用来解决实际问题的。不知道今天介绍的这三个离散量数及其应用方法，大家听懂了吗？欢迎留言说出你的学习体会。

     ----------------------------

     本文由中国科学院心理研究所EMBA专业研修班学员齐少停、路子萱、李雅君、邬丽媛、王赢、王雯联合撰写，后经王明姬教授修改后发布。

     ----------------------------

     长按二维码一键关注

     您的支持是我们前进的动力!

    http://weixin.100md.com
返回明姬心理工作室返回首页返回百拇医药