2017公卫助理医师卫生统计学考点:第二章定量资料的统计描述
来源 :中华考试网 2017-03-14
中第二章 定量资料的统计描述
【重点难点】
第一节 频率分布表与频率分布图
一、离散型定量变量的频率分布
对离散型定量变量,变量值的取值是不连续的。直接清点各变量值出现的频数,即为频率分布表。离散型定量变量的频率分布图可用直方图表达,以各等宽矩形直条的高度表示各频率的多少。
二、连续型定量变量的频率分布
对连续型定量变量,变量值的取值是连续的,将数据适当分组,清点各组的频数,即为频率分布表。连续型定量变量的频率分布图可用直方图表达。即纵坐标为频率密度,即频率/组距,直方图的面积之和等于1.
三、频率分布表(图)的用途
频率分布表(图)可以揭示资料的分布类型,如对称分布或偏峰分布;也可以描述资料的分布特征,即集中趋势和离散趋势;便于发现某些特大和特小的可疑值;便于进一步计算指标和统计分析。
第二节 描述集中趋势的统计指标
对于连续型定量变量,平均数是应用最广泛、最重要的一个指标体系,它常用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。常用的平均数有3种:算数均数、几何均数和中位数。
一、算术均数
意义:算术均数简称均数,常用μ表示总体均数,表示样本均数。反映全部数量观察值的平均数量水平。
适用条件:适用于对称分布资料,尤其正态或近似正态分布资料。
计算:1.直接法(基于原始数据)
其中,n为样本含量,为观察值。
1. 频率表法(也叫加权法,基于频率表资料)
其中, f为组段的频数,为组段的中值,=(组段上限+组段下限)/2。
二、几何均数
意义:几何均数以符号G表示,常用来反映一组含多个数量级数据的集中位置。
适用条件:适用于原始观察值分布不对称,但经对数转换后呈对称分布的资料,如对数正态分布资料。观察值间常呈倍数关系,或变化范围跨越多个数量级。
计算:1.直接法(基于原始数据)
或
2.频率表法(也称加权法,基于频率表资料)
三、中位数
意义:中位数常用符号M表示,是指将原始观察值从小到大排序后,位次居中的那个数,即理论上有一半的观察值低于中位数,一般都观察值高于中位数。
适用条件:中位数适用于各种分布的资料,特别是偏峰分布资料、分布末端无确定值的资料等。
计算:1.直接法(基于原始数据)
将n例观察值从小到大排列,第i个数据用表示。
n为奇数时,
n为偶数时,
2.百分位数法(基于频率表资料)
百分位数常用符号表示,是排序后的全部实测值的某百等份分割值,即在全部实测值中有x%个体观察值比它小,有1-x%个体观察值比它大。中位数就是一个特定的百分位数,即M=。
=L+(n*x%-)
其中L为欲求的百分位数所在组段的下限,i为该组段的组距,为截止至L的累计频数,为该组段内的频数,n为总频数。
四、众 数
意义:全部实测值中出现次数最多的数值即为众数。
第三节 描述离散趋势的统计指标
同一总体中不同个体存在的差异称为变异。为比较全面地把握资料的分布特征,不仅需要了解数据的集中位置,而且需要了解数据的离散程度。常用的描述离散趋势的统计量包括极差、四分位数间距、方差、标准差和变异系数。
一、极 差
意义:极差,也称全距。样本量接近的同类资料比较,极差越大意味着数据间变异越大。极差只考虑数据的最大值和最小值,所以用极差反映数据的变异程度常常比较粗略和不稳定。
计算:R=最大值—最小值
适用条件:资料不限。
二、四分位数间距
意义:四分位数间距表示百分位数和百分位数之差,理论上与之间恰好包括总体中间50%的个体观察值。同类资料比较,Q越大意味着数据间变异越大。用四分位数间距反映数据的变异程度比极差稳定。
计算:Q=—
其中,的求法参见前述百分位数求法。
适用条件:四分位数间距可用于各种分布资料,特别对偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。
三、方 差
意义:方差考虑了全部观察值的变异程度。总体方差用表示,定义为观察值离均差平方和的算术均数;样本方差用表示,是总体方差的无偏估计。同类资料比较时,方差越大意味着数据间变异度越大。
计算:总体方差=
样本方差=
适用条件:见标准差。
四、标 准 差
意义:方差的算术平方根称为标准差。总体标准差用表示,样本标准差用S表示。标准差的量纲与原变量一致,故实际应用中常使用标准差。同类资料比较时,标准差越大意味着观察值间变异度越大。
计算:总体标准差=
样本标准差S=
其中,n-1称为自由度。
适用条件:方差和标准差都适用于对称分布的资料,特别对正态分布或近似正态分布资料,常把均数和标准差结合起来,全面描述的集中趋势和离散趋势。
五、变 异 系 数
意义:变异系数用CV表示,为标准差与算术均数之比,是一个不带量纲的相对数。
计算:×100%
适用条件:方差和标准差都适用于对称分布的资料,特别对正态分布或近似正态分布资料,常把均数和标准差结合起来,全面描述资料的集中趋势和离散趋势。
第四节 描述分布形态的统计指标
一、偏度系数
意义:理论上总体偏度系数为0时,分布是对称的;取正值时,分布为正偏峰;取负值时分布为负偏峰。
二、峰度系数
意义:理论上正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔取正值时,其分布较正态分布的峰尖峭。