2017初级统计师考点辅导:分组标志的选择
来源 :中华考试网 2017-10-12
中分组标志的选择
分组标志,即将同质总体区分为不同组的标准或依据。分组标志一旦选定,就必然突出了总体在该标志下的性质差别,而掩盖了总体在其他标志下的不同。即对同一总体按不同标志进行分组会得到不同的分组结果甚至相反的结论。分组标志选择不当,不但无法显示现象的根本特征,甚至会混淆事物的性质,歪曲社会经济的真实情况。因此,分组标志的选择是统计分组的核心问题。为了达到统计分组的目的,在进行统计分组时要遵循以下原则:
(一)、根据统计研究的目的选择分组标志
正确选择分组标志是统计分组的关键。分组标志的选择是统计分组的核心。分组标志选择得恰当与否,直接影响到分组的科学性。如要研究总体哪一方面的特征,就应该选择反映该特征的标志作为分组标志。统计总体中的个体有许多标志,选择什么标志作为分组标志,要根据统计研究的目的来确定。例如,要了解某单位职工的学历状况,就应选择“文化程度”为分组标志;要了解学生的学习情况,要以“成绩”为分组标志,而不能用“性别”、“年龄”、“收入”为分组标志,因为这些内容与要了解的内容无关。
因此,根据研究目的,正确选择分组标志是保证统计分组具有科学性的关键,是保证统计研究获得正确结论的前提。
(二)、要选择最能够反映现象本质的标志作为分组标志。
明确了统计研究的目的,还不等于能够选择好分组标志。因为说明同一问题可能有若干个相关标志,在进行分组时,应选择最能反映事物本质特征的标志。
例如,研究城镇居民家庭生活水平状况,而反映居民家庭生活水平的标志有:家庭人口数、就业人口数、每一就业者负担人数(含本人)、家庭年收人、平均每人年收人等。其中最能反映居民家庭生活水平
状况的标志是“平均每人年收入”,所以应选择这一标志作为分组标志。
请思考:反映企业规模的标志有许多,如企业职工人数、企业固定资产和生产能力等,请问谁是划分企业规模大小的最具有本质特征的标志?
(三)、要考虑现象所处的历史条件和经济状况以及标志内涵的变化来选择分组标志。
社会经济现象随着时间、地点、条件的变化而发生变化,其标志的内涵也会发生变化。同一分组,在过去适用,现在就不一定适用;在这一场合适用,在另一场合就不一定适用。
例如,在计划经济时期,企业按所有制形式分组一般是分为四组,全民所有制企业、集体所有制企业、私营企业和其他企业。而现在按企业登记注册类型可分为:(1)国有企业;(2)集体企业;(3)股份合作制企业;(4)联营企业;(5)有限责任公司;(6)股份有限公司;(7)私营企业;(8)港澳台商投资企业;(9)外商投资企业;(10)个体企业等类型。又如,对最低生活水平的确定,就不能沿用20世纪五六十年代的标准,而应根据目前的生活水平状况制定标准,然后再进行分组。此外,行业的划分,也发生了很大变化。
结合研究对象所处的历史条件、经济条件选择分组标志,这样可以保证分组标志在不同时间、不同场合的适用性。
请思考:所有的标志都有可能成为分组标志吗? 来源:-统计师考试统计师考试辅导:分配数列的编制
1.种类
①属性分配数列:
按品质标志分配而形成的数列叫属性分配数列,简称品质数列,如上例内蒙古自治区人口分布。
②变量分配数列
按数量标志分组而形成的数列叫变量分配数列,简称变量数列。
1)单项式变量分组数列
是按每个变量值分别列组而形成的数列。
2)组距式变量数列
把各变量值按照一定组距进行分组而形成的数列。如:上例某班学生统计考试成绩表。
在组距数列中,表示各组界限的变量值称为组限,50—60,60—70等。其中较小的变量值称为下限,50,60等,较大的变量值为上限,60,70等,各组上限与下限之差即为组距,组距=上限-下限,60-50,70-60等,各组上限与下限的中点称为组中值,即组中值=(上限+下限)/2,(50+60)/2=55,(60+70)/2=65,组中值具有一定的假定性,即假定次数在各组内的分布是均匀的,代表了各组内的一般水平。
a.等距分组
各组的组距均相等。
特点:由于各组组距相等,各组次数的分布不受组距大小的影响,它和消除了组距影响,与次数密度的分布是一致的,一般呈正态分布。
次数密度=次数/组距,其作用主要用于消除各组组距不相等而造成的现象分布的影响。
b.不等距分组
各组组距不相等。
特点:不等距分组各组的次数多少受组距不同的影响,组距大次数可能多,组距小,则次数可能少,
因此必须消除组距对其分布的影响即需计算次数密度。
在编制组距式变量数列时,常常会遇到这样的情况,如:学生成绩的分布
60分以下
60—70
70—80等
又如:学生人数的分布
30人以下
30—60
60人以上等
这种具有不确定组距的组称为“开口组”,包括上开口和下开口,其组中值如何计算?
下开口的组中值=上限-1/2邻组组距
上开口的组中值=下限+下限1/2邻组组距
2.变量数列的编制
程序:①原始数据②序列化(编制由小到大简单数列)③求出组距等④分组归类合计(形成次数分布)⑤制成统计表(变量数列)
a.离散型变量
由于离散型变量各变量值之间以整数断开,变量值之间有明显的界限,上下限都可以用准确的数值表示,组限非常清楚。
如:某校按学生人数分组,其组限为:
100人以下
101—200
201—300
301—400
401人以上
b.连续型变量
由于连续型变量各变量值之间可做无限分割,有小数存在,上下限不能用两个确定的值表示,只能用前一组的上限与本组的下限为同一数值表示。如:上例考试成绩
统计实际工作中,虽然变量区分连续型变量与离散型变量,但为了计算,绘图等的方便,保证整体单位不出现重复、遗漏。可采用连续型变量的形式代替离散型变量。
对于连续型变量,在确定组限时,有一原则可循,即“上组限不在内”原则:各组只包括本组下限变量值的单位,不包括本组上限变量值的单位。
3.编制统计表
如上例40人考试成绩分为5组,组距为10,组限可以为:
50—60,60—70,…,90—100
可以使考试成绩的优、良、中、及、不及格的特征体现出来。