数据模型与决策复习思考题答案
第二章
1、什么是普查?普查有哪些作用?
普查是专门组织的、一次性的全面调查,主要用来搜集某一个时点或一定时期内现象总量的资料。普查在了解国情国力、制定社会发展规划、确定重大决策方面,发挥着重要的作用。
2、什么是随机抽样调查,抽样调查有什么特征?
随机抽样调查是按照随机性原则,从调查对象(总体)中抽取一部分单位组成样本,然后根据样本调查的结果,对总体情况进行推断。它既具备一般非全面调查的优点,又可以通过科学推算达到对研究对象的认识,因而是一种最常用、最重要的获取统计资料的手段。
抽样调查的特征如下:
第一、按照随机性原则确定观察单位。理论上总体的每一个单位都有相同的可能性被抽到。
第二、根据部分单位的调查结果,对总体进行科学推断。 第三、抽样误差可以计算。
3、常用的抽样调查有哪些?说说它们的实施方法。
常用的抽样调查有:简单随机抽样调查、分层随机抽样调查、整群抽样调查、系统抽样调查、多阶段抽样调查、双相抽样调查等。这些抽样调查组织方式都有一个共同的特点:就是仅对总体中的部分代表性单位进行调查,只不过在确定部分代表性单位时,采用的做法不一样。
简单抽样:从总体N个单位中抽取n个单位组成样本时,保证每一个单位被抽出来的概率相等。
分层抽样:先分层或分类,然后从各层中分别抽取一定数量的个体单位。 整群抽样:将总体分成若干群,以群为单位抽样,对抽中的群实行全面调查。 系统抽样:先将总体单位按某种标识进行排列,在规定的范围内随机抽取第一个样本单位,此后按一套规则确定其他样本单位。最简单的系统抽样是等距抽样,其做法是:从总体N个单位中抽取n个单位组成样本,将N个单位按某种标识排列并编号,从前k个单位中抽取一个单位,然后按相同的抽样间隔k抽取下一个单位,直到获得n个单位为止。
阶段抽样:分几个阶段进行,第一阶段抽取一级样本单位,对抽中的一级样本单位从中抽取二级样本单位。
双相抽样:先从总体中随机抽取一个较大的样本,获得第一重样本,再从第一重样本中随机抽取一个较小的样本。 6、什么是内容分析法?试举例说明。
例如想要知道红楼梦的后40回究竟是曹雪芹写的还是高鹗改编的?就可以利用统计方法进行分析。内容分析法,就是把非定量的文献史料、语言习惯等带有特征的因素设法转换成可以量化处理的数据,然后对这些数据进行定量分析并做出相应的判断。
9、谈谈你对数据质量相对性的认识。
采集数据资料时不可避免会发生误差,数据质量最显著的特征就是其相对
1
性。例如全世界陆地总面积14900万平方公里,一般没有必要精确到几位小数点之后。一块田地实测面积是4.8亩,假定它的准确面积为5亩,如果方案只要求四舍五入,就没有误差了。数据质量的相对性表明,为了减少或降低数据误差,在不影响反映数量现象的前提下,可以通过修改活动方案中的某些要求来达到。 10、什么是数据质量检查后验技术,利用后验技术检查数据质量需要注意哪些事项?
数据质量检查的后验技术是在调查工作已经完成,进入数据编辑和整理阶段所用的评估数据质量的方法。其特征是:不再亲临现场,而是通过逻辑关系分析、计算以及将调查数据与独立来源的资料进行对比的方式确定调查数据的质量。主要方法有:逻辑关系分析法、计算比较法、设置疑问框法、与独立来源数据对比法。
运用后验技术检查数据质量要注意:
(1)使用范围有限,对调查特征变化无常的活动,因找不出合理的假设而不能使用。
(2)仅适用于对最后调查结果的检查,不能用于单项数据误差的评估,对改进数据搜集方法没有多大的指导作用。
(3)一般要求拥有同一研究主题的大量统计资料,没有系统的资料积累,后验技术难以派上用场。
(4)作为对比、推算基础的资料必须准确,否则无法知道调查数据的误差。 (5)其结果只反映数据的质量,不能提供新的统计数据。 11、什么是数据质量检查抽样技术,它有哪些优点?
数据质量检查抽样技术是指:一次调查之后,紧接着再从这些被调查单位中抽取一定数量的样本单位,经过重新登记,最后将两者的结果进行对比,以检查先前调查数据的质量,并进行适当的调整。
优点:
(1)检查的结论由样本得出; (2)适用各种场合调查数据检查; (3)不受调查项目间关系的假设限制; (4)可以修正原调查资料等。 12、为什么要实施数据变换?
在具体利用数据资料进行分析之前,最好能对资料进行适当的变换处理,实施数据变换的理由主要有:
第一、通过数据资料的变换,能够运用简单的方法开展分析。 第二、有助于从原始资料中迅速获得更加清晰的信息。 第三、能够保证数据分析所需要的假定条件得到满足。 第四、有助于弱化乃至消除数据资料不准确对计量分析结论的影响,有助于减小模型受到的各种干扰,有利于减小预测和估计的误差。
第五、有利于选择和建立合适的分析模型,包括模型的函数形式、模型的结构简化等。
13、围绕某个课题,尝试拟定一份资料采集方案。
城镇化过程中失地农民就业和社会保障情况调查资料采集方案:
2
(1)研究目标:通过调查,了解某市某镇某村城镇化过程中失地农民的就业和社会保障情况。
(2)研究对象:某市某镇某村的失地农民(具有该村原农业户口,房屋和土地均已拆迁并安置,年满16周岁)
(3)研究变量:姓名,性别,年龄,职业,月收入,参保类型(社保、农保、无)
(4)数据资料搜集的渠道:编制调查问卷,随机抽样调查,采取等距抽样,把该村所有符合原来为该村农业户口、房屋和土地均已拆迁并安置、年满16周岁的人员进行编号,在前5个中抽取1个发放调查问卷,然后每隔5个发放调查1张调查问卷,总共发放200张调查问卷。
(5)资料的最终用途:通过调查得到的样本单位,估计和推断某市某镇某村失地农民的就业和社会保障情况,作为改进城镇化过程中失地农民就业和社会保障政策及措施的参考依据。 第三章
1、什么是频数分布,为什么要编制频数分布?
频数分布是在统计分组的基础上形成的样本单位在各个组间的分配。编制频数分布,需要解决好两个方面的问题:分组组数的确定,组间界限的划分。
编制频数分布能对观察资料实施大幅度的压缩和提炼,使资料以更加清晰、简洁的形式展现出来,从而便于人们直观地了解现象的内部结构。 2、什么是频数分布的累积量,为什么要计算频数分布的累积量?
频数分布的累积量包括累积频数和累积频率。累积频数是几个相关组发生频数的合计,能够反映组合并后观察值总共出现的次数。累积频率是几个相关组发生频率的累加和,能够用于描述和解释组合并后观察值出现的相对频繁程度。
3、什么是全样本频率、行样本频率、列样本频率?说说他们各自的反映功能。 全样本频率是把交叉出现的频数与全部样本数相除得到的。将每一行的频数分别除以该行的样本数,就得到行样本频率。列样本频率是每一列中的频数分别除以该列样本数之和的结果。行样本频率能进行列类别间的比较,列样本频率能实现同一列中行与行之间的比较。
4、什么是帕累托图,如何绘制帕累托图?
帕累托图又称主次因素排列图。通过帕累托图,可以发现或判断少数关键性属性变量值。绘制这种图形时,首先需要将各个变量值按其出现的频数的多少重新编排,然后计算累积频数,最后根据直方图的绘制原理绘制图形,并用折线连接各个长方形的顶端中点。
5、什么是茎叶图,绘制茎叶图有哪些好处?
把每个观察数据划分成两个部分——主部和余部,分别用植物的“茎”个“叶”形象地称呼,然后把数据的主部按从小到大的顺序纵向排列,再在每个数据的主部后面列出余部,由此得到的统计图称为茎叶图。
绘制茎叶图的好处:(1)整理资料时,不需要做什么准备工作,比如排序、分组等,比较省时方便;(2)它同时具有频数分布和直方图的功能;(3)由于它基本保留了原始资料的信息,因此还原能力强。 6、什么是中位数,它有什么特点?
把观察值按从小到大的顺序排列,位置居中的数叫中位数。它是一种较为常用的反映集中趋势的数字特征。具有如下特点:
3
第一、不受极端值的影响,具有很强的抗干扰性。
第二、由组距频数分布资料计算中位数时,要求等距分组,且要求观察值在中位数所在的组中近似服从对称分布,否则计算结果可能存在误差。
第三、对于观察值大量重复的现象,中位数未必准确。 7、确定四分位数的规则是什么?
把一组观察资料按升序排序,然后把它等分为四段,位于第一个分界点处的值叫下四分位数,位于第三个分界点的值叫上四分位数。 8、什么是截尾均值,为什么要计算截尾均值? 去掉观察值中的部分最大值和最小值,由保留下来的数据计算的平均数称为截尾均值。算术平均数对资料信息的利用最充分,但其抗干扰性较差;中位数、众数具有极强的抗干扰性,然而对资料信息利用的充分性较差。因此提出了截尾均值,它兼顾了算术平均数、中位数的长处,同时也在一定程度上削弱了两者的不足。
9、什么是箱线图,如何阅读箱线图?
箱线图也叫五点图,就是用最大值、最小值、中位数、上四分位数和下四分位数这五个数字特征绘制出来的图形。
最小值到下四分位数的距离大于最大值到上四分位数的距离、最小值到中位数的距离大于最大值到中位数的距离、下四分位数到中位数的距离大于上四分位数到中位数的距离,表明现象呈左偏状态。最小值到下四分位数的距离等于最大值到上四分位数的距离、最小值到中位数的距离等于最大值到中位数的距离、下四分位数到中位数的距离等于上四分位数到中位数的距离,表明现象呈对称状态。最小值到下四分位数的距离小于最大值到上四分位数的距离、最小值到中位数的距离小于最大值到中位数的距离、下四分位数到中位数的距离小于上四分位数到中位数的距离,表明现象呈右偏状态。 10、为什么要测算数据资料的离散趋势?
观察值之间的差异程度或频数分布的分散程度称为离散趋势。测定观察资料离散趋势的作用有:第一、反映算术平均数的代表程度;第二、可用于频数分布间的比较;第三、有助于对数据分散程度的考察,还有助于认识一些特殊问题,比如了解工作的节奏性和均衡性,产品加工过程中工序的稳定性,金融投资活动的风险水平等。
11、什么是方差?什么是标准差?
方差与标准差是应用最广泛的测量离散趋势的方法。观察值与他们的算术平均数离差平方和的算术平均数,称为方差。观察值与它们的算术平均数离差平方和的算术平均数的算术平方根称为标准差。
12、什么是离散系数,为什么要计算离散系数?
离散系数又称变异系数,它是把算术平均数与标准差联系起来的一个测度。离散系数计算公式为CS?S?100%。在观察值基数水平和研究对象性质不同的x几组资料间进行离散差异比较,就需要使用变异系数。
13、频数分布表 分组 频数 7:00 3
4
相关推荐: