统计学思考题 一、名词解释
1.参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。所关心的参数主要有总体均值、标准差、总体比例等。总体参数通常用希腊字母表示
2.残差: 因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示。 反映了用估计的回归方程去预测而引起的误差,可用于确定有关误差项ε的假定是否成立
3.标准分数:变量值与其平均数离差除以标准差后的值就是标准分数也称标准化值或z分数。P87
4.次序统计量:一组样本观测值X1,X2,?,Xn由小到大的排序X(1)≤X(2)≤?≤ X(i)
≤?≤ X(n)后,称X(1),X(2),?,X(n)为次序统计量 。中位数、分位数、四
分位数等都是次序统计量
5.β错误:原假设为伪是没有拒绝,犯这种错误的概率用表示,所以也称β错误或取伪错误
6.?错误:原假设为真时拒绝原假设,犯这种错误的概率用α表示,所以也被称为?错误或弃真错误。
7.多元回归方程:描述因变量 y 的平均值或期望值如何依赖于自变量 x1,
x2 ,?,xk的方程。多元线性回归方程的形式为 E( y ) = ?0+ ?1 x1 + ?2 x2 +?+ ?k xk
8.多元回归模型:描述因变量 y 如何依赖于自变量 x1 , x2 ,?, xk 和误差项? 的方程,称为多元回归模型。 其一般形式为 :
E( y ) = ?0+ ?1 x1 + ?2 x2 +?+ ?k xk + ε
9.多重判定系数:是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量y的变差中被估计的回归方程所解释的比例。
10.F分布:设随机变量Y与Z相互独立,且Y与Z分别服从于自由度为m和n
2?的 分布,随机变量X有如下表达式:F=nY/mZ,则称X服从于第一自由度为
m,第二自由度为n的F分布,记作X~F(m,n)
11.方差分析:检验各个总体均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
12.?2分布:设随机变量X1,X2,?,Xn相互独立,且Xi(i=1,2,?,n)服从标准正态分布N(0,1)则他们的平方和 服从自由度为n的?2分布。期
1
望为:E(?2)=n,方差为:D(?2)=2n(n为自由度)
13.非平稳序列:是有趋势、季节性和周期性的序列,他可能只含有一种成分也可能含有几种成分的组合。
14.偏态:由统计学家皮尔逊提出,它是对数据分布对称性的测度。测度偏态的统计量是偏态系数,记作SK。偏态系数=0为对称分布,偏态系数> 0为右偏分布,偏态系数< 0为左偏分布
15.峰态:由统计学家皮尔逊提出,它是对数据尖峰或平峰程度的测度即数据分布扁平程度的测度。测度峰态的统计量是峰态系数,记作K。
16.截面数据: 在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况。比如,2005年我国各地区的国内生产总值数据
17.离散系数:标准差与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响。用于对不同组别数据离散程度的比较。
计算公式为
18.列联系数:又称列联相关系数,简称C系数,主要用于大于2×2列联表的情况。
19.判定系数:回归平方和占总误差平方和的比例,记作R2. 反映回归直线对观测数据的拟合程度,取值范围在 [ 0 , 1 ] 之间
20.平均增长率:也称平均增长速度,它是序列中各逐期环比值(也称环比发展速度) 的几何平均数减1后的结果。
21.平稳序列: 基本上不存在趋势的序列.各观察值基本上在某个固定的水平上波动,虽有波动,但并不存在某种规律,而其波动可以看成是随机的
22.趋势:是时间序列在长时间内呈现出来的某种持续向上或持续下降的变动,也称长期趋势。时间序列中的趋势可以是线性的也可以是非线性的。
23.四分位差:反映了中间50%数据的离散程度,也称为内距或四分间距。是对顺序数据离散程度的测度,不受极端值的影响。用于衡量中位数的代表性 上四分位数与下四分位数之差:Qd = QU – QL
24.t分布:高塞特以“Student”(学生)为笔名的论文中首次提出。t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。P140
25.显著性水平:是一个统计专用名词。在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,即假设检验中犯弃真错误的概率。它是由人们根据检验的要求确定的,用α表示。
26.?相关系数:测度2?2列联表中数据相关程度。对于2?2 列联表,? 系数的
2
值在0~1之间。列联表中变量的位置可以互换,? 的符号没有实际意义,故取绝对值即可
27.异众比率:是对分类数据离散程度的测度,是指非众数组的频数占总频数的比例。 用于衡量众数的代表性
28.中位数:排序后处于中间位置上的值,不受极端值的影响。主要用于顺序数据,也可用数值型数据,但不能用于分类数据
29.众数: 一组数据中出现次数最多的变量值。适合于数据量较多时使用,不受极端值的影响,一组数据可能没有众数或有几个众数。主要用于分类数据,也可用于顺序数据和数值型数据
30.最小二乘法:由德国科学家高斯提出,也称最小平方法。它是通过因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。P274
二、简答题
1.统计数据可分为哪几种类型?各有什么特点? (1)按计量尺度分:
分类数据:只能归于某一类别的非数字型数据,对事物进行分类的结果,数据表现为类别,用文字来表述。例如,人口按性别分为男、女两类
顺序数据:只能归于某一有序类别的非数字型数据,对事物类别顺序的测度,数据表现为类别,用文字来表述。例如,产品分为一等品、二等品、三等品、次品 数值型数据:按数字尺度测量的观察值,结果表现为具体的数值,对事物的精确测度。例如:身高为175cm、168cm、183 (2)按收集方法分
观测的数据: 通过调查或观测而收集到的数据,在没有对事物人为控制的条件下而得到的。有关社会经济现象的统计数据几乎都是观测数据
实验的数据: 在实验中控制实验对象而收集到的数据。比如,对一种新药疗效的实验,对一种新的农作物品种的实验等。自然科学领域的数据大多数都为实验数据
(3)按时间状况分
截面数据: 在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况。比如,2005年我国各地区的国内生产总值数据
时间序列数据: 在不同时间上收集到的数据,描述现象随时间变化的情况。比如,2000年至2005年国内生产总值数据
2.解释分类数据、顺序数据和数值型数据的含义。
3
分类数据:只能归于某一类别的非数字型数据,对事物进行分类的结果,数据表现为类别,用文字来表述。例如,人口按性别分为男、女两类
顺序数据:只能归于某一有序类别的非数字型数据,对事物类别顺序的测度,数据表现为类别,用文字来表述。例如,产品分为一等品、二等品、三等品、次品 数值型数据:按数字尺度测量的观察值,结果表现为具体的数值,对事物的精确测度。例如:身高为175cm、168cm、183 3.变量可分为哪几种类型?
含义:说明现象某种特征的概念。如商品销售额、受教育程度、产品的质量等级等。变量的具体表现称为变量值,即数据 变量的基本分类:
分类变量:说明事物类别的名称。 顺序变量:说明事物有序类别的名称。
数值型变量:说明事物数字特征的名称 。包括:离散变量(取有限个值), 连续变量(可以取无穷多个值) 其他分类:随机变量和非随机变量
经验变量和理论变量,经验变量所描述的是我们周围可以观察到的事物;理论变量则是由统计学家用数学方法所构造出来的一些变量,比如,z 统计量、t 统计量、F 统计量等
4.数据的预处理包括哪些内容? 数据审核:检查数据中的错误 数据筛选:找出符合条件的数据
数据排序:升序和降序,寻找数据的基本特征 数据透视:按需要汇总
5.数值型数据的分组方法有哪些? 有单变量值分组和组距分组两种。
单变量值分组是把每一个变量值作为一组,这种分组通常只适用于离散变量,且变量值较少的情况下使用。组距分组它是将全部变量值依次划分为若干个区间,并将每一个区间的变量值作为一组,适应于连续性变量或变量值较多的情况下。 6.简述组距分组的步骤。
(1)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为5?K ?15
(2)确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数 (3)统计出各组的频数并整理成频数分布表
4
相关推荐: