学习必备 欢迎下载
第一章 绪论
统计的三大特征:实用性、丰富性、公平性 总体(population):
? 是根据研究目的确定的、同质的全部研究对象中所有观察单位某种变量值的集合。 ? 同质基础:时间、空间、条件等
? (1)有限总体(finite population):有限观察单位
? (2)无限总体(infinite population):很多为无限总体。 样本
? 根据随机化原则从总体中抽取的一定数量(sample size)的个体,称为样本
(sample),用样本信息来推断总体特征。
? 从总体中抽取部分个体的过程称为抽样(sampling)。 同质(homogeneity)
? 是指影响被研究指标的非实验因素相同。 变异(variation, variablility )
? 同质基础上的各观察单位(亦称为个体)之间的差异为变异。如同性别、同年龄、
同民族、同地区儿童的身高有高有低,称为身高的变异。
参数(parameter)和统计量(statistic)
? 总体的统计指标称为参数。
如:总体均数(μ),总体发病率,总体死亡率,等, ? 样本的统计指标称为统计量
如:样本均数(x),样本发病率,样本死亡率,等, ? 统计学上用不同的符号表示。 误差(error)
观察值与实际值的差异,成为误差。
分为:过失误差;系统误差;随机测量误差;随机抽样误差;
(1)过失误差(mistaken error):过失所致的误差(不认真,错误判断,记录等原因); (2)系统误差(systematic error):仪器未校准所致的误差(统一偏高,或偏低);
这两类误差可以避免。
(3)随机测量误差(random measurement error):不同观察者或同一观察者多次观察值的
不相同。
这种误差不可避免。
(4)抽样误差(sampling error):总体中存在个体变异,抽样研究中所抽取的样本,只包
含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),表现为多次抽样的样本均数或率不同。这种由抽样引起的差异称为抽样误差。 抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。
由于生物的个体变异是客观存在的,因而抽样误差是不可避免的,但抽样误差有一定的规律性。 小概率事件定理:
“小概率事件一次抽样不可能发生” 变量及变量值
? 变量(variable):观察对象的特征或指标。对变量进行取值所采用的工具或标准成
为测量尺度(scale)。
? 测量的结果称为变量值(value of variable) 或观察值(observed value,
measurements)。
学习必备 欢迎下载
随机化(randomization)
使总体中的每个个体有均等的机会成为样本观察单位的过程,称为随机化。 ? 随机抽样旨在避免人的主观性,让机遇起作用,以反映总体的客观情况。
常用:抽签法,随机数目表法,计算器随机数法;
单纯随机抽样(simple random sampling):总体全部观察单位编号,再用随机数字法或抽签法;
整群抽样cluster sampling:直接由若干个群组成的总体中随机抽取若干个群,再对被抽取的每个群的全部观察单位加以调查。
系统抽样systematic sampling:( 间隔抽样,机械抽样)
先将总体观察单位按某顺序号分成n个部分,再从第一部分抽第k号观察单位,依次用此相等间隔机械地从每一部分各抽一个观察单位组成样本。
分层抽样stratified sampling:先按某种特征将总体分为若干组别、类型、区域,再从每一层内随机抽样,组成样本。
? 抽样误差:分层抽样<系统抽样<单纯随机抽样<整群抽样 第二章 统计资料的收集和整理 一、资料的类型
根据是否定量划分:
(1)计量资料(measurement data)
用定量方法测量每个观察单位的某项指标,所得的数值资料为计量资料,亦称数值变量资料。一般有度量衡单位。
常用:平均数,标准差,t检验,方差分析,相关与回归 等分析。 (2)计数资料(enumeration data)
将观察单位按某种属性或类别分组,然后清点各组的观察单位数,为计数资料(亦称分类变量资料,无序分类资料)。 常用:率、构成比、卡方检验等 (3)等级资料 (ranked data)
将观察单位按某种属性的不同程度分组,所得各组的观察单位数为等级资料,亦称
有序分类资料。
常用:率、构成比、秩和检验等。 三者联系:
等级资料与计数资料不同:属性的分组有程度差别,各组大小顺序排列; 等级资料与计量资料不同:每个观察单位未确切定量,称为半定量资料。 介于计量资料与计数资料之间。 计量资料 → 计数资料 → 等级资料 调查设计和实验设计
调查设计一般包括专业设计和统计设计。 实验设计(experiment design)
医学实验的基本要素包括处理因素、受试对象和实验效应三部分。
实验设计应遵循对照(空白对照,试验对照,安慰剂对照,配对对照,组间对照 )、随机、重复(即样本例数)的原则 。 频数分布表(frequency distribution table)
? 用途:
(1)揭示频数的分布特征:两个重要特征:
? 集中趋势(central tendency):数值高低不等,但中等水平的人数最多。
学习必备 欢迎下载
? 离散趋势(tendency of dispersion):数值之间参差不齐;逐渐变大(或变小)的
人数渐少。向两端分散。
第三章 计量资料的统计描述
集中趋势central tendency
平均数(average):用于描述数值变量资料的集中趋势(平均水平)。 特点:简明概括,便于比较。
包括:算术平均数,几何平均数,中位数,百分位数 1、算术平均数(arithmetic mean)
一组变量值之和除以变量值个数所得的商,简称均数。
总体均数μ,样本均数x表示。
适用条件:资料成正态分布(或近似正态,或对称分布)。 计算方法:直接法,加权法 均数的两个重要属性:
(1)各离均差(各观察值与均数之差)的总和等于零。
(2)离均差的平方和小于各个观察值X与任何数a(a 不等于均数)之差的平方和。
均数是一组观察值理想的代表值。 均数的应用:
(1)只能在合理分布的基础上,对同质事物求均数才有意义,才能反映事物的特性。 (2)均数最适用于对称分布,尤其是正态分布资料。此时,均数位于分布的中央,能反映观察值的集中趋势。
2、几何均数geometric mean G
将n个观察值的乘积再开n次方的方根(或各观察值对数值均值的反对数)。 适用条件:
(1)观察值为非对称分布,差距较大,用算术均数表示其平均水平会受少数特大或特小值影响;
(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如:抗体滴度,药物效价等;
(3)观察值不能有0;
(4)观察值不能同时有正值和负值。 几何均数的应用:
(1)常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正态分布资料;
(2)同一组资料求得的几何均数小于算术均数。 3、中位数(median, M) :位于中间位置上的数值。
把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变量值的均值(偶数个)。是位置指标,以中位数为界,将观察值分为两半,有一半比它大,一般比它小。
适用于:
(1)资料偏态分布;(2)两端无确定数值;(3)资料分布不清楚;
如:潜伏期,毒物测定值等用中位数表示其集中趋势。 5、百分位数(percentile, P):位于某个百分位置上的数值。
把一组数据从小到大排列,分成100等份,各等份含1%的观察值,处在分割界线上的数值,就是百分位数,Pr 表示。
百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观察值比它小,有
学习必备 欢迎下载
(100-r)%的观察值比它大。
如含量为n的样本,P5即表示:理论上有n5%个观察值比P5小,有n95%个观察值比P5大。一般说,分布中部的百分位数相当稳定,具有较好代表性,靠近两端的百分位数,只在样本含量足够大时,才稳定,故,样本量不够大时,不应取太近两端的百分位数。
常用的百分位数:5,25,75,95 分位数。百分位数常用于确定医学正常值范围(normal range)。
中位数是特定的百分位数。 四者的比较:
中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的变量值的大小。不受特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。而均数,几何均数是由全部观察值综合计算出的,敏感性好。但理论上,中位数等于算术均数。
百分位数常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。 离散趋势tendency of dispersion
常用指标:全距,四分位数间距,方差,标准差,变异系数
1、全距(Range):极大与极小值之差。全距大,资料离散程度大,但易受极端值大小的影响。样本量越大,抽到极端值的可能性越大,全距可能会越大。
故:全距不宜单独使用。
2、四分位数间距(quartile interval Q):
将一组资料分为四等份,上四分位数P75和下四分位数P25之差,叫四分位数间距。
意义:Q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。
优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为离散指标。 缺点:未考虑全部观察值,不能全面反映资料离散趋势。 3、方差(variance)和标准差(standard deviation SD)
对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考虑到各个观察值,离均差的平方和是最好的指标,
意义:方差,标准差越大,变异程度越大。其值越小,观察值的离散度越小,用均数反映平均水平的代表性越好。
标准差应用:
(1)反映一组观察值的离散程度:
数值单位相同:直接比较标准差;
数值单位不同:计算变异系数;
变异系数(coefficient of variation, CV) 也称离散系数(coefficient of dispersion)
标准差与均数之比用百分数表示。 公式:
常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了均数和标准差,更客观。比如:身高,体重的变异比较 (2)估计变量值的频数分布: (3)计算标准误
(4)估计医学正常值范围:
双侧:均数± 1.96倍标准差(95%) 单侧:均数± 1.645倍标准差(95%) 正态分布(normal distribution)
概念: 频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数
相关推荐: