教学提要
(一)《医用统计学》基本概念
1、变异:宇宙中的事物, 千差万别, 各不相同。即使是性质相同的事物, 就同一观察指标来看, 各观察指标(亦称个体)之间, 也各有差异, 称为变异。同质观察单位之间的个体变异, 是生物的重要特征, 是偶然性的表现。
2、变量:由于生物的变异特性, 使得观察单位某种指标的数值互相不等, 所以个体值称为变量值或观察值。
3、总体:即根据研究目的确定的同质的研究对象的全体。更确切地说, 是性质相同的所有观察单位的某种变量值的集合。
4、样本: 即从总体中抽取一部分作为观察单位进行观察,这部分观察单位称为样本。为了使样本对总体有较好的代表性,抽样必须遵循随机化的原则,即总体中每一观察单位均有相同的机会被抽取到样本中去。
5、计量资料(数值变量资料): 对每个观察单位用定量方法测定某项指标量的大小, 所得的资料称为计量资料, 一般有度量衡等单位。
6、计数资料(分类变量资料): 将观察单位按某种属性或类别分组, 所得各组的观察单位数, 称为计数资料。可分为二项式或多项式分类变量。
7、等级资料:将观察单位按某种属性的不同程度分组, 所得各组的观察单位数, 称为等级资料。这类资料与计数资料不同的是:属性的分组有程度的差别, 各组按大小顺序排列; 与计量资料不同的是:每个观察单位未确切定量, 因而称为半定量资料。
8、抽样误差:由于总体中各观察单位间存在个体差异, 抽样研究中抽取的样本, 只包含总体的一部分, 因而样本指标不一定等于相应的总体指标, 这种样本统计量与总体参数间的差别称为抽样误差。
(二)统计工作的基本步骤
1、设计: 这是关键的一步。要求科学、周密、简明。 2、搜集资料: 要求完整、准确、及时。
医学统计资料的来源主要有三个方面:(1) 统计报表; (2) 日常医疗工作的原始记录和报告卡片; (3) 专题调查
3、整理资料: 核查资料; 按性质或数量分组, 拟定整理表。
4、分析资料: 包括指标的计算、统计图表的绘制, 用统计方法如参数估计、假设检验等对资料作统计分析。 (三) 计量资料的分析
1、平均数: 用以描述同质计量资料频数分布的集中趋势, 反映一组变量值的平均水平, 是一组变量值的代表值。
(1) 算术均数: 简称均数。用于描述对称分布(特别是呈正态分布)的变量值的平均水平。 直接法: ?x=?x/n
26
加权法: ?x=??x/??=??x/n 要点: 频数表的制作
(2) 几何均数: 用G表示。用于描述变量值呈等比数列, 或呈对数正态分布或近似对数正态分布资料。
直接法: G=??x1x2? x3? ?????? xn , G=lg( ?lgx/n ) 加权法: G=lg( ??lgx/?? )
(3) 中位数和百分位数: 中位数是一组从小到大顺序排列的变量值, 位于中间位置的数值,亦称为位置平均数, 代号为M。多用于描述偏态分布资料, 或分布不明资料, 或一端或两端无确定数值的开口资料的集中趋势。百分位数代号为PX, 是一种位置指标。 小样本资料中位数计算方法: 当n为奇数时 M=X(n+1/2) 当n为偶数时 M=[ X(n/2)+X(n/2+1) ] 大样本资料中位数和百分位数计算方法: PX =L+I ( n?x% - ??L ) 2、变异指标
(1) 全距: R, 亦称极差。即一组变量值中最大值与最小值之差。
(2) 标准差: 是最常用来衡量变量值间离散程度的变异指标。总体标准差代号?,样本标准差代号s。
运用:” 用来描述正态分布资料的变异程度。当资料呈正态或近似正态资料时往往将均数与标准差同时写出: ?X ? S, 表示均数的代表性。 (3) 变异系数: 又称离散系数。代号为CV。CV=
运用: 比较均数相差悬殊的几组资料的变异程度; 比较度量衡单位不同的几组资料的变异程度。
3、正态分布及其应用
(1) 正态分布: 是医学和生物学中最常见的总体频数分布, 以均数为中心, 对称,两侧逐渐下降, 两端永远不与横轴相交。正态分布用N(?, ?)表示, 为了应用方便, 常对变量X作u=( X - ? )/ ?变换, 使?=0, ?=1, 则正态分布转换为标准正态分布( 或呈U分布), 用N(0, 1)表示。 特征: 均数处最高;
以均数为中心, 左右对称; 有两个参数: ?和?;
态曲线下的面积分布有一定规律: 变量值范围 正态曲线下面积(变量值出现的概率) ? ? 1.0 ? 68.27% ? ? 1.96 ? 95.00% ? ? 2.58 ? 99.00% (2) 正态分布的应用: 常用于估计频数分布情况; 制定正常值范围。
正常值: 指正常人的各种生理常数。当资料呈正态分布时, 最常用X ? 1.96S估计95%正常
27
2
-1
-1
值范围, 其含义是指绝大多数正常的变量值都在这个范围内, 绝大多数是包括正常的80%、90%、95%和99%, 最常用95%。 4、均数的抽样误差和标准误 (1) 标准误的概念
即样本均数的标准差, 是说明均数抽样误差大小的指标。标准误愈小, 表示抽样误差愈小, 样本统计量对总体参数的估计愈可靠。 (2) 标准误的计算
?x=?/??n(总体标准误) sx=s/??n(样本标准误) (3) 标准误的应用
表示样本均数的散布情形; 估计总体均数的可信区间; 进行假设检验 5、t分布和总体均数的估计 (1) t分布的概念
对正态变量?X采用u=( ?X - ? )/ ?x变换, 将N(?, ?x)变换为标准正态分布, 即U分布, 而实际中?x往往用sx来估计, 这时对正态变量?X采用的不是U变换而是t变换, 即 t = ( ?X - ? )/ sx
其结果也不是U分布而是t分布。 (2) t分布的特征
与标准正态分布相比有以下特征:
a.二者都是单峰分布, 以0为中心, 左右对称;
b. t分布的峰部较矮而尾部翘得较高, 说明远侧的t值的个数相对较多, 即尾部面积 (概率P) 较大。自由度?越小这种情况越明显, ?逐渐增大时, t分布逐渐逼近标准正态分布; 当?=?时, t分布就完全成为标准正态分布了。 (3)t界值
t界值表, 横标目为自由度?, 纵标目为概率P, 表中数字表示自由度为?, P为?(检验水准)时, t的界值, 常记为t?,?。理论上
单侧: P( t ? - t?,?)= ?, 或P(t ? t?,?)= ?
双侧: P( t ? - t?,?)+P(t ? t?,?)= ?; P( - t?,? < t < t?,?)= 1 - ? (4)总体均数的估计
包括点值估计和区间估计。
a.区间估计的涵义: 意思是从总体中作随机抽样, 每个样本可以算得一个可信区间, 如95%可信区间, 意味着做100个可信区间, 平均有95个可信区间包括总体均数(估计正确), 只有5个可信区间不包括总体均数(估计错误)。
b.区间估计的方法: ?X -- t?,? sx < ?
?未知但n足够大 ?X - U?,sx < ?
28
2
6、假设检验 (1) 概念
所谓假设检验, 就是根据研究目的, 对样本所属总体特征提出一个假设, 然后用适当方法根据样本提供的信息, 推断该假设应当拒绝或不拒绝, 以使研究者了解在假设的条件下, 差异由抽样误差引起的可能性大小, 便于比较分析。 (2) 一般步骤
a.建立假设: H0: 无效假设。即假设样本指标与总体指标, 或样本与样本指标是相等的, 它们的差别是由抽样误差引起的。H1: 备择假设。是与H0相对立的假设。
b.确定检验水准: 亦称显著性水准, 代号为?, 是一个接受或拒绝H0的概率标准。常取? = 0.05或? = 0.01
c.选定检验方法和计算统计量: t检验, U检验, ?检验等。
2
d.确定P值:P值是指在由H0所规定的总体中作随机抽样, 获得等于及大于(或等于及小于)现有统计量的概率。
e.做出统计推断: 当P? ?时, 统计推断结论为按所取检验水准拒绝H0, 接受H1, 差别有显著性意义。
(3) 计量资料的假设检验
a.样本均数与总体均数的比较: H0: ? = ?0 t = ( ?X - ? )/ sx ? = n -1 b.配对资料的t检验: 即差值均数与总体均数0比较的t检验。
配对资料: 对同对的两个受试对象分别给予两种处理;对同一受 试对象分别给予两种处理; 同一受试对象处理前后的 比较。
H0: ?d = 0 t = ?d / sd
c.两样本均数的t检验: H0: ?1 = ?2 t = ( ?X1 - ?X2)/ sx1-x2 ? = n1 + n2 -2 d. 两大样本均数的U检验: H0: ?1 = ?2 U = ( ?X1 - ?X2)/ ?sx1+sx2e.多个样本比较F分析:F=MS组间/MS组内
(4) t、F检验的应用条件: a. 要求资料呈正态分步; b. 要求总体方差相等c.独立样本 (5) U检验的应用条件: 样本例数较大或总体标准差已知 (6) 第一类错误与第二类错误
第一类错误: 拒绝实际上是成立的H0, 概率为?。
第二类错误: 不拒绝实际上是不成立的H0, 概率为?, 1 - ?称为检验效能或把握度。 (7) 假设检验时应注意的问题 a. 要有严密的抽样研究设计;
b. 选用的假设检验方法应符合其应用条件; c. 正确理解差别有无显著性的条件意义; d. 结论不能绝对化;
29
2
2
相关推荐: