第十章统计表和统计图
1. 统计表的基本要求
(1)标题:概括表的主要内容(时间、地点、研究内容等),放在表的上方。表编号与标题间间隔一个汉字距离;如整个表指标统一,还应将指标的单位标在标题后面。
(2)标目:分别用横标目和纵标目说明每行和每列内容或数字的意义,标明指标的单位。通常描述的对象为横标目,内容(指标)为纵标目,从左向右读可以构成完整的一句话。 (3)线条:至少用3条线:顶线、底线和纵标目线。顶线和底线将表格与文章其他部分分隔开,纵标目线将标目的文字区与表格的数字区隔开,还可用横线将合计和两重纵标目隔开,其他竖线和斜线一概省去。顶线和底线线条粗细一般为1.5磅,其他线条一般为0.5磅。 (4)数字:用阿拉伯数字表示。无数字用“—”表示,缺失数字用“?”表示,数值为0者记为“0”,不留空项。数字按小数点位数对齐,同一指标最好保留相同位数的小数位数。 (5)备注:表中数字区不要插入文字。必须说明者表“*”,在表下方以备注的形式说明。
高级统计方法
第十二章重复测量资料的方差分析
1. 重复测量设计与随机区组设计的区别:(1)重复测量设计中“处理”是在区组(受试者)间随机分配,区组内的各时间点是固定的,不能随机分配;(2)重复测量设计区组内实验单位彼此不独立;
2. 球对称(sphericity):所有两两时间点变量间差值对应的方差相等,即重复测量的误差的协方差经正交对比变换后与单位矩阵成比例。 3. 重复测量资料方差分析的资料条件:
(1)正态性:处理因素的各水平样本个体间是相互独立的随机样本,其总体均数服从正态分布(个体间独立,个体内不独立);
(2)方差齐性:相互比较的各处理水平的总体方差相等,即具有方差齐同; (3)各时间点组成的协方差阵具有球形性特征。
第十五章多元线性回归分析
1. 偏回归系数(partial regression coefficient):多元线性回归模型中自变量Xj的系数?j,表示在其他自变量保持不变时,Xj增加或减少一个单位是Y的平均变化量。 2. 复相关系数(multiple correlation coefficient):R?R2,表示因变量Y与多个自变量
?之间的相关程度。若只有一个自变量,R?r。的线性相关程度,也是观察值Y与估计值Y
3. 标准化回归系数:对数据标准化后得到的标准化回归方程的回归系数即为标准化回归系数,b?j?bj??Sj?SY??,用来比较各个自变量Xj对Y的影响强度,在有统计学意义的前提下,?标准化回归系数的绝对值越大说明相应自变量对Y的作用越大。
5
?????X??X????X?e)4. 多元线性回归模型(Y应满足的条件:①Y与X1,01122mmX2,?,Xm之间具有线性关系;②各例观察值Yi相互独立;③残差e服从正态分布。
5. 哑变量(dummy variable):在多元线性回归模型中,当自变量为多分类变量(g个水平)时,需要将原来的多分类变量转化为(g-1)个哑变量并进行编码,每个哑变量只代表两个级别或多个级别间的差异。应用哑变量时要注意:①哑变量同时存在,其统计学意义是相对而言的,不能采用常规的逐步回归进行变量选择;②可采用加与不加入哑变量的偏回归平方和F检验确定哑变量有无意义。 6. 多重共线性(collinearity):某些自变量间存在较强的线性关系,使得一个或几个自变量可以由另外的自变量的线性关系表示,则该变量与另外的自变量间存在多重共线性。多重共线性可能导致回归方程不稳定、参数估计值标准误变得很大、t检验不准确、估计值的正负符号与实际不符等。
7. 交互作用:当某一自变量对因变量的作用大小与另一自变量的取值有关,则这两个自变量有交互作用。是否考虑交互作用主要靠专业知识判断。为了检验两个自变量是否具有交互作用,普遍的做法是在模型中加入它们的乘积项(作为交互项)。 8.线性回归分析的SAS结果解释:
??2.99422?0.99733x; (1)线性回归方程:Y(2)该线性回归模型的统计学检验结果:模型的方差分析统计量F=6.91,P=0.0303<0.05,
说明该线性回归模型具有统计学意义。
(3)R-Square=0.46353的意义:该线性回归模型可以解释因变量Y的总变异的46.353%; (4)回归系数估计值b=0.99733的意义:表示X对Y影响的大小,X每改变一个单位,Y改变0.99733个单位;其假设检验结果合方差分析结果的联系:方差分析结果说明X与Y之间存在的线性关系,t检验结果说明计算得到的回归系数b有统计学意义,在此问题中,二者是等价的,均说明该回归模型具有统计学意义。 (5)相关系数及其检验结果并解释该结果:r=0.68073,对r进行t检验得到P=0.0303<0.05,则该相关系数具有统计学意义,说明X与Y之间具有中等强度的正相关关系。
6
第十六章 Logistic回归分析
?P???logit(P)?exp(?0??1X1????mXm)。将某1?P??1. logistic回归模型一般形式:ln?事件的阳性与阴性结果概率之比去自然对数称为logit变换,记为logit (P)。
2. 回归系数?j采用最大似然估计(maximum likelihood estimate, MLE,使在一次抽样中获得现有样本的概率最大)得到表示自变量Xj改变一个单位时logit P的改变量。多变量调整后的优势比ORj?exp(?j),表示扣除了其他自变量的影响后危险因素的作用。ORj=1,说明Xj对疾病发生不起作用ORj>1,说明Xj是一个危险因素;ORj<1,说明Xj是一个保护因素,ORj的1??可信区间为:exp(bj?u?/2Sb)。
j3. logistic回归模型假设检验的方法:似然比法(G?2(lnL1?lnL0),适合单个和多个自变
?bjbj2量的假设检验)、Wald检验(u?或????SbSbj?j??,适合单个自变量的假设检验)和计分??2检验(适合样本量较小的情况)。变量筛选的方法:前进法、后退法、逐步法。
4. 条件logistic回归:适用于1:M配对设计资料,条件似然函数估计的是在M+1个观察对象中恰好第一个观察对象属于病例组的条件概率,它只估计了表示危险因素作用的?j,表示匹配组效应的常数项?0被消去。
5. 有序logistic回归基于累积概率构建回归模型,g个类别的因变量Y的有序logistic回归包括g-1个方程,这些方程的回归系数均相同,差别主要体现在各方程的常数项?0不同。在对因变量Y赋值时,应将专业上最不利的等级赋最小值,最有利的等级赋最大值。
6. 多分类logistic回归是二分类logistic回归的扩展,即选择一个参照类别,拟合剩余各类别相对于参照类别的logistic回归模型。
第十七章生存分析
1. 生存分析的数据特点:(1)同时考虑生存时间和生存结局;(2)通常含有删失数据(censoring,可能的原因:①研究截止但终点事件仍未出现;②失去联系或其他原因导致失访;③死于其他“事件”);(3)生存时间的分布通常不服从正态分布。
2. 统计学分析方法:由于生存时间一般不呈正态分布,且需考虑是否为删失值,所以生存分析有其独特的统计方法。 (1)非参数法:
①生存率的估计采用Kaplan-Meier法、寿命表法(频数表资料);
②两组或多组生存率的比较,常用log-rank检验(时序法,权重?i?1,对观察后期
7
差别敏感)和Breslow检验(权重?i?ni,ni为期初人数,随生存时间增大而逐渐减小,Breslow检验给观察早期差别更大权重,故对观察早期差别敏感)。 (2)半参数法:多因素生存分析常采用Cox比例风险模型(前提条件:假定风险比值h(t)/h0(t)为固定值,即协变量对生存率的影响不随时间的改变而改变。检验此前提的方法:①分类协变量每组的K-M生存曲线无交叉;②协变量与生存时间的交互项无统计学意义等。其参数估计方法为最大似然法)。
(3)参数法:指数分布法、Weibull分布法等回归模型。 3. 多元线性回归、logistic回归和Cox回归的相同点和不同点 (1)相同点:
①自变量可为连续变量和多分类变量,多分类变量需哑变量化,哑变量在模型中是一个整体,必须同时“进”同时“出”;
②自变量间存在较强相关关系时可能导致多重共线性问题;
③自变量间可能存在交互作用,模型中通常采用自变量的乘积作为交互项; ④均可采用逐步回归筛选变量;
⑤均可进行影响因素分析、混杂因素校正、预测分析等。 (2)不同点:
第十八、十九章判别分析和聚类分析
1. 判别分析(discriminant analysis):根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。
2. Fisher判别准则:它使得类间点的距离最大,而类内点的距离最小,适合于两类的判别分析;Bayes判别准则:它使得每一类中的每个样本都以最大的概率进入该类,适合于多类的判别分析。
8
相关推荐: