SPSS统计软件 106
11 Logistic回归分析
在中医药科研中,经常遇到因变量是分类变量(包括二分类和多分类)的资料,如治愈与未治愈,生存与死亡,发病与未发病,疗效评价分显效、好转、无效等级等。这类资料,由于因变量是分类变量不具有连续性和正态性,直接用一般多元线性回归分析是不妥的,需用Logistic回归分析。Logistic回归分析是一种适用于因变量为分类变量的回归分析,近年来在许多研究领域得到了广泛的应用。
Logistic回归属于概率型非线性回归,它分为非条件Logistic回归和条件Logistic回归(又称配比Logistic回归),二者根本的差别在于构造Logistic模型时是前者未使用条件概率,后者使用了条件概率。
11.1 二分类资料的Logistic回归分析
如果因变量Y是二分类变量,其取值只有两种,如阳性(编码为1)和阴性(编码为0),这时要说明的问题是阳性率p?Pr(Y?1)与自变量X间的关系,可进行因变量为二分类资料的Logistic回归。二分类Logistic回归对自变量没有特殊要求,自变量可以是分类变量和连续变量。
11.1.1 一个两分类自变量的二分类Logistic回归
一个自变量的二分类Logistic回归要拟合的Logistic回归方程为:
plogit(p)?ln()?b0?b1X1
1?p例11-1 《实用中医药杂志》2006年1月
组别 例数 有效 无效
第22卷1期,复方血栓通胶囊配合肌苷片治疗治疗组 131 102 29 青少年近视,数据见表11-1。试作Logistic回对照组 76 18 58 归。
解 本例分组为自变量,疗效为因变量。以fz表示分组(值标签:1=“治疗组”、0=“对照组”)、lx表示疗效(值标签:1=“有效”、0=“无效”)、f表示频数变量建立数据文件,如图11-1。
1.操作步骤
(1)指定频数变量:选择菜单Data →Weight cases,在弹出的
Weight cases对话框中,将频数变量f送入Frequency框中;单击
图11-1 例11-1数据文件
OK。
(2)进行二分类Logistic回归分析。选择菜单Analyze →Regression →Binary Logistic(二分类Logistic),弹出Logistic Regression对话框,如图11-2;将因变量lx送入Dependent(因变量)框内,将自变量fz送入Covariates(协变量)框内;单击Options(选项)按钮,
表11-1 复方血栓通胶囊疗效观察
107 11 Logistic回归分析
在弹出的Options对话框中,选中CI for exp (B),单击Continue;单击OK。
图11-2 Logistic Regression对话框
2.输出结果
(1)图11-3是因变量赋值表。这是一个特别要留意的表,表中因变量原码值(Original Value)是按升序排列后转换为内码值(Internal Value)0Dependent Variable Encoding和1,Binary Logistic过程默认以内码值1所对应的因变Original ValueInternal Value00量取值的概率建立模型,本例以P(lx=1)即有效的概率建
11立模型。如果本例用1表示有效,2表示无效,则无效2 图11-3 因变量赋值 对应的内码值为1,将以P(lx=2)即无效的概率建立模型,
尽管所有统计检验结果仍然相同,但是回归系数的符号
全将反过来,所计算的Exp(B)就完全不同了。搞清实际分析资料因变量的赋值情况,对分析结果的正确解释很重要。
(2)初步模型拟合(输出结果中Block 0: Beginning Block部分,此处略去了输出图表)。给出模型不含任何自变量,只有常数项的一些分析结果,包括Classification Table表,给出模型不含任何自变量时,对所有观察对象的疗效情况进行预测,正确预测的百分率为58.0%;Variables in the Equation表,给出只有常数项的参数检验结果;Variables not in the Equation表,给出若将现有模型外的各个变量纳入模型,对整个模型的拟合优度改变是否有统计学意义。
(3)引入自变量后的模型分析结果(输出结果中Block 1: Method = Enter部分)。SPSS提供了7种建立Logistic回归模型的方法,可通过Logistic Regression对话框(见图11-2)中Method下拉列表框来选择,默认Enter法,即强迫所有的自变量同时进入模型,本例为Enter法(全变量模型)。结果如下:
①模型系数总检验(见图11-4)。给出了三个结果:Step统计量为每一步与前一步相比的似然比检验结果;Block统计量是指若将block1与block0相比的似然比检验结果;Model统计量则是上一个模型与当前模型的似然比检验结果。本例由于选择了默认的Enter法,三个统计量及其假设检验结果是一样的。χ2=59.969,P<0.01(Sig.为0.000),表明自变量fz引入模型有统计学意义。
SPSS统计软件 108
若是两个或两个以上自变量引入模型,模型系数总检验得到P??,拒绝H0,接受H1
(H0:?1??2????k?0,即除常数项外所有的总体回归系数全为0),表明至少有一个自变量的作用有统计学意义。
Model SummaryOmnibus Tests of Model CoefficientsStep 1StepBlockModelChi-square59.96959.96959.969df111Sig..000.000.000
-2 LogCox & SnellNagelkerkeSteplikelihoodR SquareR Squarea1221.711.252.338a. Estimation terminated at iterationnumber 4 because parameter estimateschanged by less than .001. 图11-4 模型系数总检验 图11-5 模型的贡献
②模型的贡献(见图11-5)。给出-2倍的似然对数值为221.711,结合①中提及的似然比检验结果,可认为模型成立。Cox and Snell R2和Nagelkerke R2分别为0.252和0.338,其含义与多元回归中的决定系数意义相同,表示回归模型对因变量变异贡献的百分比。
③分类表(见输出结果中Classification Table,此处略)。给出现在模型对因变量的分类预测情况。模型中已经引入了一个自变量,由这个自变量获得的预测概率≥0.5,则这个观测被预测分类为1;<0.5则预测为0,由此得到正确预测的百分率为77.3%,比没有自变量只有常数项的58.0%提高了19.3 %。
④进入回归方程的变量分析结果(见图11-6)。这是Logistic回归分析结果最重要的一部分。包括最终引入模型的自变量及常数项的系数值(B)、标准误(SE)、Wald卡方值(Wald)、自由度(df)、P值(Sig.)、OR值(Exp(B))及其95%的可信区间。
Variables in the EquationB2.428-1.170S.E..342.270Wald50.34018.807df11Sig..000.000Exp(B)11.333.31095.0% C.I.for EXP(B)LowerUpper5.79622.162Stepa1fzConstanta. Variable(s) entered on step 1: fz. 图11-6 例11-1参数估计及检验
本例变量fz的系数为b1=2.428,Wald卡方值为50.340,P?0.01,有统计学意义。自变量fz的比数比为OR=eb1?e2.428?11.333,即治疗组有效例数与无效例数之比,为对照
组有效例数与无效例数之比的11.333倍,可认为治疗组的疗效高于对照组。常数项b0=-1.170。本例Logistic回归方程为:
plogit(p)?ln()??1.170?2.428fz。
1?p值得注意的是OR值在不同的设计中意义不同:①病例-对照研究(回顾性研究),OR值为比数比,要注意病例与对照两组人数的比例是人为规定的,不代表自然人群中真实的
109 11 Logistic回归分析
病人与正常人的比值,因此,根据病例-对照研究资料建立的Logistic回归方程中,常数项意义不大,主要针对结果中自变量的回归系数及其相应的比数比OR值的意义作解释,不适宜直接用于所研究事件发生概率的预测和判别。②队列研究(即前瞻性研究),当队列研究的事件发生的阳性率很低(接近于0)时,可把OR近似看作相对危险度(RR),另外可用建立的Logistic回归方程对所研究的事件发生概率进行预测和判别。③疗效评价中的设计类似队列研究,但OR不能当作RR,还是作为比数比且结合具体问题加以解释为好。
11.1.2 两个两分类自变量的二分类Logistic回归
要拟合的Logistic回归方程为:
plogit(p)?ln()?b0?b1X1?b2X2
1?pSPSS实现两个两分类自变量的二分类资料Logistic回归分析与实现一个两分类自变量的二分类资料Logistic回归分析在步骤方法上是相同的。不同之处在于在建立SPSS数据集时两个自变量各占一列,因变量一列,频数一列,共四列。操作时,需将两个自变量都移到Covariates框内;结果给出常数项及两个自变量对应的参数估计及其检验统计量值,有两个比数比值。
11.1.3 无序多分类自变量的二分类Logistic回归
自变量中一个或多个为无序多分类变量,其Logistic回归,在方法上同上述二分类资料的Logistic回归,只是要对自变量的不同水平构造哑变。某一多分类无序自变量可构造的哑变量数等于该自变量的分类数减1。将哑变量引入模型,其结果无论有无统计学意义,都是相对事先确定该自变量某一类为对照而言的。SPSS对字符型多分类无序自变量,以(Cat)标示在该自变量后的括号内,系统默认相互比较的方法为Indicator,且以最后的那个分类为对照。
11.1.4 有序多分类自变量的二分类Logistic回归
有时,Logistic回归中自变量为有序多分类变量,即等级变量,如文化程度可分为文盲、小学、中学、大学及以上。这种资料的Logistic回归可分两种情况处理,如果自变量的等级分组与logitP呈线性关系,即等级效应等比例增加或减少,则该自变量可以作为一个数值型自变量引入模型,否则,将等级变量当作无序多分类自变量,以哑变量的形式引入模型进行分析。
11.1.5 引入数值型自变量的二分类Logistic回归
数值变量直接引入模型,得到相应的比数比OR是指自变量增加一个单位(如年龄增加1岁)比数自然对数值的变化量。若将数值自变量分成几个组段,如自变量年龄按10岁间隔分组引入模型时,其OR值是指年龄每增加10岁比数自然对数值的变化量。特殊情况下,数值变量(或分组后的变量)与logitP不呈线性关系,例如,研究年龄与冠心病的关系,从
相关推荐: