假设用药剂量、性别、血压组别无交互作用,则多元线性回归模型为
t?a0?a1x1?a2x2?a3x3?a4x4?? (1)
其中ai(i?0,1,2,3,4)是待估计的回归系数,?是随机误差。
利用Matlab统计工具箱中的regress命令求解待估计的参数得到下表
表1 多元线性回归模型参数表
参数 参数估计值 49.3652 -4.1373 5.6667 -0.7500 -2.3750 置信区间 [39.7308,58.9996] [-5.2888,-2.9857] [-1.0479,12.3812] [-8.9736,7.4736] [-10.5986,5.8486] a0 a1 a2 a3 a4 R2?0.7596,F?15.0126,p?0.0000 由上表可见,a2,a3,a4的置信区间都包含零点,解释不可靠,并且R2明显偏小,所以多元线性回归模型不可用,要对该模型进行修正,下面建立增加交互项和平方项的修正模型
2、增加交互项和平方项的修正模型
用药剂量、性别和血压组别之间可能具有交互作用,他们的交互作用分别用下面的乘积项表示。
1.用药剂量和性别的交互作用:x1x2;
2.用药剂量和血压组别的交互作用:x1x3,x1x4; 3.性别和血压组别的交互作用:x2x3,x2x4。
并且考虑到用药剂量、性别和血压组别之间的交互作用可能出项别的交互作用,增加各个因素的平方项,即:x1,x2,x3,x4。
所以增加交互项和平方项后的修正模型为
2222
t?a0?a1x1?a2x2?a3x3?a4x4?a5x2x3?a6x2x4?a7x1x2?a8x1x3?a9x1x4?ax?a11x2?a12x3?a13x4??2101222(2)
利用Matlab统计工具箱中的regress命令求解待估计的参数得到下表2.
表2 修正模型(2)参数表
参数 参数估计值 56.2761 -9.2951 2.2500 24.3382 2.9706 -5.0000 -2.7500 1.0000 -3.7647 -0.6618 0.5111 0 0 0 置信区间 [45.9721 ,66.5802] [-12.2689 ,-6.3213] [-6.9397 ,11.4397] [13.8899, 34.7866] [-7.4778 ,13.4190] [-13.3685 ,3.3685] [-11.1185 ,5.6185] [ -0.1718 ,2.1718] [-5.1999 ,-2.3295] [-2.0970 ,0.7734] [0.2833 ,0.7389] [0,0] [0,0] [0,0] a0 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 R2?0.9600,F?31.2308,p?0.0000 a12,a13的参数估计值都为0,从表2可以看出a11,并且置信区间都是[0,0],所以修正模型(2)中的病人病痛明显减轻的时间t并不受x2,x3,x4的影响,将x2,x3,x4项去除,得到修正模型(3)
222222t?a0?a1x1?a2x2?a3x3?a4x4?a5x2x3?a6x2x4?a7x1x2?a8x1x3?a9x1x4?a10x12?? (3)
从表2还可以看出,a2,a4,a5,a6,a7,a9的置信区间都包含零点,但是可以看出R2和F相对于多元线性回归模型(1)有了较大的改善。
下面利用Matlab的rcoplot命令对残差进行分析,做出残差分析图1如下所示。
图1 残差分析图1
观察图1发现有两个红色异常数据,应该剔除重新进行回归。 3、剔除第一组和第二十三组数据后的回归分析
利用Matlab统计工具箱中的regress命令求解待估计的参数得到下表3。
表3 第一次剔除数据后修正模型(3)参数表
参数 参数估计值 60.3492 -9.4786 1.0011 19.2994 2.1418 -2.9107 -3.6429 0.8599 -3.2731 -0.8718 置信区间 [47.5549 , 73.1435] [-12.4356 , -6.5215] [-8.2277 , 10.2298] [9.3447, 29.2541] [-9.1017 , 13.3853] [-9.6350 , 3.8136] [-11.1280 , 3.8422] [-0.2292 , 1.9491] [-4.4996 , -2.0466] [-2.3219 , 0.5782] a0 a1 a2 a3 a4 a5 a6 a7 a8 a9
a10 0.4913 [0.2985, 0.6841] R2? 0.9818,F?59.3390,p?0.0000 从表3可以看出,a2,a4,a5,a6,a7,a9的置信区间仍包含零点,但是R2和F相对于修正模型(2)又有了一定的改善。
利用Matlab的rcoplot命令对残差进行分析,做出残差分析图2如下所示。
图2 残差分析图2
观察图2发现仍有一个红色异常数据,应该再次剔除重新进行回归。 4、剔除第二十四组数据后的回归分析
利用Matlab统计工具箱中的regress命令求解待估计的参数得到下表4。
表4 第二次剔除数据后修正模型(3)参数表
参数 参数估计值 68.1995 -11.3881 -4.6058 13.0185 -2.1172 0.7492 -1.4151 置信区间 [54.7975 , 81.6014] [-14.5394 , -8.2368] [-14.2421 , 5.0304] [2.4940, 23.5430] [-12.6417 , 8.4073] [-6.0458 , 7.5442] [-8.2101 , 5.3799] a0 a1 a2 a3 a4 a5 a6
相关推荐: