下,容易发生心脑血管事件从而造成脑卒中的病发。所以,特别是对有危险因素如高血压、糖尿病、动脉硬化的老年人,在季节交换的月份要注意防寒保暖,做好防御疾病的相关措施,在春冬季节的时候要注意保暖,常到阳光充足的地方晒晒太阳,这样有利于对危险因素的控制,防止脑卒中的病发。 4)按职业分析
根据2007-2010年的数据,本文通过统计不同职业的患病人数得到下图
图4:不同职业患病人数比例
根据图4本文抛开其他和缺失数据的选项,根据不同职业的患病人数进行分析,农民这一职业中脑卒中的患病人数最多,由于农民市场在野外劳作,长时间经受烈日的暴晒以及暴雨的冲洗容易导致脑卒中的病发;其次是退休人员,退休人员大多数和老人,老人容易患心脏病和高血压等疾病,由于这些疾病容易造成脑卒中的病发,所以退休人员中有较多的患病者;接着是工人,由于工人的工作环境比较恶劣,并且时常加班加点,造成体力活动过量,进而促使脑卒中的病发,所以工人占据一定的比例。 5.2问题二模型的建立与求解
5.2.1模型一:基于Pearson简单相关分析的模型
相关关系是现象间不严格的依存关系,即个变量之间不存在确定性的关系,依据陈胜可[3]的总结:相关关系中当一个或几个相互联系的变量取一定数值时,与之相应的另一变量也会发生变化,但其关系值不是固定的,往往按照某种规律在一定范围内变化。
通过对附件给出的数据,首先计算气象因素月平均值和脑卒中月平均发病数具体数据如下表
表3:2007-2010年的月平均数据 月份 1 2 3 4 5 6 平均气压 11.74395 1022.144 1019.225 1017.117 1009.714 1005.694 最高气压 285.625 1024.994 1022.362 1020.139 1011.883 1007.387 最低气压 1024.48 1019.114 1015.985 1014.057 1007.36 1003.871 平均气温 3.758065 6.739347 10.34839 13.38164 21.58629 24.47417 最高气温 7.604032 10.88575 14.79516 17.8093 26.7379 28.3075 最低气温 0.841935 3.484698 6.644355 9.648548 17.34435 21.60833 平均湿度 67.83065 70.70628 67.25 66.37554 64.41935 77.15833 最低湿度 51.00806 51.9572 46.39516 46.12258 40.21774 58.58333 患病人数 1348.25 1256.25 1373 1346 1400.5 1232.5
7
7 8 9 10 11 12 1003.923 1006.024 1011.334 1018.21 1023.169 1023.33 1005.584 1007.738 1013.048 1020.188 1025.4 1026.137 1002.137 1004.261 1009.635 1016.358 1020.913 1020.61 29.14839 28.8871 24.78 19.43629 12.16667 6.805645 33.26532 32.88226 28.54333 23.58871 16.5825 11.01855 26.00806 25.94597 22.04333 16.01129 8.56 3.379839 73.83871 74.8871 78.175 73.16935 70.975 66.8629 55.35484 56.19355 60.14167 50.54032 48.91667 46.97581 1300 1295.75 1241 1330.5 1205 1142.5 若随机变量X、Y的联合分布是二维正态分布,xi和yi分别为n次独立观测值,相关系数r的公式为
r?ni?1?(xi?1ni??x)(yi?y)2?? (1)
?(x?i?x)?(yi?1ni?y)2??1n1n其中x??xi,y??yi。
ni?1ni?1通过Matlab结合表3的数据计算得到
表4:指标的相关关系r值 变量 r值 平均气压 最高气压 最低气压 平均温度 最高温度 最低温度 平均湿度 最低湿度 -0.1326 -0.1161 -0.1161 0.0952 0.1139 0.0743 -0.3798 -0.4005 简单相关系数r有如下性质
表5:相关系数r的性质 -1 (-0.5,0) 0.5 完全负相关 弱负相关 中正相关 (-1,-0.5) 0 (0.5,1) 强负相关 无线性相关 强正相关 -0.5 (0,0.5) 1 中负相关 弱正相关 完全正相关 结合表4和表5得知脑卒中的患病人数与各个自变量之间的关系如下表
表6:各个自变量与脑卒中的相关关系 变量 平均气压 最高气压 最低气压 平均温度 最高温度 最低温度 平均湿度 最低湿度 关系 弱负相关 弱负相关 弱负相关 弱正相关 弱正相关 弱正相关 弱负相关 弱负相关 5.2.2模型二:逐步回归模型 步骤一:多元线性回归方程的建立
多元线性回归方程
的基本公式
y??0??1x1?...??mxm?? (2)
式中?0,?1....?m表示方程的回归系数,对于回归系数采用最小二乘法进行拟合,公式为
[3-4]
??(XTX)?1XTY (3)
通过计算得到回归参数?0,?1....?m为[-22613 2274 -1020 -1227 538 -628 133 35
-79]
^从而得到多元线性回归方程
8
y??22613?2274x1?1020x2?1227x3?538x4?628x5?133x6?35x7?79x8 (2)
通过Matlab软件对方程拟合度进行分析结果如下
图5:各个指标与患病人数的拟合图
对方程拟合优度进行检验得到决定系数R2?0.54通过修正得R2?0.69,R2越大说明方程的拟合程度越好。
根据拟合优度的检验以及图5的拟合效果发现回归函数的拟合程度不高存在较大的误差,可能存在一些不相关的指标影响着模型的拟合,因此需要对方程作进一步分析。 步骤二:函数的误差分析
根据多元线性回归方程公式(4)利用表3中各个自变量的数据进行预测,通过预测得到的数据与实际想比较,计算出回归方程的误差,本文通过残差进行检验,残差的
计算公式为: et?yi?yi (3) 计算的得到的预测值和残差如下表
表7:预测值及残差 月份 1 2 3 4 5 6 7 8 9 10 11 12 实际 1348.25 1256.25 1373 1346 1400.5 1232.5 1300 1295.75 1241 1330.5 1205 1142.5 预测 1501.3 1419.1 1530.4 1499.9 1530.2 1388.0 1450.8 1488.5 1353.4 1473.6 1396.1 1311.6 残差et -153.05 -162.85 -157.4 -153.9 -129.7 -155.5 -150.8 -192.75 -112.4 -143.1 -191.1 -169.1 ^
根据表4中各个月份的残差值,分别计算出残差绝对值与实际数据的比值,公式
etCt??100%i?1,2,3...12 (4)
St式中Ct表示残差绝对值与实际值的百分比,et各个月份残差绝对值,St表示各月
9
份的实际值。理想的即误差较小的函数残差跟实际数据的比值百分比比较小。通过计算得到如下结果
表8:残差绝对值与实际值的百分比 月份 1 2 3 4 5 6 比值 11.35% 12.96% 11.46% 11.43% 9.2% 12.62% 月份 7 8 9 10 11 12 比值 11.6% 14.88% 9.05% 11.75% 15.85% 14.80% 通过上表的数据可以看出每个月份残差绝对值与实际值的百分比都超过了10%,本
文认为模拟出来的数据残差百分比超过5%的公式,拟合程度不高,自变量中存在一些对拟合有影响的因素。 步骤三:逐步回归分析
题目需要分析脑卒中的发病率与气温、气压以及相对湿度间的关系,本文首先考虑8个指标:平均气压、最高气压、最低气压、平均气温、最高气温、平均相对湿度和最低相对湿度共同作用对发病率的影响,由于一些对因变量影响不显著的指标降低了模型的拟合度,因此采用逐步分析回归剔除影响不显著的指标。
通过t检验逐步分析各个自变量对脑卒中发病率影响,对通过不了t检验(对发病率影响很小)的自变量进行逐个的剔除,最终得到全部能通过t值检验的数值指标作为最终函数的自变量,然后再对函数进行相关分析。 t检验
在回归模型中变量的选择是一个难题,在选择变量时,一方面希望尽可能不遗漏重要的影响变量,另一方面又要遵循参数节省原则,使自变量的个数尽可能少,因为当自变量数目较过大时,模型计算复杂,且会扩大估计方差,降低模型精度。
对于变量的筛选方法比较多,结合本题的情况本文采用向后选择变量法进行筛选,它是变量筛选的一种常用方法。它首先以全部自变量x1?x8作为解释变量拟合方程(公式4),然后每一步都在未通过t检验的自变量中选择一个值最小的变量,将它从模型中删除,直到某一步之后所有的自变量都通过t检验。
通过Matlab软件求得t值如下表
表9:各个自变量的t值 x t值 x1 x2 x3 x4 x5 x6 x7 1.2724 x8 -2.3166 4.0125 -3.6197 -4.2583 0.9795 -2.1823 0.4217 注:x1平均气压,x2最高气压,x3最低气压,x4平均气温,x5最高气温,x6最低气温,x7平均相对湿度,x8最低相对湿度
根据查表得知t的临界值为3.182,小于临界值的指标有x4、x5、x7和x8。对于t的绝对值最小的自变量,认为该变量对脑卒中发病率的影响最低,可以剔除。根据表5可以看出x6的t值绝对值最小,对因变量的影响最小,因此可以剔除x6—平均相对湿度这一变量,根据向后选择变量法思想,删除x6这一指标后对剩余的7个自变量重新拟合回归方程,此时方程为
y??22803.9?2318.66x1?1056.86x2?1234.7x3?749.57x4?706.61x5?26.48x7?69.33x8
通过Matlab软件对方程拟合度进行分析结果如下
10
相关推荐: