多重填补处置有缺失数据的2×2交叉设计
资料的运算机模拟
者:李清华 夏结来 薛富波
【关键词】 缺失数据
【Abstract】 AIM: To handle 2×2 crossover data set with missing data by using Multiple Imputation method provided by Rubin and to avoid the difficulties in statistical analysis owing to missing data in medical research. METHODS: We used MI to fill in missing data and analyzed the multiply imputed data sets with standard statistical procedure, then combined the statistical inferences with MIANALYZE procedure. RESULTS: The multiple imputation method imputed missing values of the crossover design and generated valid statistical inferences. CONCLUSION: MI and MIANALYZE procedures provide a valid strategy for handling 2×2 cross over data set with missing data.
【Keywords】 multiple imputation analyze; missing data;cross over design
【摘要】 目的: 探讨利用Rubin提出的多重填补的方式处置有缺失数据的2×2交叉设计的资料,以幸免医学科研中常常发生观测数据的缺失而造成统计分析的困难. 方式: 用MI对缺失数据进行
填补,用标准的统计程序对填补后的数据集分析,最后用MIANALYZE综合各个数据集的统计分析结果. 结果: 多重填补的方式可用于交叉设计中缺失数据的填补并得出正确的统计推断. 结论: MI与MIANALYZE为处置存在缺失数据的2×2交叉设计的资料提供了有效的策略.
【关键词】 多重填补分析; 缺失数据;交叉设计 0引言
交叉设计是临床实验中比较两种处置A,B效应的经常使用方式. 其优势是减少个体不同对实验结果的阻碍,减小样本量. 但长期以来如何处置交叉设计的缺失数据是一个棘手的问题,临床实验中最经常使用的处置缺失数据的LOCF(Last Observation Carried Forward)原那么并非适合于交叉设计. 通常,当受试者有一时期的数据缺失时,那么把受试者的信息全数剔除. 这造成了资源的极大浪费,专门是在样本量较小的情形下.
1976年,Rubin[1]提出了处置缺失数据的多重填补(multiple imputation,MI)的方式[2]. 多重填补用一系列可能的值来替换每一个缺失值,以反映被替换的缺失数据的不确信性. 然后,用常规的方式对多次替换后产生的假设干个数据集进行分析,最后用多重填补分析(multiple imputation analyze, MIANALYZE)把来自于各个数据集的统计结果进行综合. 这种方式反映出了由于数据缺失而致使的不确信性,能够产生加倍有效的统计推断[3]. 在近二、三十年来,随着计算方式的不断成熟和相应统计软件的显现,这一方
式被以为是解决缺失值问题的首选方式.
依照多重填补与多重填补分析的方式及其统计推断原理,能够利用SAS程序处置有缺失数据的2×2交叉设计的资料. 由于多重填补只处置包括两个变量以上的资料,在SAS程序中先按处置重复资料的方式排列2×2交叉设计的资料,用PROC MI进行填补,然后利用SAS程序对填补后的m个数据集进行转换,对转换后的数据集用GLM分析,最后用PROC MIANALYZE的ods output语句读取对m个数据集分析后取得的参数估量和协方差矩阵,得出综合的统计推断结果. 多重填补与多重填补分析的整个进程能够用Fig 1表示.
1运算机模拟与分析
为了验证多重填补方式处置有缺失数据的2×2交叉设计资料的有效性,成立线性模型如下[4]:
yij=β0+β1x1ij+β2x2ij+μ0j+eij
以yij表示第j个患者的第i次测量值,以x1ij表示A, B两种处置的哑变量,x2ij表示两个实验时期的哑变量,它们均为0, 1变量. j=1,2,…,100,…表示患者,i=1,2,表示重复测量值. β0为固定效应估量值. 残差μ0j为随机变量,μ0j~N(0,σμ02),反映了患者间变异,残差eij即通常的残差项,eij~N(0,σe02).
交叉实验要紧关切A,B处置间的不同,因此在运算机模拟时,重点考虑β1的取值而且在模拟结果中只分析处置效应的查验效能. 先依照成立的模型,利用Monte Carlo模拟创建一个完全数据集,然后用SAS程序把那个完全数据集随机去掉几个测量值,变成缺失数据
相关推荐: