3. 评估判别函数的判别效能:原始数据的分类要可靠准确;指标变量对判别函数的作用要显著;判别函数的回代错判率和事后概率错误率要小。 4. 聚类分析(Cluster Analysis):对于总体分类未知的一群事物依照“物以类聚”思想,把性质相近的事物归入同一类,而把性质相差较大的事物归入不同类的一种统计分析方法。 5. 聚类分析和判别分析的区别和联系 (1)区别:
①聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类; ②聚类分析事先不知道事物的类别,也不知道应分几类;而判别分析必须事先知道事物的类别,也知道应分几类;
③聚类分析不需要分类的历史资料,能直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。
(2)联系:先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别((identification )
第二十章主成分分析和因子分析
1. 主成分的性质
(1)主成分互不相关;
(2)主成分的贡献率和累积贡献率:贡献率越大,表明主成分综合原始指标信息的能力越强;累积贡献率越高,说明前k个主成分综合原始资料信息的比例越高;
(3)主成分个数的选取:①以累计贡献率确定:累积贡献率≥70%为宜;②以特征根值大小确定:特征根值≥1。
(4)因子荷载:因子荷载反映主成分与原始指标间密切程度与作用方向; (5)样品的主成分得分:根据主成分表达式计算样品的主成分值,推断和评价样品的特性。 2. 因子模型的性质: (1)公共度:共性方差h2i反映全体原始指标Xi对所有公因子的依赖程度; (2)因子贡献及因子贡献率:g2j的值越大,则Fj对原始指标的影响越大; (3)因子荷载及因子荷载矩阵:因子荷载反映公因子与原始指标间密切程度与作用方向; 2. 主成分分析和因子分析的区别和联系 (1)联系:
①都是根据变量之间内部相关性来提取主要信息,获得新的变量(公因子变量和主成分变量),达到减少变量个数(降维)的目的;
②主成分分析模型两端同时乘以A?,则有X? A? F,即为无特殊因子的公因子模型; ③因子分析的结果(主成分解)即为主成分分析的结果,因子分析的主因子解也常常由主成分分析的结果作为h2i的初始值计算。 (2)区别:
主成分分析是将m个原变量提取I (I≤m)个互不相关的主成分,准确计算各主成分的得分,其分析重点在于通过主成分综合原始变量的信息;
因子分析是提取I (I≤m)个支配原变量的共性因子和1个特殊因子,各因子之间可以互不相关或相关,根据共性因子得分系数估计因子得分,其分析重点是通过寻找共性因子解释原始变量之间的关系。
第二十一章典型相关分析
9
1.典型相关(Canonical Correlation Analysis):是研究两组变量之间相关性的一种统计分析方法。是一种降维技术。
2. 典型相关分析基本思想:借助主成分分析的思想,分别计算得到两组变量的主成分,根据主成分综合原始变量信息的能力配对得到第i对典型相关变量(Ui,Vi)。两个第一主成分间的相关程度最大,即构成了第一对典型相关变量(U1,V1)。根据典型相关变量计算典型相关系数,更加全面得反映原来两组变量之间的整体相关性。 3. 典型相关系数(canonical correlation coefficient):第i对典型相关变量间(Ui,Vi)的相关系数称为第i典型相关系数,反映了两组变量中存在的多种相关信息中第i大的一种。
医学研究的统计学设计
1.统计学设计内容:研究对象(分组、设置对照、样本含量)、处理因素、观察指标、数据的质量控制与管理、统计分析方法。
2. 研究设计的三要素:受试对象、处理因素、实验效应。 3. 实验设计的基本原则:重复、对照、随机化 4. 随机的三个含义:
分组随机-均衡性:每个研究对象有同等机会被分配到各处理组 抽样随机-代表性:总体中每个观察个体有同等机会被抽取 实验顺序随机:每个研究对象先后接受处理的机会相同 5. 影响样本含量大小的因素:
样本含量的估计时,通常是由犯I类错误的概率?、检验效能1-?、个体值间的离散程度S、以及容许误差d来确定样本含量。
6. 常用的随机抽样方法:单纯随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样等。 7. 对照类型:、空白对照、实验对照、标准对照、相互对照、自身对照
诊断试验评价与ROC分析
1. 常用指标:正确百分率、灵敏度、特异度、Youden指数、阳性似然比、阴性似然比、阳性预测值、阴性预测值。
诊断结果(T) 阳性(T+) 阴性(T-) 合计
金标准(D)
病例(D+) TP(真阳性) FN(假阴性) TP+FN
对照(D-) FP(假阳性) TN(真阴性) FP+TN
合计 TP+FP FN+TN N
2. ①灵敏度与特异度取值范围均在0~1之间,其值不受患病率的影响;②Youden指数的取值范围在0~1之间,其值越接近于1,诊断准确性越好;③阳性似然比的取值范围为(0, ∞),其值越大,检测方法证实疾病的能力越强;④阴性似然比的取值范围为(0, ∞),其值越小,检测方法排除疾病的能力越好;⑤当灵敏度与特异度为常数时,增加患病率将增加阳性预测值,而降低阴性预测值。
10
相关推荐: