第一范文网 - 专业文章范例文档资料分享平台

Logistic回归分析使用说明工具产生背景 - 图文 

来源:用户分享 时间:2025/11/23 6:40:34 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

Logistic回归分析使用说明

一、工具产生背景

线性回归模型是一种流行的定量分析因变量与自变量之间相关关系的统计分析方法。然而在许多情况下,线性回归都会受到限制。比如,当因变量是分类变量而不是连续变量时,线性回归就不适用了。在许多科学和商业分析中,需要研究的变量都是分类变量而不是连续变量。例如,商业分析中所涉及的是否购买某商品,这种选择度量只有两类,即“是”与“否”。在调查研究中,态度与偏好等情感指标也是按几个类型进行测量的,如“强烈反对”,“反对”,“中立”,“支持”,“强烈支持”。甚至有时候人们更愿意将连续变量转换为分类变量。例如,在分析学生升学考试成绩的影响因素时,虽然考试分数是连续的,但是往往只需要被分为两类即可:录取线以上和录取线以下。只要选定一个分界点,连续变量就可以被转换为二分变量。

在定量分析分类变量时,常用的一种统计方法是对数线性模型,本文介绍对数线性模型的特殊形式——Logistic回归分析模型。

二、功能按钮说明

软件打开后界面如下:

接下来具体介绍功能的使用: 1、 选择因变量数据集

选择回归分析的因变量,数据格式需满足以下要求: 1) 首行为字段,且只能有一个字段 2) 字段为分类变量(比如0-1变量) 3) 字段为数值型 2、 选择自变量数据集

选择回归分析的自变量,数据格式需满足以下要求: 1) 首行为字段 2) 字段为数值型 3、 优化算法

优化算法决定了我们对逻辑回归损失函数的优化方法。工具提供了以下五个可选参数: 1) liblinear:默认参数。适合少量的数据。其内部使用了坐标轴下降法来迭代优化损失

函数。

2) lbfgs:拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函

数。

3) newton-cg:也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代

优化损失函数。

4) sag:即随机平均梯度下降,是梯度下降法的变种,和普通梯度下降法的区别是每次

迭代仅仅用一部分的样本来计算梯度,适合于样本数据多的情况。 5) saga:线性收敛的随机优化算法的的变种。 4、 分类方式

分类方式选择参数默认为“自动(auto)”。工具提供了以下三个可选参数: 1) 自动(auto)

根据数据集自动判断ovr和mvm哪一种方法更合适。 2) 二元回归(ovr)

ovr(one vs rest)的思想很简单,无论你是多少元逻辑回归,我们都可以看做二元逻辑回归。具体做法是,对于第K类的分类决策,我们把所有第K类的样本作为正例,除了第K类样本以外的所有样本都作为负例,然后在上面做二元逻辑回归,得到第K类的分类模型。其他类的分类模型以此类推。 3) 多元回归(mvm)

mvm(multi vs multi)相对复杂。这里举mvm的特例one-vs-one(ovo)作讲解。如果模型有T类,我们每次在所有的T类样本里面选择两类样本出来,不妨记为T1类和T2类,把所有的输出为T1和T2的样本放在一起,把T1作为正例,T2作为负例,进行二元逻辑回归,得到模型参数。我们一共需要T(T-1)/2次分类。

可以看出ovr相对简单,但分类效果相对略差(这里指大多数样本分布情况,某些样本分布下ovr可能更好)。而mvm分类相对精确,但是分类速度没有ovr快。如果选择了ovr,则4种损失函数的优化方法liblinear,newton-cg,lbfgs和sag都可以选择。但是如果选择了multinomial,则只能选择newton-cg, lbfgs和sag了。

5、 因变量权重

因变量权重用来标识各类型的权重。提供了以下三种可选参数: 1) none:表示所有分类的权重一样

2) balenced:根据训练样本量自动计算每个分类的权重。

计算方法如下:

n_samples / (n_classes * np.bincount(y)) n_samples为样本数,n_classes为分类数,np.bincount(y)会输出每个分类的样本数。例如y=[1,0,0,1,1],则np.bincount(y)=[2,3]。

那么因变量权重有什么意义呢。在分类模型中,我们经常会遇到两类问题:

1) 误分类的代价很高。比如对合法用户和非法用户进行分类,将非法用户分类为合法

用户的代价很高,我们宁愿将合法用户分类为非法用户,这时可以人工再甄别,但是却不愿将非法用户分类为合法用户。这时,我们可以适当提高非法用户的权重。 2) 样本高度失衡。比如我们有合法用户和非法用户的二元样本数据10000条,里面合

法用户有9995条,非法用户只有5条,如果我们不考虑权重,则我们可以将所有的测试集都预测为合法用户,这样预测准确率理论上有99.95%,但是却没有任何意

义。这时,我们可以选择balanced,让类库自动提高非法用户样本的权重。

提高了某种分类的权重,相比不考虑权重,会有更多的样本分类划分到高权重的类别,从而可以解决上面两类问题。 6、 最大迭代次数

算法收敛最大迭代次数,默认为100。仅在正则化优化算法为newton-cg, sag和lbfgs才有用。 7、 最小容差

判断Logistic回归可以收敛的最小容差,默认为0.0001,一般不需要改动。 8、 模型预测

运用回归方程对因变量进行预测。点击“模型预测”复选框将弹出以下对话框:

1) 训练数据集

使用计算好的回归方程预测训练数据集的因变量。所谓训练数据集即自变量数据集。 2) 新数据集

使用计算好的回归方程预测一个新选择的数据集的因变量。新选择的数据集需和训练用的自变量数据集具有相同的字段数,即变量的个数相同。

三、生成图表解释

1、 相关系数矩阵,如下:

相关系数矩阵X1X2X11.00X20.28Y-0.04Y0.281.00-0.83-0.04-0.831.00 在做回归分析前,第一个非常重要的步骤就是观察和描述两个连续变量之间的关系。皮尔逊相关系数是最常用的描述变量线性相关性的统计量。

2、 共线性诊断(VIF),如下:

共线性诊断(VIF)变量VIFX11.0846X21.0846 在进行多元线性回归的时候,自变量间的共线性问题容易导致模型不稳定,因此需要做共线性诊断,我们通过VIF(Variance Inflation Factor,方差膨胀因子)判断自变量之间的共线性问题。如果VIF>10,表示对应变量与其它变量存在高度共线性,可能造成模型不稳定。

3、 截距,如下:

截距截距3.8351 4、 回归系数,如下:

回归系数X1X20.4473-0.5800 优化算法选择不同,截距和回归系数也会相应改变。Logistic回归模型,实际上也是一种线性回归模型,可通过截距和回归系数写出回归方程,如下: Y = 0.4473 * X1 – 0.5800 * X2 + 3.8351 5、 模型评估,如下:

模型评估RMSER2_Score准确率0.200.840.96 通过观察以下三个指标来评价模型的拟合优度。 RMSE(均方根误差)越小说明模型拟合得越充分; R2_Score:决定系数,越大说明模型拟合得越充分; 准确率:基于训练数据集计算出的准确率。 6、 模型预测

运用计算好的回归方程预测一组自变量数据集的因变量。结果如下:

X1-0.01761-1.39563-0.75216-1.322370.4233630.4067040.667394-2.460150.569411-0.02663X214.053064.6625416.538627.15285311.054687.06733512.741456.8668059.54875510.42774YY预测0100010100010000000000.9869270.3760420.5729670.7120410.9158780.5205520.9629180.7770150.8098120.90249510.0130730.6239580.4270330.2879590.0841220.4794480.0370820.2229850.1901880.097505 预测结果不仅输出了每条记录的预测分类,还计算了每条记录被预测到不同分类的概率。对于二分变量的预测,如果以上回归方程的计算结果大于0则结果为1,否则为0。

Logistic回归分析使用说明工具产生背景 - 图文 .doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c3x32n84wqq2i4cx3q5al1oirv327wf00pla_1.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top