有问题到淘宝找“大数据部落”就可以了。
一、研究内容
1.1、研究背景
客户在电信运营商户群中的地位十分重要。在电信业新的市场格局重新确定后,各大电信运营商间的竞争往往首先发生在对客户资源的争夺上。如何有效地保留现有客户、开发潜在客户、回流已流失客户是电信运营商在当前日益激烈的市场竞争中必须重视的三个环节。所以,进行电信客户流失问题的研究,显得尤为重要。
1.2、研究目的
通过运用决策树和Logistic回归方法,找出影响客户流失的因素,建立合适的模型,对电信客户流失问题进行分析以及提供一些合理化的建议。
1.3、研究意义
了解不同区域电信客户流失的现状,并根据找到的一些影响因素,保留现有客户、开发潜在客户、回流已流失客户这三个方面提供一些建议。
1.4、研究方法
主要采用决策树和Logistic回归方法对数据进行分析。
二、数据介绍
2.1、数据来源
本次分析的数据来自SPSS软件自带数据文件telco.sav。。
2.2、指标选取
本次分析一共选取了19个指标1000个样本,分别是:区域、月服务、年龄、婚姻状况、居住时间、收入、受教育水平、工作时间、退休、性别、家庭人数、免费服务、设备租赁、呼叫卡服务、无线服务、长途距离、免费通信、客户类别、流失。
2.3、指标介绍
有问题到淘宝找“大数据部落”就可以了。
(1)区域:电信客户来自3个不同的区域,1表示区域1,2表示区域2,3表示区域3;
(2)月服务:电信客户上个月呼叫的电信服务次数; (3)年龄:电信客户的年龄;
(4)婚姻状况:电信客户的婚姻状况,0表示未婚,1表示已婚; (5)居住时间:电信客户在本区域的居住时间; (6)收入:电信客户以家庭为计算的收入;
(7)受教育水平:电信客户的受教育水平,1表示高中以下,2表示高中,3表示专科,4表示本科,5表示研究生;
(8)工作时间:电信客户已经工作的年限;
(9)退休:电信客户的退休状态,0表示未退休,1表示已退休; (10)性别:电信客户的性别,0表示男性,1表示女性; (11)家庭人数:电信客户的家庭人口数;
(12)免费服务:电信运营商是否提供免费服务,0表示提供,1表示不提供;
(13)设备租赁:电信运营商是否提供设备租赁,0表示提供,1表示不提供;
(14)呼叫卡服务:电信运营商是否呼叫卡服务,0表示提供,1表示不提供;
(15)无线服务:电信运营商是否提供无线服务,0表示提供,1表示不提供;
(16)长途距离:电信客户距离电信中心的距离; (17)免费通信:电信运营商提供免费通信的时间;
(18)客户类别:电信运营商提供服务的类别,1表示提供基本服务,2表示提供电子服务,3表示提供附加服务,4表示提供全方位服务; (19)流失:电信客户上个月是否流失,0表示未流失,1表示流失。
三、数据预处理
3.1、数据审核
有问题到淘宝找“大数据部落”就可以了。
由上表,可得:本次分析的数据都是有效的,不存在缺失值。
3.2、描述性统计量
有问题到淘宝找“大数据部落”就可以了。
由上表,可得:月服务、年龄、居住时间、收入、工作时间、家庭人数、长途距离、免费通信这8个变量的均值分别为:35.526、41.684、11.551、77.535、10.987、2.331、11.723、13.274,可以看出这8个连续性变量不存在量纲上的差异,因此在后面的分析中,不需要进行标准化处理。同时,这8个变量之间存在较强的线性相关性,说明变量之间存在严重的多重共线性,可以考虑对变量进行降维后在进行分析。
四、LOGISTIC回归分析
由于数据中的被解释变量流失只有未流失和已流失两个类型,所以我们进行二项Logistic回归分析。结合变量间存在严重的多种共线性,我们直接采用前进(后退)法进行Logistic回归分析。
4.1、基本变量分类定义
相关推荐: