第一范文网 - 专业文章范例文档资料分享平台

3-5 基于随机森林的合肥市城区商品房定价模型探索

来源:用户分享 时间:2025/6/3 7:38:58 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

(三)随机森林模型建立

传统的统计模型对数据有较严格的要求,必须满足一定的假定条件,且模型也以明确的形式表现出来。而机器学习方法抛弃了先作假设再估计参数的建模方式,完全从数据本身出发,探索内在的数量规律性。我们尝试使用随机森林方法构造楼盘价格与各项变量间的一般关系模型,该方法是一个包含多个决策树的分类器,其产生的决策树的样本和节点都是随机的,由N个树中选择最多的分类作为输出结果。随机森林可以用于分类和回归。当因变量y是分类变量时,是分类; 当因变量y 是连续变量时,是回归。自变量x 可以是多个连续变量和多个分类变量的混合。

1.回归模型 (1)模型拟合

对楼盘数据做随机森林回归,并采用五折交叉验证判断模型的精确度。由于随机森林方法对数据的量纲和单位并不敏感,所以并不需要进行标准化或归一化处理。为了评价模型的拟合及预测能力,本研究根据均方误差来做出评价。指标数字越小则说明模型的预测值与真实值之间差异越小,模型的预测能力越强。

通过随机形成的5个训练集分别建立模型,对训练集和测试集分别得到5个标准化均方误差(NMSE),再得到平均NMSE,以评价模型预测精度。令y为因变量均值,

?为由训练集建立的模型的预测值,则标准化均方误差NMSE定义为: yNMSE??)?(y?y?(y?y)22

得到训练集的NMSE为0.1216,测试集NMSE为0.6497,与m-boosting、Bagging等其他分类器的精确度相比,随机森林预测精度最高。

8

表4 随机森林及其他分类器五折交叉验证结果

分类器 随机森林 m-boosting Bagging 训练集NMSE 0.1216 0.3478 0.3604 测试集NMSE 0.6497 0.6499 0.6971 用随机森林模型对合肥城区楼盘价格进行估计,拟合结果如图3所示,基本上能解释大部分楼盘价格,总体平均误差为370.4元/平米,若剔除掉价格高于10000元和低于6000元的楼盘,平均误差达到296.4元/平米,预测效果较好。而万元以上、6000元以下楼盘价格预测误差分别为1050.3元/平米和566.4元/平米。

▽实际均价 ○预测价格

图3 楼盘价格预测值与实际均价比较

(2)解释变量重要性分析

在随机森林生成的过程中,根据解释变量精确度和均方误差的平均递减决定了变量的重要性,参数值越大,则该变量越重要。表5显示,按照第一列从变量精确度平均递减评价,x4、x6、x5、x2、x14对楼盘价格y的影响较大,按照第二列从均方误差平均递减评价,x4、x6、x5、x13、x3影响较大。

9

表5 自变量重要程度对比

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 变量 装修水平 环线位置 至城市中心乘车时间 与邻近商圈距离 容积率 物业费标准 公共交通 绿化率 地铁规划 楼层情况 配套设施 商场数量 与公园、湖、山距离 区域环境得分 建筑面积 %IncMSE 7.83E-04 2.08E-03 1.15E-03 4.17E-03 2.19E-03 3.68E-03 4.07E-04 1.18E-04 4.37E-05 3.02E-04 2.57E-05 2.87E-05 6.22E-04 1.47E-03 5.87E-04 IncNodePurity 0.14806613 0.19311879 0.2244551 0.53219955 0.44039889 0.50194252 0.16021722 0.20249182 0.02622947 0.13823423 0.05162192 0.07849277 0.23805549 0.19674532 0.18956435

基于随机森林模型及变量重要性判断,我们可以作出如下结论:

第一,楼盘的居住属性变量能够较好地解释当地楼盘价格的变化,特别是对于6000-10000元内价格的楼盘有着较高的预测精度,但对万元以上和6000元以下预测精度较差。用楼盘价格y与x4、x5、x8、x13等几个对价格影响较大的自变量作聚类分类图,从图4中可清晰看到,万元以上高价楼盘分布较分散,个别奇异点与其他点相距较远,这些楼盘的定价与居住属性存在一定偏离。以部分楼盘为例,宝利丰广场与保利香槟国际价格相近,但“至城市中心乘车时间”分别为30分钟和70分钟,物业费标准分别为1.44元/平米和1.85元/平米,绿化率分别为30%和40%。从总体来看,高价楼盘的定价普遍高于预测价格。

第二,对楼盘价格产生影响的居住属性中,“与邻近主要商圈距离”、“至城市中

10

心乘车时间”、“容积率”、“物业费标准”、“与公园、湖、山距离”、“区域环境得分”等变量较重要,表明区位交通、楼盘品质和邻近环境是决定合肥市区在售楼盘定价的主要因素,因此,在实际工作中对模型进行外推预测的时候,要注意对这几个变量的预测精度进行控制。而配套设施和商场数量影响相对较小。

图4 期望最大化聚类结果

2.判别模型 (1)建立模型

根据探索性分析,可依据价格将楼盘分为高档、中高档、普通、平价四类,建立随机森林判别模型。我们将6000元/平米以下的定义为“平价”,6000-8000元/平米的定义为“普通”,8000-10000元/平米的定义为“中高档”,万元以上的定义为“高档”。

11

3-5 基于随机森林的合肥市城区商品房定价模型探索.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c39k6d8w0yg862m71dlaq_3.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top