摘 要

房地产市场由一手房市场,二手房市场和租赁市场组成 ,房屋需求主要为安置型需求,实用型需求和舒适型需求 ,同一种需求可能对应不同的消费水平,例如髙收入水平消费者可直接购买一手房来满足其舒适性需求 ,而中低收入者只 能购买二手房来满足其舒适性需求。因 此 ,不同收入水平的 消 费者在满足其需求时都为较低收入水平的消费者购买二手房提供可能 ,由于近几十年来,国内外的二手房交易开始不断增多,二手房市场成为 链接一手房市场和租赁市场的重要环节 。

本文通过传统统计学方法与机器学习方法比较相结合的手段,对来自DataCastle网站上的迈阿密二手房数据进行了分析,用到了岭回归,主成分回归等传统统计学方法。以及支持向量机,决策树,弹性网络回归等机器学习方法最终选择最好的SVM模型并得到回归方程

Y=0.06057847x1+0.04451877x2+0.13504028x3+0.11057748x4+0.33885201x5+0.07980608x6+0.0527111x7-0.03578297x8-0.04567201x9+0.12661766x10-0.27198238x11+0.02782203x12-0.11908368x13-0.0233103x14+0.00773382x15+0.15908165x16-0.10603109

关键字**:**迈阿密二手房; 线性回归; 支持向量机回归; 主成分回归;

目 录

第1章 绪论. 4

1.1 研究背景. 4

1.2 研究目的. 4

1.3 数据来源. 4

1.4 指标选取. 5

1.5 研究思路. 5

第2章 数据预处理. 6

2.1 缺失值处理. 7

2.2 异常值处理:. 8

第3章 描述性统计分析. 9

3.1 影响迈阿密二手房房价因素的分析. 9

3.1.1 房屋面积与房价的影响分析. 9

3.2变量特征之间线性关系讨论. 12

3.3变量特征之间相关性关系讨论. 12

第 4 章 构造迈阿密二手房房价预测模型. 14

4.1模型的检验. 14

4.1.1:正态性检验与处理:. 14

4.1.2 自变量的多重共线性的检验与处理:. 15

4.1.3 异方差的检验与处理:. 16

4.1.4 随机误差项的自相关性诊断:. 17

4.2 采用主成分回归建立模型:. 18

4.3残差图分析. 23

4.4 基于机器学习方法建立房价回归模型. 24

4.4.1 通过决策树来进行建立回归模型:. 24

4.4.2 通过弹性网络回归来进行建立回归模型:. 25

4.4.3 通过支持向量机来进行建立回归模型:. 25

4.4.4 通过k-近邻来进行建立回归模型:. 26

4.4.5 模型比较与选择. 26

4.4.6 支持向量机回归的参数调优. 28

4.4.7 残差图展示. 28

4.5 统计学方法与机器学习方法的比较. 29

第5章 总结. 31

5.1 研究结果. 31

5.2 方程特征系数的解释. 31

参考文献. 33

第1章 绪论

1.1 研究背景

对于房地产行业来说:购房者一般出于两种动机选择购房 ,一种动机即自用的"刚性需求",另一种则是实现 资 产保值增值的"投资需求",这两种需求的背后是房地产商品本身具有的二重属性— 消费资产属性和金融资产属 性。房屋不仅具有物理上的使用功能 ,在金 融领域亦因其地理位置的不变性和止地资源的稀缺性而成为重要的融资抵押物。且随着经济社会的不断发展,房地产的金融属性日益被投资者所重视。而近几十年来,对于二手房市场,交易开始逐渐增多:住房是生活必需品,是刚性需求相比于一手房的期房,二手房可让消费者心理踏实,所以二手房交易变得越来越重要。相比于一手房,二手房有以下优点:

配套设施完善:周围生活设施比较完善,都有比较成熟的小区管理制度;交通方便:很多处于交通要道,或者商业繁华地段。交通是二手房的一大优势;潜在问题容易考究:二手房的房屋质量更容易检查,二手房不会像新房那样,出现“烂尾”现象,这也是选择二手房的一大原因。

1.2 研究目的

影响各地房价的因素有很多,影响程度也不尽相同,对于迈阿密地区房价来说,数据收集的影响特征因素有经度,纬度,房屋面积,客厅面积,距火车站距离,距海边距离,距河边距离,距集装箱专区距离,房主年龄,距公路距离,房屋结构等,这些特征对二手房房屋的价格有着重要的影响,所以可以通过尝试建立这些特征与房屋价格的回归方程,从而完成对迈阿密二手房房屋价格的预测。

1.3 数据来源

本文研究的迈阿密房价数据来源于DataCastle网站,二手房房价数据集共有13932条数据,每个样本有 17个特征,其中LND_SQFOOT为房屋价格,是因变量。其余的自变量均为连续变量。

迈阿密二手房房价数据具体网站:

https://www.datacastle.cn/dataset_description.html?id=1110&type=dataset

1.4 指标选取

影响二手房房价的因素有很多,本文在参考了大量文献基础上,并最终选取了以下指标为自变量:

(1)经度。

(2)纬度

(3)房屋面积(平方米)

(4)客厅面积(平方米)

(5)距离火车距离(千米)

(6)关于最近邻居的距离(米)

(7)距离河边的距离(米)

(8)距离海边的距离(千米)

(9)距离集装箱专区的距离(千米)

(10)转包商的DI

(11)距离公路的距离(米)

(12)房主的年龄(岁)

(13)租房者超出60天未支付的金额(美元)

(14)二手房房屋的月租金(美元)

(15)周围环境的整洁程度

(16)二手房的结构质量

1.5 研究思路

本文的研究思路设计如下;首先对数据进行预处理,之后画出散点图矩阵,初步判断数据特征之间有较为明显的线性关系,在将转化为符合正态分布数据后,检验自变量之间的多重共线性,随机误差项的自相关性及异方差检测,由于自变量的多重共线性较为严重,之后再用主成分回归,得到回归方程。之后通过查找文献,用到解决此类问题的一些机器学习方法,如决策树回归,弹性网络回归,支持向量机回归,k近邻回归等,传统统计与机器学习两者进行比较,最终选择了支持向量机回归模型,并得到最终模型。研究流程图如图1.5.1

图1.5.1 研究思路流程图

第2章 数据预处理

数据分析中的大部分时间,花在了数据预处理上。”数据预处理做得好,往往让我们的数据分析工作事半功倍。本文数据预处理大致分为缺失值处理与异常值处理。缺失值来源:

1.信息暂时无法获取。如某种产品的收益等具有滞后效应。

2.数据因人为因素没有被记录、遗漏或丢失,这个是数据缺失的主要原因。

3.数据采集设备的故障、存储介质、传输媒体故障而造成数据丢失。

4获取这些信息的代价太大。有些对象的某个或某些属性是不可用的;如:未婚者的配偶姓名、儿童的固定收入状况等。

5系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策。

处理方法大致有:

1.删除,简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比较小的情况下非常有效。

\2. 插补。平均值填充法。在该方法中,用于求平均的值并不是从数据集的所有对象中取,而是从与该对象具有相同决策属性值的对象中取得。这两种数据的补齐方法,其基本的出发点都是一样的,以最大概率可能的取值来补充缺失的属性值,只是在具体方法上有一点不同。与其他方法相比,它是用现存数据的多数信息来推测缺失值。

\3. 热卡填充(就近补齐):对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准,主观因素较多。

4.K最近邻法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。

异常值检测方法

1)简单统计分析:对属性值进行一个描述性(经验)的统计,从而看出哪些值是不合理的。

(2)基于标准偏差(3δ原则)的异常值检测(高斯分布差异的一种):一般适用于服从正太分布的数据,即异常值被定义为观测值和平均值的偏差超过3倍标准偏差的值。

(3)箱线图分析:箱型图提供了一个识别异常值的标准,即大于或小于设定的上下界的数值即为异常值。

(4)基于(马氏距离,欧式距离)距离:利用聚类的思想,对数据进行聚类,排除距离中心最远的n个点,一般算法:kmeans,knn等。

异常值处理方法:异常值是否删除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。

(1)直接删除含有异常值的样本

(2)视为缺失值:利用缺失值处理的方法进行处理

(3)平均值修正:可以用前后两个观测值的平均值修正该异常值

(4)不处理:可以直接在具有异常值的数据集上进行数据建模

2.1 缺失值处理

首先我们先查看数据是否含有缺失值,由于数据收集时,收集无误,数据无缺失值

2.2 异常值处理:

由于数据量很大,采用箱线图检测可能过于片面,而基于密度的LOF方法能有效避免此类问题,所以本文所采用的异常值检测方法主要运用箱线图和局部离群因子法进行检测。

在异常值检测之前为了更好展示异常值检测结果,也同时为了之后更好的建立回归方程,我们首先要做一下对属性进行归一化(normalization)。归一化主要有MAX-MIN归一化和z-score方法,我们在这里选择z-score标准化方法,这里的归一化指确定每列数据的中心,然后对数值进行缩放,使属性1的一个单位值与属性2的一个单位值相同。在数据科学中有相当数量的算法需要这种归一化。例如,K-means聚类方法是根据行数据之间的向量距离来进行聚类的。距离是对应坐标上的点相减然后取平方和。单位不同,算出来的距离也会不同。到一个杂货店的距离以英里为单位是1英里,以英尺为单位就是5280英尺。本例的归一化是把属性数值都转换为均值为0、标准差为1的分布,归一化计算用到了函数summary()的结果。归一化后的效果如图3所示。注意:注意归一化到标准差1并不意味着所有的数据都在-1和+1之间。盒子的顶边和底边多少都会在-1和+1附近,但是还有很多数据在这个边界外。

中位数:中间红线;25%分位数:箱顶;75%分位数:箱底;上边缘水平线: 到箱顶的距离是箱高的1.4倍(默认参数), 即4分位间距的1.4倍下边缘水平线: 到箱底的距离是箱高的1.4倍(默认参数), 即4分位间距的1.4倍异常值: 上下边缘以外的数据。从图6.2.1中发现像房屋面积,周围环境的整洁程度,客厅面积,距离公路的距离,距离火车站,海边距离等特征是存在很明显的异常值的,但从实际来说,不同的二手房的存在着明显的位置,自身的差异,有的二手房本身房屋面积以及客厅面积就很大,本身就是为了服务迈阿密的一些富裕家庭,有的二手房地处便利的交通地带,也有些地处郊区,两者巨大的差异也可能会使数据存在异常值,少量的异常值可以进行处理,如删除,均值替换等,但若存在大量异常值,处理异常值可能会偏离实际,影响到最终结果。

LOF算法的基本思想是,根据数据点周围的数据密集情况,首先计算每个数据点的一个局部可达密度,然后通过局部可达密度进一步计算得到每个数据点的一个离群因子,该离群因子即标识了一个数据点的离群程度,因子值越大,表示离群程度越高,因子值越小,表示离群程度越低。最后,输出离群程度最大的top(n)个点。

采用箱线图的结果如图2.2.1,异常值高达1370个,LOF算法最终选择出异常值也多达1029条,都大致占到总数据的1/13,从实际来说,大量的异常值数据在房地产行业同样具有重要意义,所以本文最终不对异常值进行处理。

​ 图2.2.1 各特征的异常值检测结果

第3章 描述性统计分析

3.1 影响迈阿密二手房房价因素的分析

3.1.1 房屋面积与房价的影响分析

​ 图3.1.1 房屋面积与出售价格图表

由图3.1.1可知,迈阿密二手房房屋面积基本都处于119-235平方米范围内,且119-124平方米左右居多,共有12135个,有少数二手房房屋面积超过了235平方米,最大的在570左右。从价格来说:0-200平方米左右的二手房价格70%在10万-100万美元之间。而有一半的300平方米以上的二手房在50万美元左右,可能是地区于郊区地带与其他原因。总之,房屋面积与出售价格没有明显的关系。

3.1.2火车站距离与二手房价的探究分析

​ 图3.1.2 火车站距离与二手房价图表

我们通过等距离散化的手段,把火车站的距离分为5个范围。并做出火车站距离与二手房价的柱状图与火车站距离占比的饼图。由图中可知,在迈阿密地区的有43%的二手房距离火车站距离是在5932米以内的,这些二手房建造时间早,地域很好,所以它的平均售价是最高的,为42万美元。其次是5932米到11854米的占比为31.1%,平均售价为38万美元。再为11854-17777米的,占比为16.1%,平均售价为36万美元。而且随着距离火车站的距离增加,要出售的二手房数量的是不断减小的。价格也有所下降。

3.1.3距海边距离与二手房价的探究分析

​ 图3.1.3 距海边距离与二手房价图表

我们通过等距离散化的手段,把距海边距离分为5个范围。并做出距海边距离与二手房价的柱状图与距海边距离占比的饼图。由图中可知,在迈阿密地区的有34.9%的二手房距海边距离在15337-30439米,其平均销售价格在33万美元左右,而有18.5%的二手房距离海边距离大概为160米-15337米,其平均售价达到了69万美元。由此我们推断出这里可能是迈阿密的高档小区地带。有22.9%的二手房在30439-45541米范围内,平均价格为29万美元。从这里我们没有办法推断出距海边距离与二手房价的关系。

3.1.4房主年龄与二手房价的探究分析

​ 图3.1.4 房主年龄与二手房价图表

我们通过等距离散化的手段,把距房主年龄分为5个范围。并做出房主年龄与二手房价的柱状图与房主年龄占比的饼图。由图中可知,在迈阿密地区的有35.6%的房主年龄在20岁以下,其二手房平均销售价格为44万。32.5%的二手房房主为21-38岁之间,其二手房销售价格为39.2万美元。15.5%的二手房房主为39-57岁之间,其二手房销售价格为39.4万美元。14.8%的二手房房主为58-77岁之间,其二手房销售价格为32万美元。1.4%的二手房房主为78-96岁之间,其二手房销售价格为34万美元。我们可以大致得知房主越年轻,他们的二手房房屋价格越高。

3.2变量特征之间线性关系讨论

由于变量特征的数据类型全部为连续型数据类型,所以我们首先想到的是数据特征之间大概率可能存在线性关系,所以我们可以使用散点图矩阵粗略查看数据之间的线性关系,具体结果如图3.2所示

​ 图3.2 变量特征之间的散点图矩阵

从图3.2中发现经度与纬度,房屋价格有着线性关系,距离火车站的距离与出售价格有线性关系,房主年龄与出售价格及距离公路距离有线性关系等,所以具有较大可能能对迈阿密二手房数据建立线性回归模型的。

3.3变量特征之间相关性关系讨论

之后我们看看各变量相关系数的热力图,这里的相关系数是皮尔逊相关系数,

在统计学中,皮尔逊积矩相关系数(Pearson product-moment correlation coefficient)用于度量变量X和Y之间的相关(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。而热力图更能清楚明了的展示出特征之间的相关程度,最终结果如图3.3所示:

​ 图3.3 各特征相关系数的热力图

在图3.3中,相关程度越大,其绝对值越是接近1,当相关系数接近1时,图中的颜色越“蓝”,其意义就是两者之间具有正相关性,两者中一个会随着另一个的增大而增大,减小而减小;当相关系数接近-1时,图中的颜色越“红”,其意义就是两者之间具有负相关性,两者中一个会随着另一个的增大而减小,减小而增大。由图得,整体来看特征之间的相关系数在0.4左右,纬度与距河边距离和距海边距离得相关系数更是达到了-0.78与-0.8,部分变量之间如房主年龄和转包商_DI的相关系数也达到了-0.57。所以我们可以得出结论,特征变量之间的相关程度比较大,既自变量之间存在多重共线性问题。

第 4 章 构造迈阿密二手房房价预测模型

4.1模型的检验

4.1.1:正态性检验与处理:

第一个我们要判断数据是否符合正太分布,这里,我们使用qq图的方法进行检验,部分变量结果如图4.1.1.1所示:

​ 图4.1.1.1 qq图正态检验的结果

大部分变量是符合正态分布的,但第3,4,7个既房屋面积,客厅面积等变量是不符合正太分布因此我们可以做box-cox变换,尝试把数据转化为符合正态分布的。

Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是常用的一种数据变换方法,用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性,对许多实际数据都是行之有效的。变换之后再做pp图的结果如图4.1.1.1所示:

​ 图4.1.1.2 Box-Cox变换后的qq图展示

由图4.1.1.2得,这三个变量大致已经符合正态分布。

4.1.2 自变量的多重共线性的检验与处理:

我们要判断是自变量的多重共线性问题,在此我们使用方差扩大因子法(VIF法)进行诊断,方差扩大(膨胀)因子法是通过考察给定的解释变量被方程中其他所有解释变量所解释的程度,以此来判断是否存在多重共线性的一种方法。且这种多重共线性可能会过度地影响最小二乘估计。我们进行VIF检验后得到的结果如图4.1.2.1所示:

特征名称 VIF值
LATITUDE 26.93284492
LONGITUDE 46.48412457
PARCELNO 2.515944899
structure_quality 1.80181611
LND_SQFOOT 1.749637358
TOT_LVG_AREA 2.751478118
SPEC_FEAT_VAL 1.452940211
RAIL_DIST 1.344831101
OCEAN_DIST 21.01460431
WATER_DIST 4.141551304
CNTR_DIST 48.695891
SUBCNTR_DI 21.92787138
HWY_DIST 1.470568337
age 1.981251412
SALE_PRC 3.488195328

​ 图4.1.2.1 方差扩大因子法的结果

由图4.1.2.1得,经度,纬度,距海边距离,距集装箱专区距离,转包商_DI变量的VIF值远远大于10,故这些变量存在多重共线性。消除多重共线性的方法有:剔除不重要的变量,增大样本量;放弃无偏估计,选择有偏估计,如岭回归,Lasso回归等。

本文消除多重共线性的方法选择了较为简单的剔除经度与纬度变量,再进行方差扩大法进行检验,结果如图4.1.2.2所示。

特征名称 VIF值
PARCELNO 1.618176697
structure_quality 3.455386805
LND_SQFOOT 1.560064871
TOT_LVG_AREA 2.709704294
SPEC_FEAT_VAL 1.517112865
RAIL_DIST 1.430125676
OCEAN_DIST 3.07005065
WATER_DIST 3.772873273
CNTR_DIST 8.311128995
SUBCNTR_DI 6.043300172
HWY_DIST 1.4027753
age 1.855042218
SALE_PRC 1.003370816

​ 图4.1.2.2 剔除经度与纬度后的VIF值

剔除经度与纬度后,各变量的方差扩大因子都在10以下,我们可以得出变量间没有多重共线性问题

4.1.3 异方差的检验与处理:

异方差的检验方法主要有残差图法,与等级相关系数法

我们用的是等级相关系数法进行异方差的检验,对变量与残差进行排序后计算rs,在进行t检验,这时的原假设是存在异方差的。当t小于查表后t值时,可以得出没有异方差的结论,具体结果如图4.1.3.1所示:

特征名称 等级相关系数 t值
LATITUDE 0.087781672 1.400617926
LONGITUDE -0.034291809 -1.049687014
PARCELNO 0.059742729 1.063778017
structure_quality -0.010887075 -0.285027789
LND_SQFOOT 0.032436234 0.830315628
TOT_LVG_AREA 0.037297915 0.405167232
SPEC_FEAT_VAL 0.046101693 0.446963182
RAIL_DIST 0.114038299 1.547799273
OCEAN_DIST 0.056809579 0.715820263
WATER_DIST -0.026763371 -1.159890019
CNTR_DIST -0.024506533 -0.893262838
SUBCNTR_DI -0.055674313 -1.58119173
HWY_DIST -0.003167956 -0.373901172

​ 图4.1.3.1斯皮尔曼检验的结果

通过查表,在α=0.05水平下,t=1.970,而我们经过t检验后,所有变量的t值都小于1.970,所以,我们拒绝原假设,既不存在异方差问题。

4.1.4 随机误差项的自相关性诊断:

如果随机误差项不能存在自相关性,在变量的显著性检验中,统计量是建立在方差正确估计的基础上的。由于序列相关,估计的参数方差就会出错,从而导致变量的显著性检验失去意义。同异方差性检验一样,相关性检验也被分为图示法和定量检验。

图示法做的是et与et-1的散点图,通过散点图,若图中点落在第一,三象限,则随机误差项存在正相关性,若图中点落在第二,四象限,则随机误差项存在负相关性,若点在每个象限都有均匀或无规律分布,则随机误差项之间无自相关性。图示法的结果如图4.1.4.1所示:

​ 图4.1.4.1 图示检验法的结果

通过散点图可以发现,数据点在每个象限都有分布,所以我们可以说随机误差项间没有自相关性。

定量检验我们使用DW检验,DW检验一种适用于小样本的检验方法.DW检验只能用于检验随机误差项具有一阶自回归形式的序列相关问题,最终DW值为1.829,经查看DW检验上下界表,,由于DW值=1.829,很接近无自相关区,可以认为通过了DW检验,故随机误差项之间无相关性。

4.2 采用主成分回归建立模型:

由于之前在假设条件上我们删除了经度与纬度之后,自变量之间的多重共线性问题才消除了,但是根据实际二手房位置对房价也有着较为重要的影响。所以我们可以使用主成分分析的方法,不仅可以消除多重共线性,还可以降低数据的维度。使结果更具说服力。

主成分分析:是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。信息的大小通常用离差平方和或方差来衡量。主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替高维的x空间所损失的信息很少。用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。

首先我们做出碎石图(图4.2.1)与累计解释方差(图4.2.2),通过图形来选择主成分数。

​ 图4.2.1 主成分分析的碎石图

​ 图4.2.2 累计解释方差与主成分数的折线图

通过图4.2.1的碎石图可以发现,当因子增加到7时,折线基本已经平缓,从图4.2.2可以看出:当主成分数选择到8时,累计解释方差达到了90%以上,所以我们最终选择了8个主成分来进行建立回归方程。结果如图4.2.3所示:

Dep. Variable: SALE_PRC R-squared: 0.652
Model: OLS Adj. R-squared: 0.652
Method: Least Squares F-statistic: 1981.
Date: Wed, 29 Dec 2021 Prob (F-statistic): 0.00
Time: 16:50:14 Log-Likelihood: -14474.
No. Observations: 13932 AIC: 2.897e+04
Df Residuals: 13923 BIC: 2.903e+04
Df Model: 8
Covariance Type: nonrobust

特征名称 回归系数 std err t值 P>|t| [0.025 0.975]
const -4.163e-17 0.006 -7.18e-15 1.000 -0.011 0.011
prin1 -0.1383 0.005 -29.448 0.000 -0.147 -0.129
prin2 0.3418 0.006 53.018 0.000 0.329 0.354
prin3 -0.1459 0.007 -20.415 0.000 -0.160 -0.132
prin4 0.3090 0.007 46.396 0.000 0.296 0.322
prin5 -0.2380 0.007 -32.907 0.000 -0.252 -0.224
prin6 0.0392 0.007 5.759 0.000 0.026 0.053
prin7 0.1866 0.007 25.669 0.000 0.172 0.201
prin8 0.0455 0.007 6.321 0.000 0.031 0.060

图4.2.3主成分方程结果

决定系数的解释:

决定系数并不等于相关系数(coefficient of correlation)的平方。它与相关系数的区别在于除掉|R|=0和1情况,

由于R2<R,可以防止对相关系数所表示的相关做夸张的解释。

决定系数:在Y的总平方和中,由X引起的平方和所占的比例,记为R

决定系数的大小决定了相关的密切程度。

当R越接近1时,表示相关的方程式参考价值越高;相反,越接近0时,表示参考价值越低。这是在一元回归分析中的情况。但从本质上说决定系数和回归系数没有关系,就像标准差和标准误差在本质上没有关系一样。

在多元回归分析中,决定系数是通径系数的平方。

表达式:R=SSR/SST=1-SSE/SST

其中:SST=SSR+SSE,SST (total sum of squares)为总平方和,SSR (regression sum of squares)为回归平方和,SSE (error sum of squares) 为残差平方和。

注意:以下不同名字是同一个意思,只是表述不同

意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。

从图4.2.3可知方程的拟合优度既R^2为0.652,方程F检验的p-value值约等于0,既方程通过了F检验,各个主成分的t检验的p-value值都为0,方程建立成功。

从图中我们可以得到主成分与二手房价格的回归方程,既

y=4.174e+05-6.948e+04px1+1.579e+05px2-5.001e+04px3+7.348e+04px4-4.164e+04px5+6.935e+04px6+8.952e+04px7-5.67e+04px8,

再进行计算每个主成分与原始变量的回归方程,

prin1=56.9727-2.3188X1+4.121e-06X2-0.0971X3+0.0053X4-0.0001X5+0.0077X6+4.161e-05X7+2.009e-05X8+3.902e-05X9-3.261e-17X10+1.717e-05X11+1.757e-05X12-0.0162*X13

prin2=16.5021-0.8353X1+6.409e-07X2-0.4069X3+0.0457X4-0.0006dX5-0.0024X6-9.155e-06X7+7.456e-06X8+4.952e-07X9-2.165e-18X10-7.985e-06X11+5.317e-05X12-0.0078 *X13

prin3=-83.8047+3.2262X1+2.077e-06X2-0.1972X3-0.0061X4-3.784e-05X5-0.0008X6+8.79e-05X7+1.445e-05X8-1.32e-05X9+1.15e-17X10-2.96e-07X11+4.349e-05X12+0.0029X13

prin4=-63.5515+2.3568X1+2.745e-06X2+0.2113X3+0.0101X4+0.0004X5+0.0138X6+2.758e-05X7-1.935e-05X8+2.213e-06X9+1.967e-17X10+1.478e-05X11-7.659e-05X12+0.0027X13

prin5=-7.9036+0.1884X1+6.029e-06X2+0.4540X3-0.0153X4-4.964e-05X5-0.0097X6+3.261e-05X7+9.467e-06X8+5.093e-06X9+1.773e-17X10-8.178e-07X11+3.741e-06X12+0.0233X13

prin6=-5.2583+0.1664X1-7.915e-06X2+0.1493X3-0.0055X4+6.851e-05X5+0.0154X6+2.043e-05X7+7.782e-06X8+8.758e-07X9+7.006e-18X10+5.874e-06X11+6.37e-05X12+0.0177X13

prin7=-26.4355+1.0521X1-4.842e-06X2-0.1101X3-0.0070X4+0.0006X5-0.0171X6+4.214e-05X7-3.759e-06X8+5.868e-06X9+4.058e-18X10+1.658e-05X11-2.964e-07X12-0.0090X13

prin8=-43.2651+1.6762X1-3.402e-07X2+0.2682X3+0.0130X4-0.0007X5-0.0052X6-1.738e-05X7-2.401e-05X8+5.807e-06X9+2.627e-17X10+1.846e-05X11+5.891e-05X12-0.0062X13,再通过计算,我们得到原始特征与房屋价格的回归方程了。既

y=-1363004.77+43890.072X1-1.3014164499999998X2-65728.40299999999X3+6786.921999999999X4+43.71255649999999X5+376.022X6-1.8891790000000013X7-1.1926961599999997X8-1.7654636100000003X9+1.4154779600000005e12X10+0.09300895199999987X11+0.26710033200000094X12+278996.119466272X13

由方程得,影响迈阿密二手房出售价格的原因中,对价格有积极影响的因素从高到低是客厅面积,房屋结构质量,spec_feat_val(周围整洁环境有关的),距火车站距离,房屋面积等。

对迈阿密二手房价格有主要消极影响的特征有parcelno,距海边距离,距集装箱专区距离,房主年龄等。

4.3残差图分析

残差图是指以某种残差为纵坐标,以其他适宜的量为横坐标的散点图。这里横坐标有多种选择,最常见的选择是:1.因变量的拟合值;2. 某自变量的观察值;3.在因变量的观察值Y1,…,Yn为一时间序列时, 横坐标可取为观察时间或观察序号。通过对残差及残差图的分析,以考察模型假设的合理性的方法,称为残差分析。这些方法比较直观,应用上效果也好,许多统计软件包均能打出残差图。可用它来检查回归线的异常点。在分析测试中常用的散点图是以自变量为横坐标的残差图。残差图”以回归方程的自变量为横坐标,以残差为纵坐标,将每一个自变量的残差描在该平面坐标上所形成的图形。当描绘的点围绕残差等于0的直线上下随机散布,说明回归直线对原观测值的拟合情况良好。否则,说明回归直线对原观测值的拟合不理想。

从“残差图”可以直观地看出残差的绝对数值都比较小,所描绘的点都在以0为横轴的直线上下随机散布,回归直线对各个观测值的拟合情况是良好的。说明变量X与y之间有显著的线性相关关系。残差图是一种用来诊断回归模型效果的图。在残差图中,如果点随机分布在0附近,则说明回归效果较好。 如果在残差图中发现了某种结构,则说明回归效果不佳,需要重新建模。。我们画出通过主成分回归得到的残差图(图4.3.1):

​ 图4.3.1 主成分回归的残差图

由图4.3.1可以看出,残差图中的点基本在0上下波动,而且没有规律,所以我们可以得出结论:迈阿密二手房房价的回归方程建立成功!

在选择模型时,我们需要用5折交叉验证来进行模型选择,用R方与均方误差来进行模型的评价。

在进行模型选择之前,我们将数据划分为训练数据与测试数据,其中训练集与测试集的占比为4:1。

4.4 基于机器学习方法建立房价回归模型

4.4.1 通过决策树来进行建立回归模型:

我们使用决策树回归的主要原因是:影响迈阿密房价的16个特征中,每个特征对二手房房价的影响都不同,而决策树是一个树结构。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。我们把影响二手房房价的重要特征放在靠近根节点的内部节点上,越靠近叶节点上的特征对二手房价格影响越低。所以使用决策树回归可以建立较好的回归方程。

在决策树上我们选择ID3算法就是用信息增益大小来判断当前节点应该用什么特征来构建决策树,用计算出的信息增益最大的特征来建立决策树的当前节点。

我们调用sklearn库的DecisionTreeRegressor函数进行模型构建与拟合,用测试集进行模型预测,最后我们再进行模型的评价:最终在测试集上结果为:
测试集的均方误差: 0.15       测试集的R^2:  0.8366022184449774

4.4.2 通过弹性网络回归来进行建立回归模型:

我们使用该算法的主要原因是:弹性回归网络是Lasso回归和岭回归技术的混合体。而Lasso回归和岭回归可以使用L1和L2正则化,来降低多重共线性,但是Lasso回归在一定程度上可以实现降维的目的,我们通过弹性网络回归的参数,进而调整Lasso回归和岭回归的占比程度,也达到了Lasso回归和岭回归技术共有的效果,

在Lasso和岭回归之间进行权衡的一个实际是运行弹性网络在循环的情况下继承岭回归的一些稳定性。

弹性回归网络的优点:

(1)鼓励在高度相关变量的情况下的群体效应,而不像Lasso那样将其中一些置为0.当多个特征和另一个特征相关的时候弹性网络非常有用。Lasso倾向于随机选择其中一个,而弹性网络倾向于选择两个。

(2) 对所选变量的数量没有限制。

我们调用sklearn库的ElasticNet函数进行模型构建与拟合,用测试集进行模型预测,最后我们再进行模型的评价:最终在测试集上结果为:
测试集的均方误差: 0.8
测试集的决定系数:0.1438
从这里我们看到,测试集的决定系数只有0.1438,模型拟合的很差。

4.4.3 通过支持向量机来进行建立回归模型:

我们选择支持向量机算法建立回归方程的主要原因是首先我们通过查找文献,许多人在类似的房价预测问题上用到了支持向量机算法;其次从实际意义上出发,支持向量机在处理高维数据上效果要较好与其它一些算法,它的主要思想是:

一个支持向量机在一个高维或有限维空间构造了一个或一组超平面,这些超平面被用作分类、回归或其它任务。本质上,由超平面实现的最优分割,即是这个超平面到任何类的最近的训练数据点的距离是最大的。通常来说,边界越大,分类器的泛化误差(generalization error)就越低。而像迈阿密地区的房屋价格规律一定是价格高的二手房常常的在聚在一起,房价低的聚在一起,所以我们通过适度的调整到最优的SVM的最大类间间隔,将泛化误差降到最低,我们就可以建立精确的回归模型。

我们调用sklearn库的svm函数进行模型构建与拟合,用测试集进行模型预测,最后我们再进行模型的评价:最终在测试集上结果为:
测试集的决定系数:0.9164
测试集的均方误差: 0.08
从而我们可以得出模型拟合很好。

4.4.4 通过k-近邻来进行建立回归模型:

我们选择该模型的主要原因是各个二手房的价格与各种属性在一定的区域范围上是具有高度的相似性,而K-近邻回归算法的主要思想就是通过找出一个样本的k个最近邻居,将这些邻居的某个(些)属性的平均值赋给该样本,就可以得到该样本对应属性的值。所以该模型应该可以较为准确的建立出迈阿密地区二手房房价回归模型我们调用sklearn库的KNeighborsRegressor函数进行模型构建与拟合,用测试集进行模型预测,最后我们再进行模型的评价:最终在测试集上结果为:

测试集的决定系数:0.8907

测试集的均方误差: 0.1


4.4.5 模型比较与选择

我们通过5折交叉验证比较决策树回归和弹性网络回归,支持向量机回归和k-近邻回归模型的拟合优度与均方误差来进行模型选择,结果如图4.4.5.1与图4.4.5.2所示:

                          图4.4.5.1 模型在测试集上的R^2

                 图4.4.5.1 模型在测试集上的均方误差

通过两个柱状图可以得出支持向量机回归与k-近邻的R方与均方误差都远远好于决策树与弹性网络回归,R方与均方误差都分别达到了0.9和0.1左右,

但是通过比较支持向量机的拟合效果要略好于k-近邻的拟合效果。所以最终我们选择支持向量机回归。

4.4.6 支持向量机回归模型的参数调优

我们主要针对的参数是惩罚系数和容忍停止标准:因为这两项在对于决策函数上很重要,对于减小泛化误差有较为重要的影响。然后我们得出最重要的5个参数取值,结果如图4.4.6所示:

当惩罚系数为10,容忍停止标准为0.002时,模型在测试集上的拟合优度达到了0.931226。容忍停止标准为0.005时:拟合优度达到了0.931222,基本没有相差,但是惩罚系数到3时,拟合优度为0.926790,下降了大约0.01,所以惩罚系数对SVR模型影响较大的。我们最终选择惩罚系数为10,容忍停止标准为0.002,作为最终结果。

4.4.7 残差图展示

通过调用SVR下的intercept_ ,我们得到最终的回归方程

Y=0.06057847x1+0.04451877x2-0.13504028x3+0.11057748x4+0.33885201x5+0.07980608x6+0.0527111x7-0.03578297x8-0.04567201x9+0.12661766x10-0.27198238x11+0.02782203x12-0.11908368x13-0.0233103x14+0.00773382x15+0.15908165x16-0.10603109

我们可以画出在测试集上的残差图,查看拟合效果,结果如图4.4.7所示:

​ 图4.4.7测试集残差图分析

由图可知,残差图中的点基本都在0左右上下波动,而且没有规律,所以模型拟合效果很好。

4.5 统计学方法与机器学习方法的比较

统计学方法我们选择了主成分回归进行建立模型,R2为0.65;而机器学习方法我们最终选择了SVR,既支持向量机回归,R2为0.93。由图10.1与图10.2,通过比较残差图,我们也可以发现,支持向量机回归的残差图要好于主成分回归的残差图。所以我们认为机器学习方法要好于传统统计学方法。我们以支持向量机回归得到的回归模型为最终的结果。

​ 图4.5.1 主成分回归的残差图

​ 图4.5.2支持向量机的残差图

第5章 总结

5.1 研究结果

最终的回归方程

Y=0.06057847x1+0.04451877x2-0.13504028x3+0.11057748x4+0.33885201x5+0.07980608x6+0.0527111x7-0.03578297x8-0.04567201x9+0.12661766x10-0.27198238x11+0.02782203x12-0.11908368x13-0.0233103x14+0.00773382x15+0.15908165x16-0.10603109

5.2 方程特征系数的解释

我们把在生活中比较重要的9个特征的系数由高到低,通过搜集一些迈阿密地区的特点,从实际解释了这些特征重要性的原因。

对迈阿密二手房有积极影响的特征

  1. 客厅面积:客厅面积对美国人来说是很为看重的,一般来说客厅面积大的房屋价格都比较高。
  2. 房屋结构:选择二手房的原因也正是对一手房的质量的怀疑,所以结构质量对价格也有重要影响。
  3. 距火车站距离:迈阿密人非常依赖火车,出差和游玩是人们乘坐的主要原因,火车站的距离远近,也是影响价格的重大原因。
  4. 房屋面积:美国的房产税很大,因此面积越大,收的钱越多,大部分人不看重房屋面积,系数仅为0.083,影响并不大。
  5. 距公路距离:综合噪音空气污染的弊端与方便的交通的优点,公路的远近对二手房价格还是起积极的影响,但是系数接近于0

对迈阿密二手房有消极的特征

  1. 距海边距离:迈阿密号称风都,飓风活跃,地处沼泽地带,近海地基很差,因此离海越进,价格也会越低。
  2. 距集装箱专区距离距离:迈阿密是港口城市,对外贸易发达,而集装箱地处迈阿密工业区,空气污染等严重,因此对二手房价格有负影响。
  3. 房主年龄:房主的年龄也间接的反映了二手房的存在时间,房主年纪越大,二手房的质量可能越差。
  4. 距河边距离:该特征系数为-0.0803,也不是很大,但与距海边距离特征相比,小了许多,主要是迈阿密河横穿城市,两岸虽然不能建立众多高楼大厦,但却是商业中心区。

参考文献

[1]吴龙.社会消费品零售总额影响因素的主成分回归分析[J].发展改革理论与实践,2017(10):49-51.

[2]茆诗松.概率论与数理统计教程[M]:高等教育出版社,2004

[3]马立平.回归分析:机械工业出版社,2014.03:

[4]基于搜索关键词关注度的北京市商品房价格预测 [J]. 崔都筑. 通讯世界. 2019(01)

[5]基于机器学习模型的郑州二手房价格评估[D]. 司玺同.华中师范大学. 2019

美国迈阿密二手房房价预测相关推荐

  1. 数据挖掘竞赛-美国King County房价预测训练赛

    美国King County房价预测训练赛 简介 DC上的一个回归题(正经的回归题). 比较简单. 时间原因(暂时没什么时间看国内旧赛),看了一下网上的解答,改善了一下神经网络就提交了. 过程 数据获取 ...

  2. 二手房房价预测案例 -- 代码实现

    本篇将继续上一篇二手房房价预测案例 -- 基本概念以及模型应用之后进行代码实现,这两部分构成了一个简单的数据分析流程.结合两篇文章通过数据分析和挖掘的方法实现二手房价格预测的预测后,分析报告请看这里. ...

  3. 数据分析 回归问题: 美国King County房价预测训练赛

    这是DC竞赛网的一道基础回归问题, 美国King County房价预测训练赛 竞赛详细信息:美国King County房价预测训练赛 任务:从给定的房屋基本信息以及房屋销售信息等,建立一个回归模型预测 ...

  4. 河南郑州二手房房价预测和分析

    课程大作业 河南郑州二手房房价预测和分析 爬取数据 加载库 查看数据 数据预处理 删除不需要分析的列 对数据进行去重 处理缺失值 文本数据清理 异常值处理 数据可视化分析 房价分布情况 各区域的整体情 ...

  5. 河南郑州二手房房价预测

    河南郑州二手房房价预测 数据集 数据标准化 分割数据集和训练集 数据归一化 预测模型 数据未归一化前的随机森林预测 数据归一化过后的随机森林预测 SVM径向基核函数预测 KNN最邻近算法预测 决策树回 ...

  6. 华为LAB实验室3-机器学习实验:(线性回归)美国King County房价预测训练赛

    各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 导入相关python库 2.数据处理 下载的是两个数据文件,一个是真实数据,一个是测试数据,打开kc_train.csv,能够看 ...

  7. zillow房价预测

    数据介绍 该项目是Data Castle上的美国King County房价预测训练赛,用到的数据取自于kaggle datasets,由@harlfoxem提供并分享,但是只选取了其中的子集,并对数据 ...

  8. 北京二手房房价分析(建模篇)

    数据科学俱乐部 中国数据科学家社区 本篇将继续上一篇数据分析用Python分析北京二手房房价之后进行数据挖掘建模预测,这两部分构成了一个简单的完整项目.结合两篇文章通过数据分析和挖掘的方法可以达到二手 ...

  9. 数据挖掘实战项目——北京二手房房价分析

    本次实战项目的主要目的是分析北京二手房房价,项目源自博文:入门Python数据分析最好的实战项目(一)和入门Python数据分析最好的实战项目(二).本篇文章仅记录博主在学习过程中的思路. 数据分析 ...

  10. 【项目实战】北京二手房房价分析与预测

    项目简介 本项目根据个人需求进行北京二手房信息的数据分析,通过数据分析观察住房特征规律,利用机器学习模型进行简单的预测. 数据源 通过爬虫爬取第三方房屋中间商网站(链家和安居客)获取数据源,仅供学习使 ...

最新文章

  1. 职场协同办公如何使用硬技能,助推团队协作更流畅?
  2. python redis_Python操作Redis大全
  3. Keepalived 主备配置
  4. OpenGL Multiple Scissors多个剪刀的实例
  5. Flash Alter v1.0 个性化Flash轮播图文播放器
  6. java网页解析包_java 网页解析工具包 Jsoup
  7. 哈佛大学单细胞课程|笔记汇总 (八)
  8. Vue中data为何以函数形式返回
  9. 通过jdbc的mysql驱动连接oceanbase mysql模式数据库
  10. 部署模型之Libtorch学习(一)
  11. 独辟蹊径品内核 轻松领悟读书高境界
  12. java工厂模式_java工厂模式
  13. 大华条码秤数据同步发送数据格式
  14. 完美解决Teamview12 过期之后不能用问题
  15. 先天八卦图的排列顺序,这样来解释您能接受吗?
  16. 计算机老师一句话,写给老师的一句话短句 感谢老师的简单一句话
  17. windet插入图片的大小_LaTeX图片插入
  18. Vue路由对象属性 .meta $route.matched
  19. puzzle(0151)《24点》
  20. Go调试工具Delve

热门文章

  1. linux 中hadoop相关命令学习
  2. 2021鹏业安装算量软件常见问题整理(六)
  3. 龙渊服务器信息丢失,多多自走棋为什么停止运营 游戏数据转移腾讯服务器
  4. golang中的URL 的编码和解码(转)
  5. buck电路上下管_BUCK/BOOST电路原理
  6. java继承计算不同图形面积_第五章-子类与继承-实验2(图形面积的和)
  7. 计算机用户文件夹加密,如何加密文件夹?手把手教你给文件夹加密方法
  8. ansible中的file、cron、debug、template、lineinfile、blockinfile模块的介绍和使用
  9. size of的用法总结
  10. 手机屏幕分辨率真的是越高越清晰吗?