ML之FE:基于LiR/Ridge/Lasso/ElasticNet/AvgModels/RF算法(GSCV) 利用某市房价数据集(特征工程处理)进行房价回归预测

目录

输出结果

设计思路

核心代码


输出结果

1、输出基本信息


bj_data.info():
Int64Index: 48324 entries, 418423 to 627466
Data columns (total 22 columns):
introduction_house    48324 non-null object
community_house       48324 non-null object
href_house            48324 non-null object
unit_house            48324 non-null object
size_house            48324 non-null object
direction_house       48324 non-null object
decoration_house      48313 non-null object
elevator_house        47437 non-null object
type_house            48324 non-null object
years_house           48311 non-null object
area_house            48324 non-null object
interests_house       48324 non-null object
watch_times           48324 non-null object
submit_period         0 non-null float64
years_period          39804 non-null object
tax_free              45673 non-null object
total_price           48324 non-null float64
smeter_price          48324 non-null object
region                48324 non-null object
info_cluster          0 non-null object
info_flood            0 non-null object
info_follow           0 non-null objectbj_data.head():introduction_house community_house                                           href_house unit_house size_house direction_house decoration_house elevator_house type_house years_house area_house interests_house watch_times  submit_period years_period tax_free  total_price smeter_price region info_cluster info_flood info_follow
418423  长城脚下,精装修别墅,满五唯一,业主诚意出售。           清凉盛景   https://bj.lianjia.com/ershoufang/101103236018.html       5室3厅   269.93平米             南 北               精装            NaN    底层(共2层)        暂无数据       延庆其它            3人关注        0次带看            NaN          NaN    房本满五年        998.0  单价36973元/平米     bj          NaN        NaN         NaN
418424  商品房  满五年  家庭名下一套住房  环境好           清凉盛景   https://bj.lianjia.com/ershoufang/101102750912.html       4室2厅   269.93平米             南 北               精装            NaN         2层  2010年建暂无数据       延庆其它           14人关注        0次带看            NaN          NaN    房本满五年       1250.0  单价46309元/平米     bj          NaN        NaN         NaN
418425           湖南小区 2室1厅 179万           湖南小区   https://bj.lianjia.com/ershoufang/101103256056.html       2室1厅    71.45平米             南 北               其他            NaN   中楼层(共6层)  1996年建暂无数据       延庆其它            8人关注        0次带看            NaN          NaN    房本满五年        179.0  单价25053元/平米     bj          NaN        NaN         NaN
418426          清凉盛景 4室2厅 1180万           清凉盛景   https://bj.lianjia.com/ershoufang/101103166425.html       4室2厅   252.16平米             南 北               精装            NaN    底层(共2层)  2010年建暂无数据       延庆其它            0人关注        0次带看            NaN          NaN    房本满五年       1180.0  单价46796元/平米     bj          NaN        NaN         NaN
424545        君山别墅 边户独栋 391平毛坯房           君山别墅   https://bj.lianjia.com/ershoufang/101101025128.html       3室2厅   391.86平米             南 北               毛坯            NaN    底层(共2层)  2011年建暂无数据       密云其它          107人关注        1次带看            NaN        房本满两年    房本满五年       1000.0  单价25520元/平米     bj          NaN        NaN         NaN

2.2.1、处理【size_house】列

2.2.2、处理【size-interests_house】、【watch_times】、【smeter_price】列

2.2.3、处理【unit_house】列

2.2.4、处理【type_house】列

2.2.5、处理【year_house】列:

2.3、处理【direction_house】列

2.4、缺失值处理

Percentage of missing valuesFeature  Unique_values  Percentage of missing values  Percentage of values in the biggest category     type
21         info_follow              0                    100.000000                                    100.000000   object
13       submit_period              0                    100.000000                                    100.000000  float64
20          info_flood              0                    100.000000                                    100.000000   object
19        info_cluster              0                    100.000000                                    100.000000   object
14        years_period              1                     17.630991                                     82.369009   object
15            tax_free              1                      5.485887                                     94.514113   object
7       elevator_house              6                      1.835527                                     62.018873   object
9          years_house            210                      0.026902                                      3.186822   object
6     decoration_house             15                      0.022763                                     49.163976   object
18              region              1                      0.000000                                    100.000000   object
17        smeter_price          35405                      0.000000                                      0.066220   object
16         total_price           1804                      0.000000                                      1.338879  float64
0   introduction_house          47779                      0.000000                                      0.014486   object
12         watch_times             93                      0.000000                                     33.451287   object
1      community_house           5674                      0.000000                                      0.360070   object
10          area_house            235                      0.000000                                      3.029551   object
8           type_house            291                      0.000000                                      8.718235   object
5      direction_house            207                      0.000000                                     45.348067   object
4           size_house          15283                      0.000000                                      0.091052   object
3           unit_house             79                      0.000000                                     36.845046   object
2           href_house          48323                      0.000000                                      0.004139   object
11     interests_house            638                      0.000000                                      2.460475   object

bj_data.shape():after drop
(48324, 14)bj_data.head():after dropunit_house size_house direction_house decoration_house elevator_house type_house years_house area_house interests_house watch_times years_period tax_free  total_price smeter_price
418423       5室3厅   269.93平米             南 北               精装            NaN    底层(共2层)        暂无数据       延庆其它            3人关注        0次带看          NaN    房本满五年        998.0  单价36973元/平米
418424       4室2厅   269.93平米             南 北               精装            NaN         2层  2010年建暂无数据       延庆其它           14人关注        0次带看          NaN    房本满五年       1250.0  单价46309元/平米
418425       2室1厅    71.45平米             南 北               其他            NaN   中楼层(共6层)  1996年建暂无数据       延庆其它            8人关注        0次带看          NaN    房本满五年        179.0  单价25053元/平米
418426       4室2厅   252.16平米             南 北               精装            NaN    底层(共2层)  2010年建暂无数据       延庆其它            0人关注        0次带看          NaN    房本满五年       1180.0  单价46796元/平米
424545       3室2厅   391.86平米             南 北               毛坯            NaN    底层(共2层)  2011年建暂无数据       密云其它          107人关注        1次带看        房本满两年    房本满五年       1000.0  单价25520元/平米

bj_data.head():【size_house】drop+numerical
结果:········
total_price         48324 non-null float64
smeter_price        48324 non-null object
dtypes: float64(2), object(12)
memory usage: 5.5+ MB
Noneunit_house  size_house1 direction_house decoration_house elevator_house type_house years_house area_house interests_house watch_times years_period tax_free  total_price smeter_price
418423       5室3厅       269.93             南 北               精装            NaN    底层(共2层)        暂无数据       延庆其它            3人关注        0次带看          NaN    房本满五年        998.0  单价36973元/平米
418424       4室2厅       269.93             南 北               精装            NaN         2层  2010年建暂无数据       延庆其它           14人关注        0次带看          NaN    房本满五年       1250.0  单价46309元/平米
418425       2室1厅        71.45             南 北               其他            NaN   中楼层(共6层)  1996年建暂无数据       延庆其它            8人关注        0次带看          NaN    房本满五年        179.0  单价25053元/平米
418426       4室2厅       252.16             南 北               精装            NaN    底层(共2层)  2010年建暂无数据       延庆其它            0人关注        0次带看          NaN    房本满五年       1180.0  单价46796元/平米
424545       3室2厅       391.86             南 北               毛坯            NaN    底层(共2层)  2011年建暂无数据       密云其它          107人关注        1次带看        房本满两年    房本满五年       1000.0  单价25520元/平米

bj_data.head():【interests_house】、【watch_times】、【smeter_price】, Regularization
结果:
····unit_house  size_house1  smeter_price1  watch_times1  interests_house1 direction_house decoration_house elevator_house type_house years_house area_house years_period tax_free  total_price
418423       5室3厅       269.93          36973             0                 3             南 北               精装            NaN    底层(共2层)        暂无数据       延庆其它          NaN    房本满五年        998.0
418424       4室2厅       269.93          46309             0                14             南 北               精装            NaN         2层  2010年建暂无数据       延庆其它          NaN    房本满五年       1250.0
418425       2室1厅        71.45          25053             0                 8             南 北               其他            NaN   中楼层(共6层)  1996年建暂无数据       延庆其它          NaN    房本满五年        179.0
418426       4室2厅       252.16          46796             0                 0             南 北               精装            NaN    底层(共2层)  2010年建暂无数据       延庆其它          NaN    房本满五年       1180.0
424545       3室2厅       391.86          25520             1               107             南 北               毛坯            NaN    底层(共2层)  2011年建暂无数据       密云其它        房本满两年    房本满五年       1000.0

bj_data.head():【unit_house】, structure new features
结果·······size_house1  rooms  living_room  bedroom  smeter_price1  watch_times1  interests_house1 direction_house decoration_house elevator_house type_house years_house area_house years_period tax_free  total_price
418423       269.93    8.0          3.0      5.0          36973             0                 3             南 北               精装            NaN    底层(共2层)        暂无数据       延庆其它          NaN    房本满五年        998.0
418424       269.93    6.0          2.0      4.0          46309             0                14             南 北               精装            NaN         2层  2010年建暂无数据       延庆其它          NaN    房本满五年       1250.0
418425        71.45    3.0          1.0      2.0          25053             0                 8             南 北               其他            NaN   中楼层(共6层)  1996年建暂无数据       延庆其它          NaN    房本满五年        179.0
418426       252.16    6.0          2.0      4.0          46796             0                 0             南 北               精装            NaN    底层(共2层)  2010年建暂无数据       延庆其它          NaN    房本满五年       1180.0
424545       391.86    5.0          2.0      3.0

设计思路

核心代码

from sklearn.base import BaseEstimator, TransformerMixin, RegressorMixin, cloneclass AveragingModels(BaseEstimator, TransformerMixin, RegressorMixin): def __init__(self, models):self.models = modelsdef fit(self, X, y):self.models_ = [clone(x) for x in self.models]# Train cloned base modelsfor model in self.models_:model.fit(X, y)return selfdef predict(self, X):predictions = np.column_stack([model.predict(X) for model in self.models_ ])return np.mean(predictions, axis=1) Averaged_models = AveragingModels(models = (LiR_model, Ridge_model, Lasso_model, ElasticNet_model))
Averaged_models_score = rmse_cv(Averaged_models, X, y)     param_grid2 = {'max_depth': range(30, 60, 5), 'min_samples_split':range(2, 11, 1)}
gs2 = GridSearchCV(estimator=gs1.best_estimator_, param_grid=param_grid2, scoring='neg_mean_squared_error', cv=3, verbose=0)
gs2.fit(X_train, y_train)param_grid3 = {'max_features': range(10, 250, 8)}
gs3 = GridSearchCV(estimator=gs2.best_estimator_, param_grid=param_grid3, scoring='neg_mean_squared_error', cv=3, verbose=0)
gs3.fit(X_train, y_train)

ML之FE:基于LiR/Ridge/Lasso/ElasticNet/AvgModels/RF算法(GSCV) 利用某市房价数据集(特征工程处理)进行房价回归预测相关推荐

  1. ML之回归预测:利用Lasso、ElasticNet、GBDT等算法构建集成学习算法AvgModelsR对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测(模型评估、模型推理)

    ML之回归预测:利用Lasso.ElasticNet.GBDT等算法构建集成学习算法AvgModelsR对国内某平台上海2020年6月份房价数据集[12+1]进行回归预测(模型评估.模型推理) 目录 ...

  2. ML之LiRSGDR:基于二种算法(LiR、SGDR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能

    ML之LiR&SGDR:基于二种算法(LiR.SGDR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能 目录 输出结果 设计思路 核心代码 输出结果 Bo ...

  3. ML之DTRFRExtraTRGBR:基于四种算法(DT、RFR、ExtraTR、GBR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能

    ML之DT&RFR&ExtraTR&GBR:基于四种算法(DT.RFR.ExtraTR.GBR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自 ...

  4. ML之kNN(两种):基于两种kNN(平均回归、加权回归)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能

    ML之kNN(两种):基于两种kNN(平均回归.加权回归)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能 目录 输出结果 设计思路 核心代码 输出结果 Bosto ...

  5. ML之SVM(三种):基于三种SVM(linearSVR、polySVR、RBFSVR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能

    ML之SVM(三种):基于三种SVM(linearSVR.polySVR.RBFSVR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能 目录 输出结果 设计思路 ...

  6. ML之FE:风控场景之金融评分卡模型之利用LoR模型权重变量系数正负符号结合p-value/P值大小实现变量筛选

    ML之FE:风控场景之金融评分卡模型之利用LoR模型权重变量系数正负符号结合p-value/P值大小实现变量筛选 目录 利用LoR模型权重变量系数正负符号结合p-value/P值大小实现变量筛选

  7. ML之回归预测:利用多个算法模型(LassoR、KernelRidgeR、ElasticNetR、GBR、LGBMR、XGBR)对国内某平台上海2020年6月份房价数据集【12+1】进行回归预测

    ML之回归预测:利用多个算法模型(LassoR.KernelRidgeR.ElasticNetR.GBR.LGBMR.XGBR)对国内某平台上海2020年6月份房价数据集[12+1]进行回归预测(包括 ...

  8. 基于C语言,详解Kruskal算法(利用并查集)实现构建最小生成树

    目录 一.Kruskal算法的基本介绍 具体做法:找出森林中连接任意两棵树的所有边中,具有最小权值的边,如果将它加入生成树中不产生回路,则它就是生成树中的一条边.这里的关键就是如何判断"将它 ...

  9. ML之FE:利用【数据分析+数据处理】算法对国内某平台上海2020年6月份房价数据集【12+1】进行特征工程处理(史上最完整,建议收藏)

    ML之FE:利用[数据分析+数据处理]算法对国内某平台上海2020年6月份房价数据集[12+1]进行特征工程处理(史上最完整,建议收藏) 目录 利用[数据分析+数据处理]算法对链家房价数据集[12+1 ...

最新文章

  1. dropout层的作用_循环神经网络的 Dropout
  2. Android 获取屏幕尺寸与密度
  3. python学成什么样可以找工作-Python 爬虫学到什么样就可以找工作了?
  4. SQL Cookbook:一、检索记录(1)从表中检索所有行和列
  5. ITK:图像区域相交
  6. ARM汇编伪指令 .word
  7. 四、PHP基础——会话技术Cookie 和 Session
  8. 图片添加图片水印和文字水印
  9. Ripro主题化C位系列 演示站可调用内页图 于视频资源、素材下载站O-子主题
  10. 最常用的网络应用工具之寻线仪
  11. Qt之QFileIconProvider
  12. 操作系统原理(三)进程管理、线程、并发和并行
  13. Java : logback简单配置
  14. zabbix客户端部署
  15. JavaScript实现秒杀倒计时效果(附源码)
  16. 怎样在Excel中添加水印?学会这个方法可以轻松搞定
  17. vue打包报错error in ./node_modules/view-design/dist/styles/fonts/ionicons.svg?v=3.0.0
  18. 哈啰:学拼多多的套路,走美团的老路
  19. 去除字符串中的转义字符
  20. 利用excel表格将IP(IPV4)地址自动按段拆分每一段的数值至单元格

热门文章

  1. 在计算机桌面怎么找打印机,win10系统电脑打印机图标找回来的教程
  2. JavsScript中DOM的基本操作
  3. 秒懂INNODB的锁
  4. 西电计算机学院(原软件学院)软件工程考研复试
  5. MapReduce中的partitioner
  6. 一场不期而遇的美好 当无线遇上大数据
  7. js文件中定义全局配置文件
  8. Rancher前奏--配置Nexus
  9. 大家所推崇的Redis分布式锁真的就万无一失吗?
  10. 专业解决 MySQL 查询速度慢与性能差!