来源:kaggle

Machine Learning Micro-Course Home Page


Recap

Here’s the code you’ve written so far. Start by running it again.

# Code you have previously used to load data
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor# Path of the file to read. We changed the directory structure to simplify submitting to a competition
iowa_file_path = 'train.csv'home_data = pd.read_csv(iowa_file_path)
# Create target object and call it y
y = home_data.SalePrice
# Create X
features = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[features]# Split into validation and training data
train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)
# Specify Model
iowa_model = DecisionTreeRegressor(random_state=1)
# Fit Model
iowa_model.fit(train_X, train_y)# Make validation predictions and calculate mean absolute error
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE when not specifying max_leaf_nodes: {:,.0f}".format(val_mae))# Using best value for max_leaf_nodes
iowa_model = DecisionTreeRegressor(max_leaf_nodes=100, random_state=1)
iowa_model.fit(train_X, train_y)
val_predictions = iowa_model.predict(val_X)
val_mae = mean_absolute_error(val_predictions, val_y)
print("Validation MAE for best value of max_leaf_nodes: {:,.0f}".format(val_mae))# Define the model. Set random_state to 1
rf_model = RandomForestRegressor(random_state=1)
rf_model.fit(train_X, train_y)
rf_val_predictions = rf_model.predict(val_X)
rf_val_mae = mean_absolute_error(rf_val_predictions, val_y)print("Validation MAE for Random Forest Model: {:,.0f}".format(rf_val_mae))
Validation MAE when not specifying max_leaf_nodes: 29,653
Validation MAE for best value of max_leaf_nodes: 27,283
Validation MAE for Random Forest Model: 22,762

Creating a Model For the Competition

Build a Random Forest model and train it on all of X and y.

# To improve accuracy, create a new Random Forest model which you will train on all training data
rf_model_on_full_data = RandomForestRegressor(random_state=1)# fit rf_model_on_full_data on all data from the training data
rf_model_on_full_data.fit(train_X,train_y)
RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,max_features='auto', max_leaf_nodes=None,min_impurity_decrease=0.0, min_impurity_split=None,min_samples_leaf=1, min_samples_split=2,min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=None,oob_score=False, random_state=1, verbose=0, warm_start=False)

Make Predictions

Read the file of “test” data. And apply your model to make predictions

# path to file you will use for predictions
test_data_path = 'test.csv'# read test data file using pandas
test_data = pd.read_csv(test_data_path)# create test_X which comes from test_data but includes only the columns you used for prediction.
# The list of columns is stored in a variable called features
test_X = test_data[['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']]# make predictions which we will submit.
test_preds = rf_model.predict(test_X)
# The lines below shows how to save predictions in format used for competition scoring
# Just uncomment them.output = pd.DataFrame({'Id': test_data.Id,'SalePrice': test_preds})
output.to_csv('submission.csv', index=False)

kaggle确实时一个不错的学习平台

kaggle机器学习作业(房价预测)相关推荐

  1. 动手学深度学习:3.16 实战Kaggle比赛:房价预测

    3.16 实战Kaggle比赛:房价预测 作为深度学习基础篇章的总结,我们将对本章内容学以致用.下面,让我们动手实战一个Kaggle比赛:房价预测.本节将提供未经调优的数据的预处理.模型的设计和超参数 ...

  2. 超详解pytorch实战Kaggle比赛:房价预测

    详解pytorch实战Kaggle比赛:房价预测 教程名称 教程地址 机器学习/深度学习 [李宏毅]机器学习/深度学习国语教程(双语字幕) 生成对抗网络 [李宏毅]生成对抗网络国语教程(双语字幕) 目 ...

  3. [Kaggle] Housing Prices 房价预测

    文章目录 1. Baseline 1. 特征选择 2. 异常值剔除 3. 建模预测 2. 待优化特征工程 房价预测 kaggle 地址 参考文章:kaggle比赛:房价预测(排名前4%) 1. Bas ...

  4. 波士顿房价预测python代码_Python之机器学习-波斯顿房价预测

    AI 人工智能 Python之机器学习-波斯顿房价预测 波士顿房价预测 导入模块 import pandas as pd import numpy as np import matplotlib.py ...

  5. 【ML】基于机器学习的房价预测研究(系列7:双向LSTM模型)

    写在前面: 首先感谢兄弟们的订阅,让我有创作的动力,在创作过程我会尽最大能力,保证作品的质量,如果有问题,可以私信我,让我们携手共进,共创辉煌. 本次实战的项目是:基于机器学习的房价预测研究(附完整代 ...

  6. Kaggle实战之 房价预测案例

    房价预测案例(进阶版) 这是进阶版的notebook.主要是为了比较几种模型框架.所以前面的特征工程部分内容,我也并没有做任何改动,重点都在后面的模型建造section Step 1: 检视源数据集 ...

  7. Kaggle经典项目——房价预测

    写在前面: 这篇文章旨在梳理kaggle回归问题的一个基本流程.博主只是一个数据分析刚入门的新手,有些错漏之处还请批评指正.很遗憾这个项目最后提交的Private Score只达到了排行榜的TOP13 ...

  8. kaggle小白入门——房价预测top2%~top1%

    入门第二战,达到了top1%的分数,有点小兴奋,不过也有可能为公分的提高使模型过拟合了,但入门赛貌似也只能追求公分的提高. 言归正传,开战. 一.导包 # 数据处理及可视化 import numpy ...

  9. 利用机器学习进行房价预测

    爬虫能做什么 爬虫除了能够获取互联网的数据以外还能够帮我们完成很多繁琐的手动操作,这些操作不仅仅包括获取数据,还能够添加数据,比如: 投票 管理多个平台的多个账户(如各个电商平台的账号) 微信聊天机器 ...

最新文章

  1. C#进阶系列——WebApi 身份认证解决方案:Basic基础认证
  2. 测试数据精准对比的思考
  3. 研磨数据结构与算法-06递归的应用
  4. hash 数据类型的应用场景
  5. HDU 3473 Minimum Sum
  6. 人脸离线识别模块_人脸消费机离线刷脸如何实现?
  7. caj格式转pdf的3种方法
  8. Linux执行shell脚本提示文件找不到问题解决办法
  9. Ubuntu18新系统火狐浏览器无法播放音乐和视频
  10. 为什么要创建SRT?
  11. python培训价目表-Python培训需要多少费用?
  12. DiskGenius清除磁盘分区空闲空间后磁盘爆满解决方法
  13. 2007软件英雄会暨CSDN社区英雄榜颁奖典礼邀请人员名单
  14. 【OpenCV图像处理入门学习教程六】基于Python的网络爬虫与OpenCV扩展库中的人脸识别算法比较
  15. Rocket的启动流程
  16. 计算机主机内部的除尘课件,怎么给电脑主机机箱内部除尘
  17. 记录配置tomcat配置默认项目session值失效的解决过程
  18. mysql授权用户grant all_Mysql授权GRANT ALL PRIVILEGES
  19. 找一个陪你聊天的人,很重要
  20. EDA 电子设计自动化VHDL系列课程7 – 分频器和计数器

热门文章

  1. 结束python服务器进程_服务器端后台持续执行python程序小demo
  2. 如何洞察行业中的应用场景?(下篇)
  3. windows找不到文件javaw_windows电脑上,怎么快速找文件?
  4. oracle插入后查不到,Oracle表刚插入数据,但是在MyEclipse中却查不到(代码完全正确)...
  5. python中long类型的取值范围_java基本数据类型取值范围
  6. mysql root远程访问权限_mysql8.0 Server在Windows平台中的安装、初始化和远程访问设置...
  7. Pieczęć(模拟)
  8. 一个Demo展示Storyboard的强大
  9. [转]C++学习:VC++动态链接库(DLL)编程深入浅出(zz)
  10. 大物实验计算弹性模量_普渡大学amp;橡树岭国家实验室IPJ:强度高达2.4GPa,双相纳米复合结构助力铝合金性能大幅提高!...