使用scikit建模

  1. 定义模型类型,指定模型类型的参数
  2. 拟合,从提供的数据捕获模式,建模核心
  3. 预测
  4. 评估,确定模型的预测的精确度

构建模型
1.导入数据集

import pandas as pdiowa_file_path = '../input/home-data-for-ml-course/train.csv'home_data = pd.read_csv(iowa_file_path)

2.指定作为预测目标的属性列y
y = home_data.某一属性列

3.创建训练集X

feature_names = ['LotArea','YearBuilt','1stFlrSF','2ndFlrSF','FullBath','BedroomAbvGr','TotRmsAbvGrd']X = home_data[feature_names]

4.分割数据集

from sklearn.model_selection import train_test_splittrain_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

4.训练模型

  • 决策树
from sklearn.tree import DecisionTreeRegressoriowa_model = DecisionTreeRegressor(random_state=1)iowa_model.fit(train_X, train_y)
  • 随机森林
from sklearn.ensemble import RandomForestRegressorrf_model = RandomForestRegressor(random_state=1)

5.做出预测
predictions = iowa_model.predict(val_X)

6.评估模型


from sklearn.metrics import mean_absolute_error
val_mae = mean_absolute_error# uncomment following line to see the validation_mae
#print(val_mae)
step_4.check(predictions, val_y)

调整过拟合和欠拟合的方法
调整决策树max_leaf_nodesDecisionTreeRegressor(max_leaf_nodes=数量)

模板

import pandas as pd#载入数据集
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
#过滤缺值的数据
filtered_melbourne_data = melbourne_data.dropna(axis=0)
#选择目标和属性列
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]from sklearn.tree import DecisionTreeRegressor
#定义模型
melbourne_model = DecisionTreeRegressor()
#训练模型
melbourne_model.fit(X, y)###
参数设置
DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,max_leaf_nodes=None, min_impurity_decrease=0.0,min_impurity_split=None, min_samples_leaf=1,min_samples_split=2, min_weight_fraction_leaf=0.0,presort=False, random_state=None, splitter='best')###

kaggle maching learning笔记相关推荐

  1. Maching Learning 学习资料

    A星(A*, A Star)算法详解 CSDN技术主题月----"深度学习"代码笔记专栏 UC Berkeley CS188 Intro to AI 本文转自博客园Grandyan ...

  2. coursera—吴恩达Machine Learning笔记(1-3周)

    Machine Learning 笔记 笔记主要按照进度记录上课主要内容和部分代码实现,因为我会看一阶段再进行整理,内容会有一定交叉.关于代码部分,一开始我是只为了做作业而写代码的,现在觉得不妨仔细看 ...

  3. Machine Learning笔记(三) 多变量线性回归

    2019独角兽企业重金招聘Python工程师标准>>> Machine Learning笔记(三) 多变量线性回归 注:本文内容资源来自 Andrew Ng 在 Coursera上的 ...

  4. 《学习geometric deep learning笔记系列》第一篇,Non-Euclidean Structure Data之我见

    <学习geometric deep learning笔记系列>第一篇,Non-Euclidean Structure Data之我见 FesianXu at UESTC 前言 本文是笔者在 ...

  5. maching learning入门(六)

    ml入门(六)powered by @李宏毅 第十五课(Reinforcement Learning) 让机器根据不同的action将会得到不同的response,可能是不好的,也可能是好的.rein ...

  6. Auto Machine Learning笔记 - Bayesian Optimization

    原文链接:Auto Machine Learning笔记 - Bayesian Optimization 优化器是机器学习中很重要的一个环节.当确定损失函数时,你需要一个优化器使损失函数的参数能够快速 ...

  7. 计算机视觉系列-全球小麦检测Kaggle比赛学习笔记(7)

    全球小麦检测-你能用图像分析帮助识别麦穗吗? 打开你的储藏室,你可能会发现一些小麦制品.事实上,你的早餐吐司或谷类食品可能依赖于这种普通谷物.它作为一种食品,使小麦得到广泛的研究.为了获得全球范围内麦 ...

  8. Conditional Channel Gated Networks for Task-Aware Continual Learning 笔记

    Conditional Channel Gated Networks for Task-Aware Continual Learning 笔记 Abstract Introduction Relate ...

  9. 机器学习 Maching Learning - 学习笔记 - 概括篇

    此篇是概括总结,之后会更新每个模型的笔记.梳理一下这段时间学习的内容. 1 定义 What is Machine Learning Arthur Samuel(亚瑟塞缪尔): the field of ...

最新文章

  1. python实现数据库查询_通过Python实现mysql查询数据库实例
  2. 利用partition分组查询 查询每个分组第一条数据
  3. linux 内核源代码漫游,Linux内核源代码漫游——
  4. tf.slice解析
  5. macbook装双系统多分区其实很简单,你只要把macbook当作一台普通pc就可以了!
  6. nor flash和nand flash
  7. Spring AOP配置
  8. 第一篇:centos7下svn的安装与卸载
  9. 第6篇 Java中的接口与抽象类
  10. python画围棋棋盘_python3 turtle 画围棋棋盘
  11. iOS 模仿微信扫描二维码放大功能
  12. 成也苹果败也苹果,曾经女首富身价缩水一半
  13. 全球顶尖公司的七大设计理念
  14. 分享下自己的经历!2020春招四五月份大厂面经 一:(腾讯、网易、斗鱼、富途、美团、快手)
  15. 右键新建缺少word、excel选项问题处理
  16. 75佳精美的 CSS 网页设计作品欣赏(系列一)
  17. request + bs4 爬取网易云音乐热门评论
  18. 用idea打包项目成war最简单的方法
  19. Hadoop-JAVA编写HDFS客户端进行HDFS操作
  20. OSError: (External) Cublas error, CUBLAS_STATUS_NOT_INITIALIZED. The cuBLAS library was not Initia

热门文章

  1. Android APK的存储结构
  2. 2018 南京赛区网络预赛 An Olympian Math Problem
  3. OSGI框架搭建常见问题即错误
  4. C语言练习:显示一个月的提醒列表
  5. SOLIDWORKS Simulation实例分析演示
  6. 第6章第7节:颜色搭配:配色万金油之亮度配色方案 [PowerPoint精美幻灯片实战教程]
  7. 联想计算机配置在哪里,教你如何使用联想官网提供的联想电脑配置查询功能
  8. 30个Python简单小项目
  9. python123外汇兑换计算器_Python之计算器
  10. 手机号号段,正则,校验