kaggle maching learning笔记
使用scikit建模
- 定义模型类型,指定模型类型的参数
- 拟合,从提供的数据捕获模式,建模核心
- 预测
- 评估,确定模型的预测的精确度
构建模型
1.导入数据集
import pandas as pdiowa_file_path = '../input/home-data-for-ml-course/train.csv'home_data = pd.read_csv(iowa_file_path)
2.指定作为预测目标的属性列y
y = home_data.某一属性列
3.创建训练集X
feature_names = ['LotArea','YearBuilt','1stFlrSF','2ndFlrSF','FullBath','BedroomAbvGr','TotRmsAbvGrd']X = home_data[feature_names]
4.分割数据集
from sklearn.model_selection import train_test_splittrain_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)
4.训练模型
- 决策树
from sklearn.tree import DecisionTreeRegressoriowa_model = DecisionTreeRegressor(random_state=1)iowa_model.fit(train_X, train_y)
- 随机森林
from sklearn.ensemble import RandomForestRegressorrf_model = RandomForestRegressor(random_state=1)
5.做出预测
predictions = iowa_model.predict(val_X)
6.评估模型
from sklearn.metrics import mean_absolute_error
val_mae = mean_absolute_error# uncomment following line to see the validation_mae
#print(val_mae)
step_4.check(predictions, val_y)
调整过拟合和欠拟合的方法
调整决策树max_leaf_nodesDecisionTreeRegressor(max_leaf_nodes=数量)
模板
import pandas as pd#载入数据集
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
#过滤缺值的数据
filtered_melbourne_data = melbourne_data.dropna(axis=0)
#选择目标和属性列
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]from sklearn.tree import DecisionTreeRegressor
#定义模型
melbourne_model = DecisionTreeRegressor()
#训练模型
melbourne_model.fit(X, y)###
参数设置
DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,max_leaf_nodes=None, min_impurity_decrease=0.0,min_impurity_split=None, min_samples_leaf=1,min_samples_split=2, min_weight_fraction_leaf=0.0,presort=False, random_state=None, splitter='best')###
kaggle maching learning笔记相关推荐
- Maching Learning 学习资料
A星(A*, A Star)算法详解 CSDN技术主题月----"深度学习"代码笔记专栏 UC Berkeley CS188 Intro to AI 本文转自博客园Grandyan ...
- coursera—吴恩达Machine Learning笔记(1-3周)
Machine Learning 笔记 笔记主要按照进度记录上课主要内容和部分代码实现,因为我会看一阶段再进行整理,内容会有一定交叉.关于代码部分,一开始我是只为了做作业而写代码的,现在觉得不妨仔细看 ...
- Machine Learning笔记(三) 多变量线性回归
2019独角兽企业重金招聘Python工程师标准>>> Machine Learning笔记(三) 多变量线性回归 注:本文内容资源来自 Andrew Ng 在 Coursera上的 ...
- 《学习geometric deep learning笔记系列》第一篇,Non-Euclidean Structure Data之我见
<学习geometric deep learning笔记系列>第一篇,Non-Euclidean Structure Data之我见 FesianXu at UESTC 前言 本文是笔者在 ...
- maching learning入门(六)
ml入门(六)powered by @李宏毅 第十五课(Reinforcement Learning) 让机器根据不同的action将会得到不同的response,可能是不好的,也可能是好的.rein ...
- Auto Machine Learning笔记 - Bayesian Optimization
原文链接:Auto Machine Learning笔记 - Bayesian Optimization 优化器是机器学习中很重要的一个环节.当确定损失函数时,你需要一个优化器使损失函数的参数能够快速 ...
- 计算机视觉系列-全球小麦检测Kaggle比赛学习笔记(7)
全球小麦检测-你能用图像分析帮助识别麦穗吗? 打开你的储藏室,你可能会发现一些小麦制品.事实上,你的早餐吐司或谷类食品可能依赖于这种普通谷物.它作为一种食品,使小麦得到广泛的研究.为了获得全球范围内麦 ...
- Conditional Channel Gated Networks for Task-Aware Continual Learning 笔记
Conditional Channel Gated Networks for Task-Aware Continual Learning 笔记 Abstract Introduction Relate ...
- 机器学习 Maching Learning - 学习笔记 - 概括篇
此篇是概括总结,之后会更新每个模型的笔记.梳理一下这段时间学习的内容. 1 定义 What is Machine Learning Arthur Samuel(亚瑟塞缪尔): the field of ...
最新文章
- python实现数据库查询_通过Python实现mysql查询数据库实例
- 利用partition分组查询 查询每个分组第一条数据
- linux 内核源代码漫游,Linux内核源代码漫游——
- tf.slice解析
- macbook装双系统多分区其实很简单,你只要把macbook当作一台普通pc就可以了!
- nor flash和nand flash
- Spring AOP配置
- 第一篇:centos7下svn的安装与卸载
- 第6篇 Java中的接口与抽象类
- python画围棋棋盘_python3 turtle 画围棋棋盘
- iOS 模仿微信扫描二维码放大功能
- 成也苹果败也苹果,曾经女首富身价缩水一半
- 全球顶尖公司的七大设计理念
- 分享下自己的经历!2020春招四五月份大厂面经 一:(腾讯、网易、斗鱼、富途、美团、快手)
- 右键新建缺少word、excel选项问题处理
- 75佳精美的 CSS 网页设计作品欣赏(系列一)
- request + bs4 爬取网易云音乐热门评论
- 用idea打包项目成war最简单的方法
- Hadoop-JAVA编写HDFS客户端进行HDFS操作
- OSError: (External) Cublas error, CUBLAS_STATUS_NOT_INITIALIZED. The cuBLAS library was not Initia