kaggle maching learning笔记

使用scikit建模

定义模型类型，指定模型类型的参数
拟合，从提供的数据捕获模式，建模核心
预测
评估，确定模型的预测的精确度

构建模型
1.导入数据集

import pandas as pdiowa_file_path = '../input/home-data-for-ml-course/train.csv'home_data = pd.read_csv(iowa_file_path)

2.指定作为预测目标的属性列y
y = home_data.某一属性列

3.创建训练集X

feature_names = ['LotArea','YearBuilt','1stFlrSF','2ndFlrSF','FullBath','BedroomAbvGr','TotRmsAbvGrd']X = home_data[feature_names]

4.分割数据集

from sklearn.model_selection import train_test_splittrain_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1)

4.训练模型

决策树

from sklearn.tree import DecisionTreeRegressoriowa_model = DecisionTreeRegressor(random_state=1)iowa_model.fit(train_X, train_y)

随机森林

from sklearn.ensemble import RandomForestRegressorrf_model = RandomForestRegressor(random_state=1)

5.做出预测
predictions = iowa_model.predict(val_X)

6.评估模型


from sklearn.metrics import mean_absolute_error
val_mae = mean_absolute_error# uncomment following line to see the validation_mae
#print(val_mae)
step_4.check(predictions, val_y)

调整过拟合和欠拟合的方法
调整决策树max_leaf_nodesDecisionTreeRegressor(max_leaf_nodes=数量)

模板

import pandas as pd#载入数据集
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
#过滤缺值的数据
filtered_melbourne_data = melbourne_data.dropna(axis=0)
#选择目标和属性列
y = filtered_melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 'YearBuilt', 'Lattitude', 'Longtitude']
X = filtered_melbourne_data[melbourne_features]from sklearn.tree import DecisionTreeRegressor
#定义模型
melbourne_model = DecisionTreeRegressor()
#训练模型
melbourne_model.fit(X, y)###
参数设置
DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,max_leaf_nodes=None, min_impurity_decrease=0.0,min_impurity_split=None, min_samples_leaf=1,min_samples_split=2, min_weight_fraction_leaf=0.0,presort=False, random_state=None, splitter='best')###

kaggle maching learning笔记相关推荐

Maching Learning 学习资料
A星(A*, A Star)算法详解 CSDN技术主题月----"深度学习"代码笔记专栏 UC Berkeley CS188 Intro to AI 本文转自博客园Grandyan ...
coursera—吴恩达Machine Learning笔记（1-3周）
Machine Learning 笔记笔记主要按照进度记录上课主要内容和部分代码实现,因为我会看一阶段再进行整理,内容会有一定交叉.关于代码部分,一开始我是只为了做作业而写代码的,现在觉得不妨仔细看 ...
Machine Learning笔记（三）多变量线性回归
2019独角兽企业重金招聘Python工程师标准>>> Machine Learning笔记(三) 多变量线性回归注:本文内容资源来自 Andrew Ng 在 Coursera上的 ...
《学习geometric deep learning笔记系列》第一篇，Non-Euclidean Structure Data之我见
<学习geometric deep learning笔记系列>第一篇,Non-Euclidean Structure Data之我见 FesianXu at UESTC 前言本文是笔者在 ...
maching learning入门（六）
ml入门(六)powered by @李宏毅第十五课(Reinforcement Learning) 让机器根据不同的action将会得到不同的response,可能是不好的,也可能是好的.rein ...
Auto Machine Learning笔记 - Bayesian Optimization
原文链接:Auto Machine Learning笔记 - Bayesian Optimization 优化器是机器学习中很重要的一个环节.当确定损失函数时,你需要一个优化器使损失函数的参数能够快速 ...
计算机视觉系列-全球小麦检测Kaggle比赛学习笔记（7）
全球小麦检测-你能用图像分析帮助识别麦穗吗? 打开你的储藏室,你可能会发现一些小麦制品.事实上,你的早餐吐司或谷类食品可能依赖于这种普通谷物.它作为一种食品,使小麦得到广泛的研究.为了获得全球范围内麦 ...
Conditional Channel Gated Networks for Task-Aware Continual Learning 笔记
Conditional Channel Gated Networks for Task-Aware Continual Learning 笔记 Abstract Introduction Relate ...
机器学习 Maching Learning - 学习笔记 - 概括篇
此篇是概括总结,之后会更新每个模型的笔记.梳理一下这段时间学习的内容. 1 定义 What is Machine Learning Arthur Samuel(亚瑟塞缪尔): the field of ...

kaggle maching learning笔记

kaggle maching learning笔记相关推荐

最新文章

热门文章