python简单预测模型

步骤1:导入所需的库,读取测试和训练数据集。

#导入pandas、numpy包,导入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函数

import pandas as pd

import numpy as np

from sklearn.preprocessing import LabelEncoder

import random

from sklearn.ensemble import RandomForestClassifier

from sklearn.ensemble import GradientBoostingClassifier

#读取训练、测试数据集

train=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv')

test=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv')

#创建训练、测试数据集标志

train='Train'

test='Test'

fullData =pd.concat(,axis=0) #联合训练、测试数据集

步骤2:该框架的第二步并不需要用到python,继续下一步。

步骤3:查看数据集的列名或概要

fullData.columns # 显示所有的列名称

fullData.head(10) #显示数据框的前10条记录

fullData.describe() #你可以使用describe()函数查看数值域的概要

步骤4:确定a)ID变量 b)目标变量 c)分类变量 d)数值变量 e)其他变量。

ID_col =

target_col =

cat_cols =

num_cols= list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))

other_col= #为训练、测试数据集设置标识符

步骤5:识别缺失值变量并创建标志

fullData.isnull().any()#返回True或False,True意味着有缺失值而False相反

num_cat_cols = num_cols+cat_cols # 组合数值变量和分类变量

#为有缺失值的变量创建一个新的变量

# 对缺失值标志为1,否则为0

for var in num_cat_cols:

if fullData.isnull().any()=True:

fullData=fullData.isnull()*1

步骤6:填补缺失值

#用均值填补数值缺失值

fullData = fullData.fillna(fullData.mean(),inplace=True)

#用-9999填补分类变量缺失值

fullData = fullData.fillna(value = -9999)

步骤7:创建分类变量的标签编码器,将数据集分割成训练和测试集,进一步,将训练数据集分割成训练集和测试集。

#创建分类特征的标签编码器

for var in cat_cols:

number = LabelEncoder()

fullData = number.fit_transform(fullData.astype('str'))

#目标变量也是分类变量,所以也用标签编码器转换

fullData = number.fit_transform(fullData.astype('str'))

train=fullData='Train']

test=fullData='Test']

train = np.random.uniform(0, 1, len(train)) <= .75

Train, Validate = train=True], train=False]

步骤8:将填补和虚假(缺失值标志)变量传递到模型中,我使用随机森林来预测类。

features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))

x_train = Train.values

y_train = Train.values

x_validate = Validate.values

y_validate = Validate.values

x_test=test.values

random.seed(100)

rf = RandomForestClassifier(n_estimators=1000)

rf.fit(x_train, y_train)

步骤9:检查性能做出预测

status = rf.predict_proba(x_validate)

fpr, tpr, _ = roc_curve(y_validate, status)

roc_auc = auc(fpr, tpr)

print roc_auc

final_status = rf.predict_proba(x_test)

test=final_status

test.to_csv('C:/Users/Analytics Vidhya/Desktop/model_output.csv',columns=)

《来源于科技文献,经本人整理归纳,仅供学习和分享,如有侵权请联系删除》

python简单的预测模型_python简单预测模型相关推荐

  1. python爬取图片实例_Python简单爬取图片实例

    都知道Python的语法很简单易上手,也很适合拿来作爬虫等等,这里就简单讲解一下爬虫入门--简单地爬取下载网站图片.html 效果 就像这样自动爬取下载图片到本地:python 代码: 其实很简单,咱 ...

  2. python图像验证码识别_python 简单图像识别--验证码

    python  简单图像识别--验证码 记录下,准备工作安装过程很是麻烦. 首先库:pytesseract,image,tesseract,PIL windows安装PIL,直接exe进行安装更方便( ...

  3. python语句块标记_Python简单语句

    简单语句由(逻辑上的)一行组成. 1.表达式语句 表达式也可以是语句.如果表达式是函数调用或者文档字符串的话尤其有用. 例如: "This modue contains SPAM-relat ...

  4. python读取json配置文件_Python简单读取json文件功能示例

    本文实例讲述了Python简单读取json文件功能.分享给大家供大家参考,具体如下: read_json.json: { "rule":{ "namespace" ...

  5. python字典删除元素_Python简单遍历字典及删除元素的方法

    本文实例讲述了Python简单遍历字典及删除元素的方法.分享给大家供大家参考,具体如下: 这种方式是一定有问题的: d = {'a':1, 'b':2, 'c':3} for key in d: d. ...

  6. python分子化学模拟_python简单实现gillespie模拟

    由于专业需求,需要做主方程的随机模拟.在网上并没有找到适合的Python实现,遂自己写了一个,分享一下源码.至于gillespie算法本身就不介绍了,有需要的读者自然会懂,没需要的读者不建议去懂. 源 ...

  7. python web框架 多线程_python 简单web框架: Bottle

    基本映射 映射使用在根据不同URLs请求来产生相对应的返回内容.Bottle使用route() 修饰器来实现映射. 1 2 3 4 5 from bottle import route, run@ro ...

  8. python sort 部分元素_Python 简单排序算法-选择、冒泡、插入排序实现

    写文章主要是记录自己每天学习的东西,本篇文章主要介绍数据结构中常用的简单的排序算法,虽然这些算法用Python实现起来不是十分的高效,不如c.java之类的运行速度快,应用Python实现主要是为了: ...

  9. python 百度百科 爬虫_python简单爬虫

    爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习 ...

最新文章

  1. 看完让你彻底搞懂Websocket原理
  2. 封装 js 插件 实例
  3. 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言——1106:年龄与疾病
  4. 为什么我强烈建议大家使用枚举来实现单例
  5. Hadoop:启动与停止命令
  6. FastReport问题整理
  7. VBScript入门篇
  8. GIT 使用之 SSH 以及码云上配置 SSH
  9. html自定义的DIV垂直滚动条
  10. The Elder(hdu 5956 树上斜率dp + 队列还原)
  11. 技术干货|eBay对流量控制说“so easy”!
  12. 实时计算与SparkSteaming的对比
  13. 苹果手机iCloud备忘录删除怎么恢复
  14. LeetCode1219 黄金矿工
  15. 数字货币期货现货交易技巧,把握关键进场的买入点!(纯干货)
  16. 【CSS3】变形--位移 translate()
  17. 新的机械硬盘怎么测试软件,机械硬盘怎么判断是否全新(有没有什么软件)
  18. HTML如何设置复选框、单选框以及默认选项?
  19. 各种计算机语言的经典书籍
  20. IOS证书获取(证书profile文件,p12私钥证书,证书私钥密码,Bundle ID)

热门文章

  1. SVM要点总结(一)
  2. css+html 在文字下面加点。
  3. 2021-05-20英文科技论文写作与学术报告Lecture 3习题答案
  4. Hexo图片外链生成专用文章
  5. Slack桌面3.0迁移到BrowserView
  6. python自动注册邮箱_163邮箱自动登陆python+selenium
  7. 安卓大作业-字典App 可以查询汉字 可以玩成语接龙游戏
  8. 『迷你教程』机器学习的Bootstrap及Python实现
  9. 接口获取行政区划代码_全国省市县行政区划分
  10. 神经网络中的Epoch、Iteration、Batchsize