回归分析

线性回归(普遍解法最小二乘法)

步骤:

1、读取数据

2、画出散点图,求x和y 的相关系数:plt.scatter(x,y),x和y是dataframe

3、估计参数模型,建立回归模型:lrModel=LinearRegression()

4、训练模型: lm.fit(x,y)

5、对回归模型进行检验: lm.score(x,y)

6、利用回归模型进行预测:  lm.predict()

# -*- coding:utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegressionboston = load_boston()
print(boston.keys())
# result:
# ['data', 'feature_names', 'DESCR', 'target']print (boston.feature_names)
# result:
# ['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO' 'B' 'LSTAT']# print boston.DESCR    # 取消注释并运行,可查看数据说明文档
x = boston.data[:, np.newaxis, 5]
y = boston.target
lm = LinearRegression()    # 声明并初始化一个线性回归模型的对象
lm.fit(x, y)    # 拟合模型,或称为训练模型
print (u'方程的确定性系数(R^2): %.2f' % lm.score(x, y))
# result: 方程的确定性系数(R^2): 0.48plt.scatter(x, y, color='green')    # 显示数据点
plt.plot(x, lm.predict(x), color='blue', linewidth=3)    # 画出回归直线
plt.xlabel('Average Number of Rooms per Dwelling (RM)')
plt.ylabel('Housing Price')
plt.title('2D Demo of Linear Regression')
plt.show()

dict_keys(['data', 'target', 'feature_names', 'DESCR', 'filename'])
['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']
方程的确定性系数(R^2): 0.48

https://blog.csdn.net/xun527/article/details/79680473

有关线性回归分析很详细

logistic回归模型建模实例

逻辑回归(Logistic Regression是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法。
二分类问题的概率与自变量之间的关系图形往往是一个S型曲线,采用的Sigmoid函数实现。

Logistic回归模型的建模步骤

1.首先根据分析的目的设置指标变量(因变量与自变量),然后我们进行数据的收集,根据收集到的数据,对特征再次进行筛选.(在具体筛选时,利用了随机逻辑回归中的get_support()函数)

2. 列出回归方程,估计出模型中的回归系数

.3. 进行模型的检测,模型有效性的检验指标有很多,最基本的有正确率,其次有混淆矩阵,ROC曲线,KS值等.

4,模型应用.

# -*- coding:utf-8 -*-
import pandas as pd
from sklearn.linear_model import LogisticRegression, RandomizedLogisticRegression
from sklearn.model_selection import train_test_split# 导入数据并观察
data = pd.read_csv('../data/LogisticRegression.csv', encoding='utf-8')
# print data.head(5)    # 查看数据框的头五行# 将类别型变量进行独热编码one-hot encoding
data_dum = pd.get_dummies(data, prefix='rank', columns=['rank'], drop_first=True)
print (data_dum.tail(5) )   # 查看数据框的最后五行
# result:
#     admit  gre   gpa  rank_2  rank_3  rank_4
# 395      0  620  4.00     1.0     0.0     0.0
# 396      0  560  3.04     0.0     1.0     0.0
# 397      0  460  2.63     1.0     0.0     0.0
# 398      0  700  3.65     1.0     0.0     0.0
# 399      0  600  3.89     0.0     1.0     0.0# 切分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data_dum.ix[:, 1:], data_dum.ix[:, 0], test_size=.1, random_state=520)lr = LogisticRegression()    # 建立LR模型
lr.fit(X_train, y_train)    # 用处理好的数据训练模型
print ('逻辑回归的准确率为:{0:.2f}%'.format(lr.score(X_test, y_test) *100))

train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。

格式:

X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)

参数解释

train_data:被划分的样本特征集

train_target:被划分的样本标签

test_size:如果是浮点数,在0-1之间,表示样本占比;如果是整数的话就是样本的数量

random_state:是随机数的种子。

随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数。比如你每次都填1,其他参数一样的情况下你得到的随机数组是一样的。但填0或不填,每次都会不一样。

随机数的产生取决于种子,随机数和种子之间的关系遵从以下两个规则:

种子不同,产生不同的随机数;种子相同,即使实例不同也产生相同的随机数。

python与数据挖掘 分类和预测相关推荐

  1. python与算法社区_【Python算法】分类与预测——Python随机森林

    [Python算法]分类与预测--Python随机森林 1.随机森林定义 随机森林是一种多功能的机器学习算法,能够执行回归和分类的任务.同时,它也是一种数据降维手段,在处理缺失值.异常值以及其他数据探 ...

  2. 【华为云技术分享】【Python算法】分类与预测——决策树

    1.决策树定义 决策树方法在分类.预测.规则提取等领域有着广泛的应用.20 世纪 70 年代后期和 80 年代初期,机器学习研究者 J.Ross Quinlan 提出了 ID3 算法以后,决策树就在机 ...

  3. 【华为云技术分享】【Python算法】分类与预测——Python随机森林

    1.随机森林定义 随机森林是一种多功能的机器学习算法,能够执行回归和分类的任务.同时,它也是一种数据降维手段,在处理缺失值.异常值以及其他数据探索等方面,取得了不错的成效.另外,它还担任了集成学习中的 ...

  4. 数据挖掘-分类与预测-神经网络算法

    代码来源:Python数据分析与挖掘实战 # -*- coding: utf-8 -*- # 使用神经网络算法预测销量高低import sys reload(sys) sys.setdefaulten ...

  5. 【Python算法】分类与预测——logistic回归分析

    1.logistic回归定义 logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处.它们的模型形式基本上相同,都具有 w'x ...

  6. 【华为云技术分享】【Python算法】分类与预测——支持向量机

    1.支持向量机定义 在机器学习领域,支持向量机 SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别.分类.以及回归分析.给出一个简单的线性分类问题,要用 ...

  7. 【Python数据分析】数据挖掘建模——分类与预测——人工神经网络

    人工神经网络(artificial neural networks,ANNs),是模拟生物神经网络进行信息处理的一种数学模型. 一.人工神经网络简介 更多关于神经网络的发展可以参考:人工神经网络简介_ ...

  8. 【Python数据分析】数据挖掘建模——分类与预测——决策树

    决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集.构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分. ...

  9. 【Python数据分析】数据挖掘建模——分类与预测——回归分析

    根据挖掘目标和数据形式可以建立分类与预测.聚类分析.关联规则.时序模型.离群点检测等模型.首先介绍一下分类与预测模型. 一.分类预测模型实现过程 分类模型主要是预测分类编号,预测模型主要是建立连续值函 ...

  10. 数据分享|PYTHON用决策树分类预测糖尿病和可视化实例

    全文下载链接:http://tecdat.cn/?p=23848 在本文中,决策树是对例子进行分类的一种简单表示.它是一种有监督的机器学习技术,数据根据某个参数被连续分割.决策树分析可以帮助解决分类和 ...

最新文章

  1. 连接服务器_命令行连接FTP服务器
  2. 辗转相除法是求两个数的最大公约数的方法。
  3. python 培训-本人的Python自学历程分享
  4. mapping 详解1(mapping type)
  5. boost::hana::just用法的测试程序
  6. WPF轮播图实现方式(二)
  7. BZOJ-1901 Zju2112 Dynamic Rankings 函数式线段树 套 树状数组+离线处理
  8. OSI(Open System Interconnect)开放式系统互联
  9. 【NumPy基础】100道numpy练习——Apprentice篇
  10. 【日常学习】【二叉树遍历】Uva548 - Tree题解
  11. 网易严选数据产品实践
  12. 经纬度5位数和6位数差多少_经度和纬度的最大长度是多少?
  13. 你还不明白如何解决分布式Session?看这篇就够了!
  14. 目前的云计算,主要存在的问题有哪些?
  15. 台式计算机如何设置屏幕亮度,怎么调整台式电脑屏幕亮度的方法,如何调整显示器...
  16. 如何快速全选文件夹内的文件
  17. 海康萤石摄像机远程监控机制分析
  18. Python 设置numpy不以科学计数法保存和显示的方法
  19. Word临时文件怎么恢复?可持续的文件恢复方法
  20. 安装win8+Ubuntu双系统 传统BIOS方式引导模式 ubuntu引导windows

热门文章

  1. 宝健中国用产品缔造口碑,深受消费者信赖
  2. 【论文翻译】知识图谱论文中英对照翻译----(KnowLife:a versatile approach ... )
  3. 超详细的《使用腾讯云移动直播开发连麦》
  4. marked扩展语法(增加自定义表情)
  5. xp系统计算机怎么连接到网络打印机,老司机教你win7如何连接共享xp打印机
  6. 国际贸易术语解释通则(DDP 完税后交货(……指定目的港))
  7. [ICCV2021] TransReID: Transformer-based Object Re-Identification 行人重识别
  8. 不懂这些法律问题,你的创业融资很危险
  9. 当拳皇遇上数据库,会擦出什么样的火花?
  10. NOI 1.11(02)二分法求函数的零点