Python skit-learn 学习

import pandas as pd
from collections import OrderedDict
# 先构建一个数据集
examDict = {'LearnTime':[0.05,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],'Soce':       [10,22,13,43,20,22,23,50,48,55,75,63,73,81,76,64,82,90,93,100]}
# 转换成有序字典
examOrderDict = OrderedDict(examDict)# 通过有序字典构建数据框pd.DataFrame()
examDf = pd.DataFrame(examOrderDict)
print(examDf)
print(examDf.head())
# 提取特征
exam_X = examDf.loc[:,'LearnTime']
exam_y = examDf.loc[:,'Soce']
print("exam_X")
print(exam_X)
print("exam_y")
print(exam_y)# 绘制散点图
import matplotlib.pyplot as plt# 使用scatter函数实现散点图框架
plt.scatter(exam_X,exam_y,edgecolors='b',label = 'exam data')
#  x,y 轴标签属性
plt.xlabel('Hours')
plt.ylabel('Score')
# plt.show()# 建立数据和测试数据
# 绘制出散点训练图
from sklearn.model_selection import train_test_split
# 建立train data和 test data,以及训练数据占比
X_train,X_test,y_train,y_test=train_test_split(exam_X,exam_y,train_size=0.8)
# s输出数据大小
print('原始数据特征',exam_X.shape, ',训练数据特征','X_train.shape', ',测试数据特征',X_test.shape)
print('原水数据标签',exam_y.shape, ',训练数据标签',y_train.shape,',测试数据标签', y_test.shape)
plt.scatter(X_train, y_train, color='b', label='train data')
plt.scatter(X_test, y_test, color='red', label='test data')
# 添加图标标签
plt.legend(loc=2)
plt.xlabel('Hours')
plt.ylabel('Score')
plt.show()

总结: 使用train_test_split()函数需要 import sklearn.model_selection

  1. 第一个参数是训练数据

构建无监督学习数据模型
2. 准备raw data数据集,可以使用数据可视化直观的剔除噪音数据
3. raw data 分配train data 和 test data, 一般 test data 只要20%足已
4. 使用train data 建立数据特征model, plt scatter()
5. 使用test data 来检验model的精度,可以用使用score() mean()来计算精度

Python数据分析学习相关推荐

  1. Python数据分析学习笔记:使用SciKit-Learn进行数据规范化

    Python数据分析学习笔记:使用SciKit-Learn进行数据规范化 数据规范化是数据挖掘的一项基础工作.不同评价指标往往具有不同的量纲,数值见的差别可能很大,不进行处理可能会影响到数据分析的结果 ...

  2. Python数据分析学习笔记:计算向量夹角

    Python数据分析学习笔记:计算向量夹角 通过计算两个向量夹角了解两个向量之间的相关性. # 计算向量夹角import numpy as npdef included_angle(a, b):a_n ...

  3. Python数据分析学习笔记:计算相关系数

    Python数据分析学习笔记:计算相关系数 1.相关系数概念 相关系数,或称线性相关系数.皮氏积矩相关系数(Pearson product-moment correlation coefficient ...

  4. Python数据分析学习笔记05:用户画像

    Python数据分析学习笔记05:用户画像 一.用户画像 用户画像是指根据用户的属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.通俗说就是给用户打标签,而标签是通过对用户信息分析而 ...

  5. Python数据分析学习系列 九 绘图和可视化

    Python数据分析学习系列 九 绘图和可视化 资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载 信息可视化 ...

  6. Python数据分析学习系列 十三 Python建模库介绍

    Python数据分析学习系列 十三 Python建模库介绍 资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载 ...

  7. Python数据分析学习 一

    Python数据分析学习系列一 资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载 第1章 准备工作 1.1 ...

  8. Python数据分析学习系列 八 数据规整:聚合、合并和重塑

    Python数据分析学习系列 八 数据规整:聚合.合并和重塑 资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下 ...

  9. Python数据分析学习系列 十一 时间序列

    Python数据分析学习系列 十一 时间序列 资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下载 时间序列(t ...

  10. Python数据分析学习四 NumPy基础:数组和矢量计算

    Python数据分析学习系列四NumPy基础:数组和矢量计算 资料转自(GitHub地址):https://github.com/wesm/pydata-book 有需要的朋友可以自行去github下 ...

最新文章

  1. 刚刚,我国智能科学技术最高奖揭晓!
  2. 高效的判断素数---筛选法
  3. 如何使用SAT trace一个正在运行的程序
  4. 中文整合包_MIMOSA2: 基于微生物组和代谢组数据的整合分析
  5. HTML连载71-翻转菜单练习
  6. 我的docker随笔11:Dockerfile编写
  7. spring的jdbcTemplate的多数据源的配置,springboot的jdbcTemplate的多数据源的配置
  8. 【PPT分享】阿里巴巴定向广告之新一代Rank技术.pdf(附下载链接)
  9. 设置图例 边框 背景 AE C#
  10. php 什么函数获取ip,php函数获取在线ip与客户端ip
  11. win10系统迁移到固态(傻瓜式--分区助手)
  12. java 汇率转换_汇率转换 实现了一个用于多币种之间汇率转换的程序 联合开发网 - pudn.com...
  13. 串口总线舵机之舵机命令
  14. Unity官方案例——Roll a ball
  15. JavaWebDay7
  16. docker修改配置文件之后,导致不能启动
  17. 诺贝尔物理学奖公布:LED灯将点亮了整个21世纪
  18. Unity---Shader
  19. linux系统make命令详解
  20. 快速将Word文件转换成PPT的方法

热门文章

  1. 再次分享一个多选文件上传方案
  2. H264 视频文件 帧格式 传输封装等 杂碎
  3. Gmapping——从原理到实践
  4. 异形3×3魔方还原教程_【理论篇】三阶魔方4.33千亿亿种变化是怎么计算出来的?...
  5. python时间格式_python 格式化日期
  6. matlab中求三维中的多个体积,用matlab计算由下面2个几何体围成的体积: x^2+y^2+z^2=36,((x-4)/5)^2+((y-1)/3)^2+((z-2)/5)^2=1...
  7. mysql 不同分区 同时insert_Mysql分区表的原理和优缺点
  8. 依赖注入Bean属性——手动装配Bean
  9. jQuery安装和语法
  10. [BZOJ2725/Violet 6]故乡的梦