本人找到了一条路(不知道对错的路),采集训练的 数据和清理数据。

第一步  采集

涉及到如何利用爬虫采集网页csv文件

数据是在UCI 上的  UCI官网如下http://archive.ics.uci.edu/ml/index.php  。就拿里面最热门的Iris数据来说。进入数据的下载页http://archive.ics.uci.edu/ml/machine-learning-databases/iris/,可以将iris.data右键另存为本地文件。当然还有另外一种方法,就是利用爬虫进行在http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data采集代码如下

import os
from bokeh.models import pd
#百度到的代码,正确是正确,但是
def ReadAndSaveDataByPandas(target_url = None,save=False):wine = pd.read_csv(target_url, header=0, sep=",")if save == True:'''  import osos.getcwd() #获取当前工作路径'''#  dt.to_csv('Result.csv')  # 相对位置,保存在getwcd()获得的路径下#  dt.to_csv('C:/Users/think/Desktop/Result.csv')  # 绝对位置#这里是绝对路径 不建议如此,但是我就想保存到这 wine.to_csv("C:/Users/Administrator/Desktop/Iris.csv",index=0,header=1)
target_url = "http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
ReadAndSaveDataByPandas(target_url,True)

第二步 清洗

如何利用read_csv读取文件,并转化为字典形式

利用panda库的read_csv读取文件然后再转换为我们想要的格式

import numpy as np
import pandas as pddef getIrisData(path):names=['1','2','3','4','target_names','target']read=pd.read_csv(path,names=names,sep=',')for i in range(len(read)):if (read['target_names'][i] == 'Iris-setosa' ):read['target'][i]=0elif (read['target_names'][i] == 'Iris-versicolor'):read['target'][i]= 1else:read['target'][i]= 2'''#read['target'] = pd.Categorical(read['target_names']).codes 这种写法才是完美的#这种写法好像更好read['target'][read['target_names']== 'Iris-setosa']=0read['target'][read['target_names'] == 'Iris-versicolor'] = 1read['target'][read['target_names'] == 'Iris-virginica'] = 2'''
#   print(read)#还有这种写法啊'''  array=read.valuesX = array[:, 0:4]'''X = np.array(read[['1','2','3','4']])print(X)Y=np.array(read['target'])print(Y)#获得花中的种类list2=[]for i in range(len(read['target_names'])):if read['target_names'][i] not in list2:list2.append(read['target_names'][i])# print(list2)list1=dict([('data',X),('target',Y),('feature_names',list2)])print (list1)return list1
#我调试的时候用的是这个路径,第一步不是的,所以要注意位置甚至是文件名。
#getIrisData('../../Data/iris.csv')

至于为什么 将数据搞成这个形式 。因为from sklearn.datasets import load_iris  里的数据也是这个形式。弄不弄弄成其他形式,暂时不知道。

第三步   处理

处理是《机器学习系统设计》第二章的第一个代码,如下。

from  matplotlib import pyplot as plt
from sklearn.datasets import load_iris
#此路径不一定是你的路径
from MLDownding.loadIris.handleIris import getIrisData#这里是利用load_iris的数据,如果利用自己的数据,就把这段注释掉用下面那个data=。。。
data=load_iris()
#data=getIrisData('../../Data/iris.data')features=data['data']
print(data)
feature_names=data['feature_names']
target=data['target']pairs=[(0,1),(0,2),(0,3),(1,2),(1,3),(2,3)]
for i,(p0,p1) in enumerate (pairs):plt.subplot(2,3,i+1)for t,marker,c in zip(range(3),">ox","rgb"):plt.scatter(features[target==t,p0],features[target==t,p1],marker=marker,c=c)plt.xlabel(feature_names[p0])plt.ylabel(feature_names[p1])plt.xticks([])plt.yticks([])
plt.show()

机器学习 数据的采集和清洗相关推荐

  1. 大数据应用导论 Chapter02 | 大数据的采集与清洗

      大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  2. 用Spark机器学习数据流水线进行广告检测

    在这篇文章中,我们Spark的其它机器学习API,名为Spark ML,如果要用数据流水线来开发大数据应用程序的话,这个是推荐的解决方案.关键点: 了解机器学习数据流水线有关内容. 怎么用Apache ...

  3. 15家大数据公司被调查,数据行业面临大清洗?

    15家大数据公司被调查,数据行业面临大清洗? 行业急需正本清源,让良币"更有信心,更有动力". 一本财经 · 2017/05/27 16:42评论(0) 收藏(0) 9.4W字体: ...

  4. 电商数据监测全过程——采集、清洗、分析

    大家好,这里是小安说网控. 数据监测的目的是将电商数据转换为有价值的营销情报,所以数据监测绝不仅仅是采集,还要包括清洗和分析. 一. 数据采集 数据采集就是根据预设规则来采集网络数据.其中,需要注意以 ...

  5. 数据分析 第一讲 Python语言及工作环境准备、本地数据的采集与操作

    文章目录 第一讲 Python语言及工作环境准备 一.数据分析 1 数据分析的基本概念 2 数据分析的流程 3 为什么要学习数据分析 4 环境部署 4.1 pip install jupyter 4. ...

  6. 大数据导论(三:大数据的采集及预处理)

    1.大数据采集 1.1 大数据采集概念 数据采集(DAQ)又称数据获取,通过RFID射频数据.传感器数据.社交网络数据.移动互联网数据等方式获得各种类型的结构化.半结构化及非结构化的海量数据. 1.2 ...

  7. 【云驻共创】货物流转数据全自动采集,解决快递积压难题

     随着网上购物的不断普及与发展,快递业务也因此有了突飞猛进的发展,但是在网购高峰期出现爆仓,又该如何解决货物积压难题呢?让我们一起来认识一下货物流转数据全自动采集的妙用吧!看看华为又提出了怎样的解决方 ...

  8. 机器学习数据拆分_解释了关键的机器学习概念-数据集拆分和随机森林

    机器学习数据拆分 数据集分割 (Dataset Splitting) Splitting up into Training, Cross Validation, and Test sets are c ...

  9. 一文读懂机器学习“数据中毒”

    作者 | Ben Dickson 翻译 | 火火酱~ 出品 | AI科技大本营 头图 | 付费下载于视觉中国 在人类的眼中,下面的三张图片分别展示了三样不同的东西:一只鸟.一只狗和一匹马.但对于机器学 ...

最新文章

  1. sass文件编译的三种方式【舒】
  2. Acronis Disk Director 10 硬盘操作详细教程(三)分区表修复
  3. R语言ggplot2可视化绘制二维的密度图:在R中建立二维散点数据的连续密度热图、2D密度估计、MASS包中的kde2d函数实现2D密度估计、geom_density2d函数可视化二维密度图
  4. 用飞桨做自然语言处理:神经网络语言模型应用实例
  5. 二、抽象层的Builder模式
  6. Y/C分离/2/3D滤波器
  7. 动词变名词的变化规则_动词第三人称单数的变化规则及练习(含语音)
  8. Java的echo_简单的Java echo服务器问题
  9. sql server 2005管理员手册_执行一条sql语句都经历了什么?
  10. R语言高级算法之支持向量机(Support Vector Machine)
  11. wdm 驱动 支持 win7_可以在Win7上装intel 9代CPU吗?
  12. java8 Stream2
  13. html怎样自动播放视频,html5如何实现自动播放视频?
  14. python的copy模块是哪个模块_每周一个 Python 模块 | copy
  15. JFinal自动扫描表绑定model(包含jar包扫描)
  16. 纯js实现下载功能【附上js代码】
  17. 饱和和非饱和激活函数
  18. 数据结构-----------------------哈希表(最通俗易懂的文章)
  19. JL-03-Q9 自动气象站 常见气象9参数 空气温湿度 风速风向 雨量光照 大气压力 土壤温湿度
  20. maven~本地仓库的指定

热门文章

  1. excel超链接怎么设置_【excel每日提升】Excel基础知识文本的排序!
  2. win10 家庭版 获取管理员权限
  3. 数学建模 比赛日程安排问题 答案及程序代码
  4. 在UE4里制作3D UI(一)——使用LGUI插件
  5. Ubuntu限制本地上传、下载网速(限速)
  6. least和greatest
  7. 经济学人 商论 倾听世界的声音 分享
  8. ‘UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 2: illegal multibyte sequence’
  9. css margin缩写简写
  10. Vijos 雷曼兔(csapc)