机器学习数据的采集和清洗

本人找到了一条路（不知道对错的路），采集训练的数据和清理数据。

第一步采集

涉及到如何利用爬虫采集网页csv文件

数据是在UCI 上的 UCI官网如下http://archive.ics.uci.edu/ml/index.php 。就拿里面最热门的Iris数据来说。进入数据的下载页http://archive.ics.uci.edu/ml/machine-learning-databases/iris/，可以将iris.data右键另存为本地文件。当然还有另外一种方法，就是利用爬虫进行在http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data采集代码如下

import os
from bokeh.models import pd
#百度到的代码，正确是正确，但是
def ReadAndSaveDataByPandas(target_url = None,save=False):wine = pd.read_csv(target_url, header=0, sep=",")if save == True:'''  import osos.getcwd() #获取当前工作路径'''#  dt.to_csv('Result.csv')  # 相对位置，保存在getwcd()获得的路径下#  dt.to_csv('C:/Users/think/Desktop/Result.csv')  # 绝对位置#这里是绝对路径 不建议如此，但是我就想保存到这 wine.to_csv("C:/Users/Administrator/Desktop/Iris.csv",index=0,header=1)
target_url = "http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
ReadAndSaveDataByPandas(target_url,True)

第二步清洗

如何利用read_csv读取文件，并转化为字典形式

利用panda库的read_csv读取文件然后再转换为我们想要的格式

import numpy as np
import pandas as pddef getIrisData(path):names=['1','2','3','4','target_names','target']read=pd.read_csv(path,names=names,sep=',')for i in range(len(read)):if (read['target_names'][i] == 'Iris-setosa' ):read['target'][i]=0elif (read['target_names'][i] == 'Iris-versicolor'):read['target'][i]= 1else:read['target'][i]= 2'''#read['target'] = pd.Categorical(read['target_names']).codes 这种写法才是完美的#这种写法好像更好read['target'][read['target_names']== 'Iris-setosa']=0read['target'][read['target_names'] == 'Iris-versicolor'] = 1read['target'][read['target_names'] == 'Iris-virginica'] = 2'''
#   print(read)#还有这种写法啊'''  array=read.valuesX = array[:, 0:4]'''X = np.array(read[['1','2','3','4']])print(X)Y=np.array(read['target'])print(Y)#获得花中的种类list2=[]for i in range(len(read['target_names'])):if read['target_names'][i] not in list2:list2.append(read['target_names'][i])# print(list2)list1=dict([('data',X),('target',Y),('feature_names',list2)])print (list1)return list1
#我调试的时候用的是这个路径，第一步不是的，所以要注意位置甚至是文件名。
#getIrisData('../../Data/iris.csv')

至于为什么将数据搞成这个形式。因为from sklearn.datasets import load_iris 里的数据也是这个形式。弄不弄弄成其他形式，暂时不知道。

第三步处理

处理是《机器学习系统设计》第二章的第一个代码，如下。

from  matplotlib import pyplot as plt
from sklearn.datasets import load_iris
#此路径不一定是你的路径
from MLDownding.loadIris.handleIris import getIrisData#这里是利用load_iris的数据，如果利用自己的数据，就把这段注释掉用下面那个data=。。。
data=load_iris()
#data=getIrisData('../../Data/iris.data')features=data['data']
print(data)
feature_names=data['feature_names']
target=data['target']pairs=[(0,1),(0,2),(0,3),(1,2),(1,3),(2,3)]
for i,(p0,p1) in enumerate (pairs):plt.subplot(2,3,i+1)for t,marker,c in zip(range(3),">ox","rgb"):plt.scatter(features[target==t,p0],features[target==t,p1],marker=marker,c=c)plt.xlabel(feature_names[p0])plt.ylabel(feature_names[p1])plt.xticks([])plt.yticks([])
plt.show()

机器学习数据的采集和清洗相关推荐

大数据应用导论 Chapter02 | 大数据的采集与清洗
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
用Spark机器学习数据流水线进行广告检测
在这篇文章中,我们Spark的其它机器学习API,名为Spark ML,如果要用数据流水线来开发大数据应用程序的话,这个是推荐的解决方案.关键点: 了解机器学习数据流水线有关内容. 怎么用Apache ...
15家大数据公司被调查，数据行业面临大清洗？
15家大数据公司被调查,数据行业面临大清洗? 行业急需正本清源,让良币"更有信心,更有动力". 一本财经 · 2017/05/27 16:42评论(0) 收藏(0) 9.4W字体: ...
电商数据监测全过程——采集、清洗、分析
大家好,这里是小安说网控. 数据监测的目的是将电商数据转换为有价值的营销情报,所以数据监测绝不仅仅是采集,还要包括清洗和分析. 一. 数据采集数据采集就是根据预设规则来采集网络数据.其中,需要注意以 ...
数据分析第一讲 Python语言及工作环境准备、本地数据的采集与操作
文章目录第一讲 Python语言及工作环境准备一.数据分析 1 数据分析的基本概念 2 数据分析的流程 3 为什么要学习数据分析 4 环境部署 4.1 pip install jupyter 4. ...
大数据导论（三：大数据的采集及预处理）
1.大数据采集 1.1 大数据采集概念数据采集(DAQ)又称数据获取,通过RFID射频数据.传感器数据.社交网络数据.移动互联网数据等方式获得各种类型的结构化.半结构化及非结构化的海量数据. 1.2 ...
【云驻共创】货物流转数据全自动采集，解决快递积压难题
随着网上购物的不断普及与发展,快递业务也因此有了突飞猛进的发展,但是在网购高峰期出现爆仓,又该如何解决货物积压难题呢?让我们一起来认识一下货物流转数据全自动采集的妙用吧!看看华为又提出了怎样的解决方 ...
机器学习数据拆分_解释了关键的机器学习概念-数据集拆分和随机森林
机器学习数据拆分数据集分割 (Dataset Splitting) Splitting up into Training, Cross Validation, and Test sets are c ...
一文读懂机器学习“数据中毒”
作者 | Ben Dickson 翻译 | 火火酱~ 出品 | AI科技大本营头图 | 付费下载于视觉中国在人类的眼中,下面的三张图片分别展示了三样不同的东西:一只鸟.一只狗和一匹马.但对于机器学 ...

机器学习数据的采集和清洗

第一步采集

第二步清洗

第三步处理

机器学习数据的采集和清洗相关推荐

最新文章

热门文章

机器学习 数据的采集和清洗

第一步 采集

第二步 清洗

第三步 处理

机器学习 数据的采集和清洗相关推荐

最新文章

热门文章

机器学习数据的采集和清洗

第一步采集

第二步清洗

第三步处理

机器学习数据的采集和清洗相关推荐