python数据挖掘Hello World
2019独角兽企业重金招聘Python工程师标准>>>
开发环境
pip install numpy
pip install pylab
pip install matplotlib
pip install scipy
pip install sklearn
pip install pyparsing
pip install six
数据导入和可视化
前4列包含着特征值,最后一列代表着样本类型。CSV文件很容易被numpy类库的genfromtxt方法解析:
import urllib2
url = 'http://aima.cs.berkeley.edu/data/iris.csv'
u = urllib2.urlopen(url)
localFile = open('iris.csv'', 'w')
localFile.write(u.read())
localFile.close()from numpy import genfromtxt, zeros
data = genfromtxt('iris.csv',delimiter=',',usecols=(0,1,2,3))
target = genfromtxt('iris.csv',delimiter=',',usecols=(4),dtype=str)print data.shape
print target.shape
建一个二维散点图
from pylab import plot, show
plot(data[target=='setosa',0],data[target=='setosa',2],'bo')
plot(data[target=='versicolor',0],data[target=='versicolor',2],'ro')
plot(data[target=='virginica',0],data[target=='virginica',2],'go')
show()
分特性绘制直方图
from pylab import figure, subplot, hist, xlim, show
xmin = min(data[:,0])
xmax = max(data[:,0])
figure()hist(data[target=='setosa',0],color='b',alpha=.7)
xlim(xmin,xmax)hist(data[target=='versicolor',0],color='r',alpha=.7)
xlim(xmin,xmax)hist(data[target=='virginica',0],color='g',alpha=.7)
xlim(xmin,xmax)hist(data[:,0],color='y',alpha=.7)
xlim(xmin,xmax)
show()
转载于:https://my.oschina.net/readerror/blog/1576364
python数据挖掘Hello World相关推荐
- 带你入门Python数据挖掘与机器学习(附代码、实例)
作者:韦玮 来源:Python爱好者社区 本文共7800字,建议阅读10+分钟. 本文结合代码实例待你上手python数据挖掘和机器学习技术. 本文包含了五个知识点: 1. 数据挖掘与机器学习技术简介 ...
- python数据挖掘是什么_python数据挖掘是什么
数据挖掘(data mining,简称DM),是指从大量的数据中,通过统计学.人工智能.机器学习等方法,挖掘出未知的.且有价值的信 息和知识的过程. python数据挖掘常用模块 numpy模块:用于 ...
- python数据分析的主要流程-python数据挖掘的基本流程有哪些?
使用python对数据进行处理时,数据挖掘是极为重要的方式和阶段,目的是搜集大量数据,并从中通过算法搜索出隐藏在数据中的那些隐含的.先前未知的,并有具有潜在使用价值的信息.那么python数据挖掘的具 ...
- 2019年python就业前景_2019年Python数据挖掘就业前景前瞻
Python语言的崛起让大家对web.爬虫.数据分析.数据挖掘等十分感兴趣.数据挖掘就业前景怎么样?关于这个问题的回答,大家首先要知道什么是数据挖掘.所谓数据挖掘就是指从数据库的大量数据中揭示出隐含的 ...
- 【python数据挖掘课程】二十九.数据预处理之字符型转换数值型、标准化、归一化处理
这是<Python数据挖掘课程>系列文章,前面很多文章都讲解了数据挖掘.机器学习,这篇文章主要讲解数据分析预处理中字符特征转换为数值特征.数据标准化.数据归一化,这都是非常基础的工作.最后 ...
- 【python数据挖掘课程】二十五.Matplotlib绘制带主题及聚类类标的散点图
这是<Python数据挖掘课程>系列文章,希望对您有所 帮助.当我们做聚类分析绘制散点图时,通常会遇到无法区分散点类标的情况,做主题分析时,可能会遇到无法将对应散点的名称(尤其中文名称)添 ...
- 【python数据挖掘课程】二十四.KMeans文本聚类分析互动百科语料
这是<Python数据挖掘课程>系列文章,也是我上课内容及书籍中的一个案例.本文主要讲述文本聚类相关知识,包括中文分词.数据清洗.特征提取.TF-IDF.KMeans聚类等步骤.本篇文章为 ...
- 【python数据挖掘课程】二十三.时间序列金融数据预测及Pandas库详解
这是<Python数据挖掘课程>系列文章,也是我上课内容及书籍中的一个案例.本文主要讲述时间序列算法原理,Pandas扩展包基本用法以及Python调用statsmodels库的时间序列算 ...
- 【python数据挖掘课程】二十二.Basemap地图包安装入门及基础知识讲解
这是<Python数据挖掘课程>系列文章,也是我上课内容及书籍中的一个案例.本文主要讲述Matplotlib子包,负责地图绘制,即Basemap扩展包.在做数据挖掘或可视化分析时,常常需要 ...
- 【python数据挖掘课程】二十一.朴素贝叶斯分类器详解及中文文本舆情分析
这是<Python数据挖掘课程>系列文章,也是我上课内容及书籍中的一个案例.本文主要讲述朴素贝叶斯分类算法并实现中文数据集的舆情分析案例,希望这篇文章对大家有所帮助,提供些思路.内容包括: ...
最新文章
- nvm-windows安装和配置
- 大话软件测试与职业生涯
- (6) 查看汉字转换成字节数组后的字节值
- C罗还会是史上第一个上链的得分王吗?
- lgg6可以root的版本_Kali Linux 2020.1版本变更内容
- ZZULIOJ 1101: 逆序数字(函数专题)
- 风压和功率计算公式轴流式_水泵和风机的功率计算及风量、风压的附加系数
- 2021年中国动态内容交付市场趋势报告、技术动态创新及2027年市场预测
- java和scala_什么是Scala及它与Java的区别
- c语言写报告抽象数据类型,C语言抽象数据类型ADT
- PeopleCert认证证书核验真伪(含ITIL、PRINCE2、DevOps、Scrum……等证书)
- 普适计算-2014/04/04
- SpringBoot从入门到精通教程(三十)- 支付宝企业支付集成(五分钟集成)
- 解决U盘制作Ubuntu系统安装盘后无法格式化且容量无法恢复
- Windows下打开命令窗口几种方式
- c语言中出现void错误,关于C语言问题
- python——pandas——dropna()函数
- 如何返回正确与错误信息
- 【亡羊补牢】JS灵魂之问 第23期 修炼内功 关于闭包的回顾
- word显示打印机服务器脱机,打开word显示正在连接打印机是为什么