from pandas import read_csv
from pandas import set_option
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
#1.简单地查看数据
peek=dataset.head(10)
print(peek)
#2.查看数据维度
print(dataset.shape)
#3.数据属性和类型
print(dataset.dtypes)

from pandas import read_csv
from pandas import set_option
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)#4.描述性统计
#可以通过DataFrame的describe()方法来查看描述性统计的内容。
#这个方法给展示了8方面的信息:数据记录数、均值、标准方差、最小值、最大值、下四分位数、
#中位数、上四分位数、最大值。
set_option('display.width',100)
#设置数据的精确度
set_option('precision',2)
print(dataset.describe())

from pandas import read_csv
from pandas import set_option
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)#5.数据分组分布(适用于分类算法)
print(dataset.groupby('class').size())

6. 数据属性的相关性

数据属性的相关性是指数据的两个属性是否互相影响,以及这两种影响是什么方式的等。
非常通用的是计算两个属性的相关性的方法是皮尔逊相关系数——度量两个变量见相关程度的方法。(皮尔逊相关系数,值介于1和-1之间。1表示完全正相关,0表示无关、-1表示完全负相关)
在机器学习中,当数据的相关性比较高时,有些算法(如Linear、逻辑回归算法等)的性能会降低。
当数据的特征的相关性比较高时,应该考虑对特征进行降维处理。
通过使用DataFrame的corr()方法来计算数据集中数据属性之间的关联关系矩阵。

from pandas import read_csv
from pandas import set_option
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
set_option('display.width',100)
#设置数据的精确度
set_option('precision',2)
#6. 数据属性的相关性
print(dataset.corr(method='pearson'))

7. 数据的分布分析

通过分析数据的高斯分布情况来确认数据的偏离情况。
在很多机器学习算法中都会假定数据遵循高斯分布,先计算数据的高斯偏离状况,在格局偏离状况准备数据。
我们可以使用DataFrame的skew()方法来计算所有数据属性的高斯分布偏离情况。

from pandas import read_csv
from pandas import set_option
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
set_option('display.width',100)
#设置数据的精确度
set_option('precision',2)
#7. 数据的分布分析
print(dataset.skew())


skew()函数的结果显示了数据分布是左偏还是右偏。当数据接近0时,表示数据的偏差非常小。

《机器学习Python实践》第6章——数据理解相关推荐

  1. python第三章上机实践_《机器学习Python实践》读书笔记-第三章

    <机器学习Python实践>,第三章,第一个机器学习项目 以往目录:橘猫吃不胖:<机器学习Python实践>读书笔记-第一章​zhuanlan.zhihu.com 书中介绍了一 ...

  2. 机器学习 Python实践 第一天 18.11.08

    本人是某大学大二学生 专业是 软件工程. 由于大一贪玩,大二这学期才有所学习,目前只会C,Python.目前在本学校嵌入式开发实验室.但是我们实验室可以自选喜欢的东西.于是我指向了人工智能.询问了老师 ...

  3. 机器学习Python实践》——数据导入(CSV)

    一.CSV 逗号分隔值(逗号分隔值,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本).纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样 ...

  4. 《机器学习Python实践》——数据导入(CSV)

    一,CSV 逗号分隔值(逗号分隔值,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本).字幕:纯意味着该文件的英文一个字符序列,不含必须像二进制数 ...

  5. 写csv文件_机器学习Python实践——数据导入(CSV)

    一,CSV 逗号分隔值(逗号分隔值,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本).字幕:纯意味着该文件的英文一个字符序列,不含必须像二进制数 ...

  6. csv逗号分隔符转换_机器学习Python实践——数据导入(CSV)

    一,CSV 逗号分隔值(逗号分隔值,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本).字幕:纯意味着该文件的英文一个字符序列,不含必须像二进制数 ...

  7. python怎么导入csv文件数据-机器学习Python实践——数据导入(CSV)

    一,CSV 逗号分隔值(逗号分隔值,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本).字幕:纯意味着该文件的英文一个字符序列,不含必须像二进制数 ...

  8. python聚类分析成绩反思_机器学习python实践——二分K-means聚类

    说这算法之前的话,前期的准备工作,请看我前面的博客.上一篇,我说到了K-means聚类算法,但是有很多的不足,有很多能够改进的地方,例如,怎样使得聚类效果达到全局最优(可能的最好结果)呢? 那么接下来 ...

  9. 自学python推荐书籍同时找哪些来实践-机器学习:Python实践 PDF 原书完整版

    给大家带来的一篇关于人工智能相关的电子书资源,介绍了关于机器学习.Python实践方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小124.7 MB,魏贞原编写,目前豆瓣.亚马逊.当当.京 ...

  10. 《Head First Python》第五章--理解数据

    先给个数据链接:Head First Python 数据集 第五章的问题是帮助Kelly教练获得每个运动员跑得最快的三个时间 数据集: 首先,数据杂乱无章先进行初步处理 按逗号分隔: 把冒号.'-'都 ...

最新文章

  1. httpclient工具类,post请求发送json字符串参数,中文乱码处理
  2. 近期code review几处小问题集锦
  3. 清洗弹幕数据,去不相关的列和空值,MapReduce
  4. [ActionScript 3.0] NetConnection建立客户端与服务器的双向连接
  5. 小心使用tf.image.resize_images,填坑经验分享给你
  6. 现代测试技术与软件关系大吗,现代测试技术及应用学习心得
  7. python的函数调用_三个案例带你了解python回调函数
  8. 谈一谈python中的魔法变量*args和**kwargs
  9. 【表盘识别】基于matlab GUI二值化指针式表盘识别【含Matlab源码 275期】
  10. Win10在使用setuna2时,启动截屏后屏幕会放大的问题
  11. java 1.7 32_java jdk 1.7 32位
  12. QCC3020开发问题汇总(更新中。。。)
  13. 使用ICallbackEventHandler实现无刷新回调
  14. Ubuntu 语言配置修改为英文
  15. Android Camera2 之 CameraCharacteristics 详解
  16. 肿瘤特异性抗原行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  17. eclipse中怎么快速切换窗口?
  18. Kaggle实战(一):泰坦尼克获救预测
  19. php 在对象中递归 坑,PHP_PHP对象递归引用造成内存泄漏分析,通常来说,如果PHP对象存在递 - phpStudy...
  20. Blue Indian's Puzzler Keygenme

热门文章

  1. Android按下多任务java_Android 使用AsyncTask实现多任务多线程断点续传下载
  2. idea mysql做登录界面_IDEA下创建SpringBoot+MyBatis+MySql项目实现动态登录与注册功能...
  3. php 扩展jpeg,php重新编译,gd扩展支持jpeg文件-Go语言中文社区
  4. python中的sorted是什么意思_Python中sorted()排序与字母大小写的问题
  5. java 数据源xml 展示到界面_ZK开发关键知识点
  6. HTML:在HTML前端界面中直接显示代码
  7. SQL:postgresql中st_union合并多条geom数据
  8. jQuery动画实现下拉菜单二级联动
  9. HTML:页面布局和背景
  10. java web 缓存省市县_实现 Java 本地缓存,该从这几点开始