2.Explore Your Data
Using Pandas to Get Familiar With Your Data
任何机器学习项目的第一步都是熟悉数据。 您将使用Pandas库。 Pandas是科学家用于挖掘和处理数据的主要工具。 大多数人在他们的代码中将pandas缩写为pd。 我们使用如下命令执行此操作。
[1]
import pandas as pd
Pandas库中最重要的部分是DataFrame。 DataFrame包含您可能认为是表格的数据类型。 这类似于Excel中的工作表或SQL数据库中的表。
对于您希望使用此类数据进行的大多数事情,Pandas都有强大的方法。
例如,我们将查看澳大利亚墨尔本的房价数据。 在动手练习中,您将相同的处理方法应用于新的数据集,该数据集含有爱荷华州的房价。
示例(墨尔本)数据位于文件路径../input/melbourne-housing-snapshot/melb_data.csv。
我们使用以下命令加载和挖掘数据:
【2】
# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path)
# print a summary of the data in Melbourne data
melbourne_data.describe()
Rooms | Price | Distance | Postcode | Bedroom2 | Bathroom | Car | Landsize | BuildingArea | YearBuilt | Lattitude | Longtitude | Propertycount | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 13580.000000 | 1.358000e+04 | 13580.000000 | 13580.000000 | 13580.000000 | 13580.000000 | 13518.000000 | 13580.000000 | 7130.000000 | 8205.000000 | 13580.000000 | 13580.000000 | 13580.000000 |
mean | 2.937997 | 1.075684e+06 | 10.137776 | 3105.301915 | 2.914728 | 1.534242 | 1.610075 | 558.416127 | 151.967650 | 1964.684217 | -37.809203 | 144.995216 | 7454.417378 |
std | 0.955748 | 6.393107e+05 | 5.868725 | 90.676964 | 0.965921 | 0.691712 | 0.962634 | 3990.669241 | 541.014538 | 37.273762 | 0.079260 | 0.103916 | 4378.581772 |
min | 1.000000 | 8.500000e+04 | 0.000000 | 3000.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 1196.000000 | -38.182550 | 144.431810 | 249.000000 |
25% | 2.000000 | 6.500000e+05 | 6.100000 | 3044.000000 | 2.000000 | 1.000000 | 1.000000 | 177.000000 | 93.000000 | 1940.000000 | -37.856822 | 144.929600 | 4380.000000 |
50% | 3.000000 | 9.030000e+05 | 9.200000 | 3084.000000 | 3.000000 | 1.000000 | 2.000000 | 440.000000 | 126.000000 | 1970.000000 | -37.802355 | 145.000100 | 6555.000000 |
75% | 3.000000 | 1.330000e+06 | 13.000000 | 3148.000000 | 3.000000 | 2.000000 | 2.000000 | 651.000000 | 174.000000 | 1999.000000 | -37.756400 | 145.058305 | 10331.000000 |
max | 10.000000 | 9.000000e+06 | 48.100000 | 3977.000000 | 20.000000 | 8.000000 | 10.000000 | 433014.000000 | 44515.000000 | 2018.000000 | -37.408530 | 145.526350 | 21650.000000 |
Interpreting Data Description
结果显示原始数据集中每列的8个数字。 第一个数字(计数)显示有多少行具有有效值。
由于许多原因而出现缺失值。 例如,在调查单卧室房屋时,不会收集第二间卧室的大小。 我们将回到缺失数据的主题。
第二个值是平均值, 在此之下,std是标准差,它衡量数值如何展开。
要解释最小值,25%,50%,75%和最大值,请设想将每列从最低值到最高值进行排序。 第一个(最小)值是min。 如果你在列表中走四分之一,这就是25%的值。 第50和第75百分位数也是同样定义。
Your Turn
开始的第一个编程练习。
2.Explore Your Data相关推荐
- File Explore 中data权限修改,实体机
如图: 1)root手机,360root 2)RootBrowser 改权限 3)ok 转载于:https://www.cnblogs.com/Alandre/p/3647213.html
- 什么是数据湖(Data Lake)?
什么是数据湖(Data Lake)? 有些东西就是概念,故弄玄虚, just fancy names wikipedia: A data lake is usually a single store ...
- 大数据(big data)_如何使用Big Query&Data Studio处理和可视化Google Cloud上的财务数据...
大数据(big data) 介绍 (Introduction) This article will show you one of the ways you can process stock pri ...
- INT303 Big Data 个人笔记
又来到了经典半个月写一个学期内容的环节 目前更新至Lec{14}/Lec14 依旧是不涉及代码,代码请看学校的jupyter notebook~ Lec1 Introduction 介绍课程 Topi ...
- 【Introduction to Artificial Intelligence and Data Analytics】(TBC)
Introduction to Artificial Intelligence and Data Analytics 笔记. 课件引用于香港理工大学comp1004课程 Content Chapter ...
- Hi-C data analysis tools and papers
Hi-C data analysis tools and papers 全文链接如下: https://github.com/mdozmorov/HiC_tools Tools are sorted ...
- 数据预处理--噪声_为什么数据对您的业务很重要-以及如何处理数据
数据预处理--噪声 YES! Data is extremely important for your business. 是! 数据对您的业务极为重要. A human body has five ...
- keras神经网络回归预测_如何使用Keras建立您的第一个神经网络来预测房价
keras神经网络回归预测 by Joseph Lee Wei En 通过李维恩 一步一步的完整的初学者指南,可使用像Deep Learning专业版这样的几行代码来构建您的第一个神经网络! (A s ...
- 软件开发向大数据开发过渡_如果您是过渡到数据科学的开发人员,那么这里是您的最佳资源...
软件开发向大数据开发过渡 by Cecelia Shao 邵Ce It seems like everyone wants to be a data scientist these days - fr ...
最新文章
- Leangoo看板工具做敏捷故事地图看板示例
- webpack 项目使用--转换为React项目(4)
- Uber发布了Ludwig,一款不使用代码的人工智能开发工具
- 《精通Windows API-函数、接口、编程实例》——第4章文件系统
- Java中的观察者设计模式
- 腾讯或推动斗鱼虎牙合并;拼多多推出“百亿补贴节”;Electron 9.2.0 发布| 极客头条
- Idea Java开发必备插件
- Python chardet模块
- 欧美古风格html网站模板
- PHP连接MYSQL没有反应
- 批量将所有文件按照文件名中的扩展名后缀进行分类整理
- 计算机 桌面 休眠,电脑自动休眠在哪设置的_教你让电脑自动休眠状态的方法-系统城...
- Openstack1 云计算与虚拟化概念
- vb 获取系统声音的电平_音响系统速成方法学习资料
- 基于spss的聚类分析(Cluster analysis)
- 2.4G蓝牙耳机等穿戴蓝牙设备贴片天线方案 CA-C01
- 见过世面的程序员,到底有多厉害
- html对颜色加深,css字体阴影如何加深?
- perl、python、shell脚本区别
- WeChatPlugin Mac版安装
热门文章
- 文件共享服务器地址格式,文件共享服务器配置
- ajax 微信code获取_获取链接的参数,判断是否是微信打开,ajax获取数据
- thinkphp mysql 中文_耗时5天解决thinkphp连接mysql中文乱码的问题
- python apscheduler 脚本 动态_用apscheduler写python定时脚本
- 三级菜单 python_python三级菜单
- X210烧写linux系统
- bbb mmc_blk_probe 分析
- 自己动手写TCC7901的GPIO驱动
- php 时间错误,PHP xdebug调试trace记录时间错误
- mysql数据转存到时序数据库_干货丨如何高速迁移MySQL数据到时序数据库DolphinDB...