Using Pandas to Get Familiar With Your Data

任何机器学习项目的第一步都是熟悉数据。 您将使用Pandas库。 Pandas是科学家用于挖掘和处理数据的主要工具。 大多数人在他们的代码中将pandas缩写为pd。 我们使用如下命令执行此操作。

[1]

import pandas as pd

Pandas库中最重要的部分是DataFrame。 DataFrame包含您可能认为是表格的数据类型。 这类似于Excel中的工作表或SQL数据库中的表。
对于您希望使用此类数据进行的大多数事情,Pandas都有强大的方法。
例如,我们将查看澳大利亚墨尔本的房价数据。 在动手练习中,您将相同的处理方法应用于新的数据集,该数据集含有爱荷华州的房价。
示例(墨尔本)数据位于文件路径../input/melbourne-housing-snapshot/melb_data.csv。
我们使用以下命令加载和挖掘数据:

【2】

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path)
# print a summary of the data in Melbourne data
melbourne_data.describe()
  Rooms Price Distance Postcode Bedroom2 Bathroom Car Landsize BuildingArea YearBuilt Lattitude Longtitude Propertycount
count 13580.000000 1.358000e+04 13580.000000 13580.000000 13580.000000 13580.000000 13518.000000 13580.000000 7130.000000 8205.000000 13580.000000 13580.000000 13580.000000
mean 2.937997 1.075684e+06 10.137776 3105.301915 2.914728 1.534242 1.610075 558.416127 151.967650 1964.684217 -37.809203 144.995216 7454.417378
std 0.955748 6.393107e+05 5.868725 90.676964 0.965921 0.691712 0.962634 3990.669241 541.014538 37.273762 0.079260 0.103916 4378.581772
min 1.000000 8.500000e+04 0.000000 3000.000000 0.000000 0.000000 0.000000 0.000000 0.000000 1196.000000 -38.182550 144.431810 249.000000
25% 2.000000 6.500000e+05 6.100000 3044.000000 2.000000 1.000000 1.000000 177.000000 93.000000 1940.000000 -37.856822 144.929600 4380.000000
50% 3.000000 9.030000e+05 9.200000 3084.000000 3.000000 1.000000 2.000000 440.000000 126.000000 1970.000000 -37.802355 145.000100 6555.000000
75% 3.000000 1.330000e+06 13.000000 3148.000000 3.000000 2.000000 2.000000 651.000000 174.000000 1999.000000 -37.756400 145.058305 10331.000000
max 10.000000 9.000000e+06 48.100000 3977.000000 20.000000 8.000000 10.000000 433014.000000 44515.000000 2018.000000 -37.408530 145.526350 21650.000000

Interpreting Data Description

结果显示原始数据集中每列的8个数字。 第一个数字(计数)显示有多少行具有有效值。
由于许多原因而出现缺失值。 例如,在调查单卧室房屋时,不会收集第二间卧室的大小。 我们将回到缺失数据的主题。
第二个值是平均值, 在此之下,std是标准差,它衡量数值如何展开。
要解释最小值,25%,50%,75%和最大值,请设想将每列从最低值到最高值进行排序。 第一个(最小)值是min。 如果你在列表中走四分之一,这就是25%的值。 第50和第75百分位数也是同样定义。

Your Turn

开始的第一个编程练习。

2.Explore Your Data相关推荐

  1. File Explore 中data权限修改,实体机

    如图: 1)root手机,360root 2)RootBrowser 改权限 3)ok 转载于:https://www.cnblogs.com/Alandre/p/3647213.html

  2. 什么是数据湖(Data Lake)?

    什么是数据湖(Data Lake)? 有些东西就是概念,故弄玄虚, just fancy names wikipedia: A data lake is usually a single store ...

  3. 大数据(big data)_如何使用Big Query&Data Studio处理和可视化Google Cloud上的财务数据...

    大数据(big data) 介绍 (Introduction) This article will show you one of the ways you can process stock pri ...

  4. INT303 Big Data 个人笔记

    又来到了经典半个月写一个学期内容的环节 目前更新至Lec{14}/Lec14 依旧是不涉及代码,代码请看学校的jupyter notebook~ Lec1 Introduction 介绍课程 Topi ...

  5. 【Introduction to Artificial Intelligence and Data Analytics】(TBC)

    Introduction to Artificial Intelligence and Data Analytics 笔记. 课件引用于香港理工大学comp1004课程 Content Chapter ...

  6. Hi-C data analysis tools and papers

    Hi-C data analysis tools and papers 全文链接如下: https://github.com/mdozmorov/HiC_tools Tools are sorted ...

  7. 数据预处理--噪声_为什么数据对您的业务很重要-以及如何处理数据

    数据预处理--噪声 YES! Data is extremely important for your business. 是! 数据对您的业务极为重要. A human body has five ...

  8. keras神经网络回归预测_如何使用Keras建立您的第一个神经网络来预测房价

    keras神经网络回归预测 by Joseph Lee Wei En 通过李维恩 一步一步的完整的初学者指南,可使用像Deep Learning专业版这样的几行代码来构建您的第一个神经网络! (A s ...

  9. 软件开发向大数据开发过渡_如果您是过渡到数据科学的开发人员,那么这里是您的最佳资源...

    软件开发向大数据开发过渡 by Cecelia Shao 邵Ce It seems like everyone wants to be a data scientist these days - fr ...

最新文章

  1. Leangoo看板工具做敏捷故事地图看板示例
  2. webpack 项目使用--转换为React项目(4)
  3. Uber发布了Ludwig,一款不使用代码的人工智能开发工具
  4. 《精通Windows API-函数、接口、编程实例》——第4章文件系统
  5. Java中的观察者设计模式
  6. 腾讯或推动斗鱼虎牙合并;拼多多推出“百亿补贴节”;Electron 9.2.0 发布| 极客头条
  7. Idea Java开发必备插件
  8. Python chardet模块
  9. 欧美古风格html网站模板
  10. PHP连接MYSQL没有反应
  11. 批量将所有文件按照文件名中的扩展名后缀进行分类整理
  12. 计算机 桌面 休眠,电脑自动休眠在哪设置的_教你让电脑自动休眠状态的方法-系统城...
  13. Openstack1 云计算与虚拟化概念
  14. vb 获取系统声音的电平_音响系统速成方法学习资料
  15. 基于spss的聚类分析(Cluster analysis)
  16. 2.4G蓝牙耳机等穿戴蓝牙设备贴片天线方案 CA-C01
  17. 见过世面的程序员,到底有多厉害
  18. html对颜色加深,css字体阴影如何加深?
  19. perl、python、shell脚本区别
  20. WeChatPlugin Mac版安装

热门文章

  1. 文件共享服务器地址格式,文件共享服务器配置
  2. ajax 微信code获取_获取链接的参数,判断是否是微信打开,ajax获取数据
  3. thinkphp mysql 中文_耗时5天解决thinkphp连接mysql中文乱码的问题
  4. python apscheduler 脚本 动态_用apscheduler写python定时脚本
  5. 三级菜单 python_python三级菜单
  6. X210烧写linux系统
  7. bbb mmc_blk_probe 分析
  8. 自己动手写TCC7901的GPIO驱动
  9. php 时间错误,PHP xdebug调试trace记录时间错误
  10. mysql数据转存到时序数据库_干货丨如何高速迁移MySQL数据到时序数据库DolphinDB...