预处理地区信息

2.1数据的爬取

代码:

import pandas as pddata=pd.read_csv("example_data.csv",header=1)print(data)data1=pd.read_csv("北京地区信息.csv",header=1,encoding='gbk')data2=pd.read_csv("天津地区信息.csv",encoding='gbk')print(data1)print(data2)

代码运行结果:

首先使用pandas的read_csv()方法进行数据的读取,然后就能够看到相应的表格信息。

2.2检查重复数据

# 2.2检查重复数据dupnum=data.duplicated()print(dupnum)\# 对重复值进行处理caldup=data.drop_duplicates()print(caldup)

代码运行结果:

主要是是使用这个duplicated()方法进行数据的查重,返回一个布尔序列,仅对唯一元素而言为True。如果有重复的数据就会在该数值的部分返货Flase。

然后我们就可以使用drop_duplicates()进行重复值删除。

2.3检查缺失值

代码:

from pandas import Seriesfrom numpy import NAN\# import pandas as pd series_obj=Series([1,None])pd.notnull(series_obj)\# 上面做的是测试pd.notnull(data)pd.notnull(data1)pd.notnull(data2)

代码运行结果:

使用pd.notnull(data1)进行非空数值的返回, 返回值是布尔型的矩阵,再取df[布尔型矩阵]返回的是id为非空的行。

2.4 检查异常值

import numpy as np\# 2.4 检查异常值def three_sig(ser1):mean_value=ser1.mean()\#   标准差std_value=ser1.std()\#   位于3σ范围外的都是异常值\# 数值大于u+3σ小雨u-3σrule=(mean_value-3*std_value>ser1)|(ser1.mean()+3*ser1.std()<ser1)index=np.arange(ser1.shape[0])[rule]outrange=ser1.iloc[index]return outrangethree_sig(data2["女性"])

代码运行结果:

3σ原则又称为拉依达准则,该准则具体来说,就是先假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值。

通俗理解就是正态分布。

Python数据分析与处理——处理中国地区信息相关推荐

  1. 利用python数据分析,获取双色球历史中奖信息!(内含详细代码)

    前言: 毫无例外,基本上是所有人都有一颗中奖的心,不管是有钱的,还是没钱的!你们说对吗? 对于技术人员来说,通过技术分析,可以增加中奖几率,现使用python语言收集历史双色球中奖信息,之后进行预测分 ...

  2. python数据分析—10000条北京二手房电梯信息可视化分析(附源码)

    文章目录 开发工具 数据内容 实现代码 运行效果 处理异常数据 优化异常数据运行结果 10000条二手房信息下载地址 总结 开发工具 python版本:Python 3.6.1 python开发工具: ...

  3. python 本地解析IP地址所属地区信息

    1.安装库 pip install geoip2 2.下载数据资源 https://dev.maxmind.com/geoip/geoip2/geolite2/ 我们可以选择CSV格式文件,也可以选择 ...

  4. python数据分析简答题_Python数据分析与数据可视化-中国大学mooc-试题题目及答案...

    Python数据分析与数据可视化-中国大学mooc-试题题目及答案 更多相关问题 [简答题]城轨供电系统按功能划分为几部分?各有什么作用? [多选题]影响债券价格的因素有 [单选题]关于注射剂的质量要 ...

  5. Python 爬虫 中国行政区划信息爬取 (初学者)

    Python 爬虫 中国行政区划信息爬取 (初学者) 背景 环境准备 代码片段 1.定义地址信息对象 2.地址解析对象 2.1 获取web信息 2.2 web信息解析 2.3 区划信息提取 2.4 省 ...

  6. Python数据分析朋友圈信息

    此文章基于Pyhon3.0以上版本对微信好友进行数据分析,这里选择的维度主要有以下几个:性别(Sex).头像(HeadImg).个人签名(Signature)和位置(Location),主要采用图表和 ...

  7. python爬取百度百科获取中国高校信息

    公众号看到的文章,感觉不错,适合练手.所以就自己做了一遍. 废话不多说开整. 目的:手头有一份<学校名称.xlsx>的表格.想要这些学校的英文名称.描述.简称 学校名称.xlsx 最终成果 ...

  8. python爬取拉钩python数据分析职位招聘信息

    python数据分析 python数据分析是目前python最火的方向之一,为了解目前市场对该职位的需求,我们爬取了拉钩上对pythons数据分析的招聘信息. 环境 系统:windows7 pytho ...

  9. Python数据分析入门笔记10——简单案例练习(学生信息分析)

    系列文章目录 Python数据分析入门笔记1--学习前的准备 Python数据分析入门笔记2--pandas数据读取 Python数据分析入门笔记3--数据预处理之缺失值 Python数据分析入门笔记 ...

  10. python爬虫遇到验证码的处理方法(以爬取中国执行信息公开网为例)

    朋友们大家好,python爬虫是在学习python时比较容易上手的学习方式,爬虫的思路简要以下几点: 1.获取需要爬取页面的网址,并且对网页内容进行分析.(主要就源代码讨论,如果我们需要的内容没有在源 ...

最新文章

  1. isp 图像算法(二)之dead pixel correction坏点矫正
  2. Python3了,你还在用%和format格式化输出吗
  3. rxjs fromEvent的源代码实现分析
  4. 【ArcGIS Pro微课1000例】0008:ArcGIS Pro加载不同来源的在线底图数据
  5. vb.net datagridview数据批量导入sql_【自学C#】|| 笔记 44 ComboBox:组合框控件数据绑定...
  6. 利用boost获取时间并格式化
  7. CUDA算法:MS-queue算法相关
  8. tkMessageBox only show one window
  9. c语言病毒恶搞代码大全,恶搞病毒代码案例分析
  10. 如何卸载office201032位_office2010卸载不了应该如何通过清理注册表解决方法?
  11. 苹果电脑系统太卡如何彻底清理内存?
  12. 新松机器人BG总裁高峰_新松机器人:做一个有价值的机器人企业!
  13. 笔的图片 html,笔的素描画图片
  14. 有人不理解,有人不屑,到底什么是UXD
  15. 玩好信用卡,它就是你东山再起的资本
  16. 第二届“链坊杯”区块链数字经济商业分析大赛即将开赛
  17. 怎样更换vivoy31s锁屏壁纸
  18. python图片分析中央气象台降水_python读取gpm卫星降水并绘制降水分布图
  19. python实现gabor滤波器提取纹理特征 提取指静脉纹理特征
  20. Git的安装和使用教程

热门文章

  1. hibou 主界面自定义侧滑
  2. 机器学习大作业---文献综述
  3. DXP2004/Altium Desinger 自己画元器件和封装,及注意事项
  4. protel dxp2004第三讲之仿真设计
  5. python对json的操作及实例解析
  6. 联想电脑重装win7系统详细图文教程
  7. python模拟支付宝扫码登录_Python爬虫模拟登录支付宝并获取订单信息
  8. jquery动态创建表格
  9. 分享2个堪称黑科技的Ai一键抠图网站 让你秒变PS抠图大神
  10. [css]画圆形标签