pandas 实例操作:美国人口案例分析
pandas 案例分析:美国人口案例分析
'''
需求:导入文件,查看原始数据将人口数据和各州简称数据进行合并将合并的数据中重复的abbreviation列进行删除查看存在缺失数据的列找到有哪些state/region使得state的值为NaN,进行去重操作为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN合并各州面积数据areas我们会发现area(sq.mi)这一列有缺失数据,找出是哪些行去除含有缺失数据的行找出2010年的全民人口数据计算各州的人口密度排序,并找出人口密度最高的五个州 df.sort_values()
'''
import numpy as np
import pandas as pd# 导入文件,查看原始数据
# 将人口数据和各州简称数据进行合并
s_abbrevs = pd.read_csv('../datasets/state-abbrevs.csv')
print(s_abbrevs.head())s_population = pd.read_csv('../datasets/state-population.csv')
print(s_population.head())s_areas = pd.read_csv('../datasets/state-areas.csv')
print(s_areas.head())# 将合并的数据中重复的abbreviation列进行删除
abb_pop = pd.merge(s_abbrevs, s_population, left_on='abbreviation', right_on='state/region', how='outer')
print(abb_pop.head())
abb_pop = abb_pop.drop(columns='abbreviation')
# 查看存在缺失数据的列
'''
state True
abbreviation True
state/region False
ages False
year False
population True
'''
print(abb_pop.isnull().any(axis=0))
# 找到有哪些state/region使得state的值为NaN,进行去重操作
print(abb_pop[abb_pop['state'].isnull()]['state/region'].unique()) # ['PR' 'USA']
index_PR = abb_pop[abb_pop['state/region'] == 'PR'].index
print(index_PR)
# 为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN
abb_pop.loc[index_PR, 'state'] = 'PUERTO'
index_USA = abb_pop[abb_pop['state/region'] == 'USA'].index
print(index_USA)
# 为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN
abb_pop.loc[index_USA, 'state'] = 'America'
print(abb_pop[abb_pop['state/region'] == 'PR'].head())
print(abb_pop[abb_pop['state/region'] == 'USA'].head())
print(abb_pop.isnull().any(axis=0))
# 合并各州面积数据areas
areas_abb_pop = pd.merge(s_areas, abb_pop, left_on='state', right_on='state', how='outer')
print(areas_abb_pop.head())
areas_abb_pop.set_index('state', inplace=True)
# 我们会发现area(sq.mi)这一列有缺失数据,找出是哪些行
print(areas_abb_pop.isnull().any(axis=0))
# 去除含有缺失数据的行
areas_abb_pop.dropna(inplace=True)
# 找出2010年的全民人口数据
query_2010 = areas_abb_pop.query('ages == "total" & year == 2010')
print(query_2010.head())
# 计算各州的人口密度
midu = query_2010['population'] / query_2010['area (sq. mi)']
print(midu)
midu = midu.sort_values(ascending=True)
# 排序,并找出人口密度最高的五个州 df.sort_values()
print(midu.sort_values().tail())
# 排序,并找出人口密度最低的五个州 df.sort_values()
print(midu.sort_values().head())
pandas 实例操作:美国人口案例分析相关推荐
- 3 Python数据分析 美国各州人口分析案例 Pandas高级操作 美国大选献金案例 matplotlib
Python数据分析 1 案例 美国各州人口分析 1.1 数据介绍 数据来源:https://github.com/jakevdp/data-USstates/ 1.1.1 州人口数量表 state- ...
- 机器学习实例--预测美国人口收入状况
一. 问题描述 每个人都希望自己能获得更高的收入,而影响收入高低的因素有很多,能否通过大数据分析来找出对收入影响相对较大的因素? 二. 研究意义 如果我们知道对收入高低起决定性的作用, ...
- 如何画双层pcb板_双层pcb板布线规则(操作技巧与案例分析)
双层pcb,意思是在一块pcb板子的顶层和底层都画导线.双面板解决了单面板中因为布线交错的难点(可以通过孔导通到另一面),即正反两面都有布线,元器件可以焊接在正面,也可以焊接在反面,双层线路板这种电路 ...
- pandas实例——MovieLens电影数据实战分析
在上一篇文章中我介绍了pandas的基本用法,今天我就用pandas实战操作,大家可以一起感受一下数据分析是如何从一堆数字中找到有价值的信息的.下面我也附上了代码,我强烈推荐大家将数据下载下来,亲自去 ...
- Arcgis实例操作8---地形高程分析、提取该DEM数据的水文坡长、提取山顶点数据
1.对某区域进行地形高程分析.要求:随机分布采样区域,以半径为100米的圆形区域为统计单元,计算每个采样区的高程统计指标. 1)创建随机分布点. 打开[数据管理工具]|[要素类]|[创建随机点]工具, ...
- python数据清洗实例_Python文本清洗案例分析:直播弹幕数据清洗
任务需求 清洗json格式的弹幕数据(以"聆听丶芒果鱼直播间时间切片弹幕.json"为例),具体要求如下: 提取出所有弹幕类型(列表中的第1个元素)为"NM"的 ...
- pandas 案例分析:美国各州人口数据分析
案例分析:美国各州人口数据分析 首先导入文件,并查看数据样本 In [54]: abbr = pd.read_csv("./usapop/state-abbrevs.csv") a ...
- 处理效应模型stata实例_【更新通知】手把手教你Stata软件操作与案例分析更新,速来!...
继3大政策效应评价方法.面板微观计量模型.空间计量模型.应用面板数据模型四大主题套餐后,手把手教你Stata系列课程推出多期DID.平行趋势检验系列专题. 该专题包含多期DID及平行趋势检验:双重差分 ...
- pandas实战-2012美国总统竞选赞助分析
1.数据载入和总览 1.1数据来源 数据来源于阿里云天池公共数据-pandas实践-2012美国总统竞选赞助数据分析,如图所示 然后下载数据并保存到本地,最后读取(本次操作使用工具-jupyter n ...
最新文章
- 【OpenCV 4开发详解】颜色模型与转换
- laravel大型项目系列教程(六)之优化、单元测试以及部署
- redis数据结构对象
- vim编辑器学习记录
- 设计潮流趋势|背景图案素材,增加设计对比和补充前景元素
- [猜你喜欢]冠军 yes,boy! 分享 | 推荐系统也可以很简单 做个记录 以后方便学习
- 磨刀不误砍柴工,ORAchk健康检查好帮手
- netty5、3 和socket
- 51nod 1005 1027 1029 高精度
- 升级openssh漏洞
- 高效工作的浏览器插件
- 超级实用的浏览器插件
- java layout各布局_java-Layout(布局管理器)
- 浅谈CPRI原理及测试解决方案(转)
- Revealing ecosystem services relationships and their driving factors for five basins of Beijing(1)
- 山东理工acm 3926 bLue的二叉树
- 各种Lisp系语言大检阅
- Altium Designer 批量修改器件名
- 【STM32】PWM 输出 (标准库)
- 上下文切换是在做什么事情?