pandas 实例操作：美国人口案例分析

pandas 案例分析：美国人口案例分析

'''
需求：导入文件，查看原始数据将人口数据和各州简称数据进行合并将合并的数据中重复的abbreviation列进行删除查看存在缺失数据的列找到有哪些state/region使得state的值为NaN，进行去重操作为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN合并各州面积数据areas我们会发现area(sq.mi)这一列有缺失数据，找出是哪些行去除含有缺失数据的行找出2010年的全民人口数据计算各州的人口密度排序，并找出人口密度最高的五个州 df.sort_values()
'''
import numpy as np
import pandas as pd# 导入文件，查看原始数据
# 将人口数据和各州简称数据进行合并
s_abbrevs = pd.read_csv('../datasets/state-abbrevs.csv')
print(s_abbrevs.head())s_population = pd.read_csv('../datasets/state-population.csv')
print(s_population.head())s_areas = pd.read_csv('../datasets/state-areas.csv')
print(s_areas.head())# 将合并的数据中重复的abbreviation列进行删除
abb_pop = pd.merge(s_abbrevs, s_population, left_on='abbreviation', right_on='state/region', how='outer')
print(abb_pop.head())
abb_pop = abb_pop.drop(columns='abbreviation')
# 查看存在缺失数据的列
'''
state            True
abbreviation     True
state/region    False
ages            False
year            False
population       True
'''
print(abb_pop.isnull().any(axis=0))
# 找到有哪些state/region使得state的值为NaN，进行去重操作
print(abb_pop[abb_pop['state'].isnull()]['state/region'].unique())  # ['PR' 'USA']
index_PR = abb_pop[abb_pop['state/region'] == 'PR'].index
print(index_PR)
# 为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN
abb_pop.loc[index_PR, 'state'] = 'PUERTO'
index_USA = abb_pop[abb_pop['state/region'] == 'USA'].index
print(index_USA)
# 为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN
abb_pop.loc[index_USA, 'state'] = 'America'
print(abb_pop[abb_pop['state/region'] == 'PR'].head())
print(abb_pop[abb_pop['state/region'] == 'USA'].head())
print(abb_pop.isnull().any(axis=0))
# 合并各州面积数据areas
areas_abb_pop = pd.merge(s_areas, abb_pop, left_on='state', right_on='state', how='outer')
print(areas_abb_pop.head())
areas_abb_pop.set_index('state', inplace=True)
# 我们会发现area(sq.mi)这一列有缺失数据，找出是哪些行
print(areas_abb_pop.isnull().any(axis=0))
# 去除含有缺失数据的行
areas_abb_pop.dropna(inplace=True)
# 找出2010年的全民人口数据
query_2010 = areas_abb_pop.query('ages == "total" & year == 2010')
print(query_2010.head())
# 计算各州的人口密度
midu = query_2010['population'] / query_2010['area (sq. mi)']
print(midu)
midu = midu.sort_values(ascending=True)
# 排序，并找出人口密度最高的五个州 df.sort_values()
print(midu.sort_values().tail())
# 排序，并找出人口密度最低的五个州 df.sort_values()
print(midu.sort_values().head())

pandas 实例操作：美国人口案例分析相关推荐

3 Python数据分析美国各州人口分析案例 Pandas高级操作美国大选献金案例 matplotlib
Python数据分析 1 案例美国各州人口分析 1.1 数据介绍数据来源:https://github.com/jakevdp/data-USstates/ 1.1.1 州人口数量表 state- ...
机器学习实例--预测美国人口收入状况
一．问题描述每个人都希望自己能获得更高的收入,而影响收入高低的因素有很多,能否通过大数据分析来找出对收入影响相对较大的因素? 二．研究意义如果我们知道对收入高低起决定性的作用, ...
如何画双层pcb板_双层pcb板布线规则(操作技巧与案例分析)
双层pcb,意思是在一块pcb板子的顶层和底层都画导线.双面板解决了单面板中因为布线交错的难点(可以通过孔导通到另一面),即正反两面都有布线,元器件可以焊接在正面,也可以焊接在反面,双层线路板这种电路 ...
pandas实例——MovieLens电影数据实战分析
在上一篇文章中我介绍了pandas的基本用法,今天我就用pandas实战操作,大家可以一起感受一下数据分析是如何从一堆数字中找到有价值的信息的.下面我也附上了代码,我强烈推荐大家将数据下载下来,亲自去 ...
Arcgis实例操作8---地形高程分析、提取该DEM数据的水文坡长、提取山顶点数据
1.对某区域进行地形高程分析.要求:随机分布采样区域,以半径为100米的圆形区域为统计单元,计算每个采样区的高程统计指标. 1)创建随机分布点. 打开[数据管理工具]|[要素类]|[创建随机点]工具, ...
python数据清洗实例_Python文本清洗案例分析：直播弹幕数据清洗
任务需求清洗json格式的弹幕数据(以"聆听丶芒果鱼直播间时间切片弹幕.json"为例),具体要求如下: 提取出所有弹幕类型(列表中的第1个元素)为"NM"的 ...
pandas 案例分析：美国各州人口数据分析
案例分析:美国各州人口数据分析首先导入文件,并查看数据样本 In [54]: abbr = pd.read_csv("./usapop/state-abbrevs.csv") a ...
处理效应模型stata实例_【更新通知】手把手教你Stata软件操作与案例分析更新，速来！...
继3大政策效应评价方法.面板微观计量模型.空间计量模型.应用面板数据模型四大主题套餐后,手把手教你Stata系列课程推出多期DID.平行趋势检验系列专题. 该专题包含多期DID及平行趋势检验:双重差分 ...
pandas实战-2012美国总统竞选赞助分析
1.数据载入和总览 1.1数据来源数据来源于阿里云天池公共数据-pandas实践-2012美国总统竞选赞助数据分析,如图所示然后下载数据并保存到本地,最后读取(本次操作使用工具-jupyter n ...

pandas 实例操作：美国人口案例分析

pandas 案例分析：美国人口案例分析

pandas 实例操作：美国人口案例分析相关推荐

最新文章

热门文章