1. 读取文件usa_election.txt
  2. 查看文件样式及基本信息
  3. 指定数据截取,将如下字段的数据进行提取,其他数据舍去:
    1. cand_nm :候选人姓名
    2. contbr_nm :捐赠人姓名
    3. contbr_st :捐赠人所在州
    4. contbr_employer :捐赠人所在公司
    5. contbr_occupation :捐赠人职业
    6. contb_receipt_amt :捐赠金额
    7. contb_receipt_dt :捐赠日期
  4. 使用统计学指标快速扫描数值型属性的概要
  5. 空值处理。可能因为忘记填写或者保密等等原因,相关 字段出现了空值,将其填充为NOT PROVIDE
  6. 异常值处理。将捐款金额<=0的数据删除
  7. 新建一列为各个候选人所在党派party
  8. 查看party这一列中有哪些不同的元素
  9. 统计party列中各个元素出现次数
  10. 查看各个党派收到的政治献金总数contb_receipt_amt
  11. 查看具体每天各个党派收到的政治献金总数contb_receipt_amt
  12. 将表中日期格式转换为’yyyy-mm-dd’。
  13. 查看老兵(捐献者职业)DISABLED VETERAN主要支持谁

附件下载地址:usa_election.txt - 蓝奏云

绪言:这个数据分析题目数据量够大,考察了pandas对于数据分析的很多基本用法,个人认为非常适合初期练习使用

  1. 读取文件usa_election.txt:
  2. 查看文件样式及基本信息:

这个不用多说,上来导包导入文件,看一下文件的开头

3.指定数据截取,将如下字段的数据进行提取,其他数据舍去

  1. cand_nm :候选人姓名
  2. contbr_nm :捐赠人姓名
  3. contbr_st :捐赠人所在州
  4. contbr_employer :捐赠人所在公司
  5. contbr_occupation :捐赠人职业
  6. contb_receipt_amt :捐赠金额
  7. contb_receipt_dt :捐赠日期

传统手艺不能忘,取多列的基本操作

   4.使用统计学指标快速扫描数值型属性的概要

一个方法搞定

      5.空值处理。可能因为忘记填写或者保密等等原因,相关 字段出现了空值,将其填充为NOT PROVIDE

在行上创立一个规则,为有空值的行返回True

把空行的索引取出来

利用先前建立的规则批量取行,并填充为指定信息。这里的知识点是取行的方法和取行的规则还有就是nan值的填充

6.异常值处理。将捐款金额<=0的数据删除

如法炮制,还是根据规则把索引取出

删除使用drop方法,删完后注意检查空行

7.新建一列为各个候选人所在党派party

这个考察映射

parties = {'Bachmann, Michelle': 'Republican','Romney, Mitt': 'Republican','Obama, Barack': 'Democrat',"Roemer, Charles E. 'Buddy' III": 'Reform','Pawlenty, Timothy': 'Republican','Johnson, Gary Earl': 'Libertarian','Paul, Ron': 'Republican','Santorum, Rick': 'Republican','Cain, Herman': 'Republican','Gingrich, Newt': 'Republican','McCotter, Thaddeus G': 'Republican','Huntsman, Jon': 'Republican','Perry, Rick': 'Republican'
}

先建立一个映射表确定映射关系,然后用map函数确立映射关系,直接在原有的数据后边加一列。

  1. 查看party这一列中有哪些不同的元素
  2. 统计party列中各个元素出现次数

这两个操作用两个方法就可以解决,考察方法的使用

  1. 查看各个党派收到的政治献金总数contb_receipt_amt
  2. 查看具体每天各个党派收到的政治献金总数contb_receipt_amt

这两题考察分组,使用groupby函数可以轻松解决

  1. 将表中日期格式转换为’yyyy-mm-dd’。

这个就是一个日期的转换,pandas中有对应的方法

  1. 查看老兵(捐献者职业)DISABLED VETERAN主要支持谁

最后一题,咱们先把老兵挑出来

挑出来后,再利用分组的知识进行金额叠加即可

可以看出最支持的是:Obama, Barack

美国2012政治献金数据分析(附有源数据和题目)相关推荐

  1. pandas - 案例(美国2012年总统候选人政治献金数据分析)

    # 提供数据months = {'JAN' : 1, 'FEB' : 2, 'MAR' : 3, 'APR' : 4, 'MAY' : 5, 'JUN' : 6,'JUL' : 7, 'AUG' : ...

  2. 数据分析---2012美国大选献金项目数据分析

    需求: 1. 加载数据 df = pd.read_csv('./data/usa_election.txt') 2. 对新数据进行总览,查看是否存在缺失数据: 方法一:isnull.notnull.a ...

  3. 3 Python数据分析 美国各州人口分析案例 Pandas高级操作 美国大选献金案例 matplotlib

    Python数据分析 1 案例 美国各州人口分析 1.1 数据介绍 数据来源:https://github.com/jakevdp/data-USstates/ 1.1.1 州人口数量表 state- ...

  4. 项目3:美国大选献金目数据分析

    """ 需求: 1.读取数据 2.查看是否有缺失数据 3.用统计学指标快速描述数值型属性的概要 4.空值处理.可能因为忘记填写保密等原因,相关字段出现了空值,将其填充为N ...

  5. Chapter3美国大选金献项目数据分析

    8:46 加载数据 查看数据的基本信息/对新数据进行总览,查看是否存在缺失数据 快速描述数值型属性的概要 空值处理,将空值填充为NOT PROVIDE 异常值处理 新建一列为各个候选人所在的党派par ...

  6. 数据分析项目3-美国大选献金分析

    需求     加载数据     查看数据的基本信息     指定数据截取,将如下字段的数据进行提取,其他数据舍弃      cand_nm: 候选人姓名      contbr_nm:捐赠人所在州   ...

  7. 美国大选献金项目学习笔记

    目录 要求 代码: 要求 代码: import numpy as np import pandas as pddf = pd.read_csv('./data/usa_election.txt')# ...

  8. 2012美国大选献金项目数据分析

    文章目录 1.数据载入与预览 1.1 数据加载 1.2 数据合并 1.3 数据预览 1.3.1 查看是否有空值 1.3.2用统计学指标快速描述数值型属性的概要 2.数据的预处理 2.1 数据清洗 2. ...

  9. 【数据分析】使用pandas和numpy分析美国大选献金项目

    1. 数据载入与总览 1.1 数据加载 #绘图工具 import matplotlib.pyplot as plt %matplotlib inline #数据处理工具 import numpy as ...

最新文章

  1. 理解 Lua 的那些坑爹特性
  2. SpringBoot面向切面编程-用AOP方式管理日志
  3. OpenCV图像处理——copyTo与mask(掩码)操作
  4. 北斗导航 | 卫星导航基础知识(卫星通信调制技术:信号调制、解调:ASK、FSK、PSK:FDMA、TDMA、CDMA、SDMA)
  5. 离散数学实验题目-集合
  6. LeetCode 997. 找到小镇的法官(图的出度和入度)
  7. python连接impala_python连接impala(安装impyla)
  8. linux系统上手工建库步骤,Linux下Oracle手工建库过程
  9. 阿里云服务器安全组配置-有关访问实例异常的解决办法
  10. 心淡淡的幸福[lyb521569]
  11. 黑客事件中如何实现利益最大化?
  12. 一、用户画像是如何生成的
  13. 如何快速的把JSON转Excel怎么转?
  14. VS 自带DLL注册工具注册Dll
  15. 计算机文化基础—计算机软件
  16. 聊一聊芯片后端的标准单元-standard cell
  17. 2017 追梦 远方
  18. 百度,谷歌,360,搜狗,神马等蜘蛛IP段大全
  19. 主机一键巡检脚本--基于python实现
  20. 黑马程序员前端实战项目---PC端品优购(下)

热门文章

  1. solr教程,值得刚接触搜索开发人员一看
  2. 联发科linux开发板,MT7688
  3. 拟牛顿法(DFP、BFGS、L-BFGS)
  4. Spring Aspect @PointCut(execution表达式)
  5. 双优先编码器_SPS主轴双闭环应用(增量编码器)
  6. Oracle数据库的配置文件丢失或损失,重新执行pfile启动
  7. PinYin4j使用
  8. crt1.o, crti.o, crtbegin.o, crtend.o, crtn.o
  9. php如何开发调色器,PHP imagecreate - 新建一个基于调色板的图像
  10. OPPOA31_官方线刷包_救砖包_解账户锁