pd.read_csv用法

ccl = pd.read_csv("1_usa_candidate/ccl.txt", sep = '|',names=['CAND_ID','CAND_ELECTION_YR','FEC_ELECTION_YR','CMTE_ID','CMTE_TP','CMTE_DSGN','LINKAGE_ID'])

sep = '|'

sep

读取csv文件时指定的分隔符,默认为逗号。注意:"csv文件的分隔符" 和 "我们读取csv文件时指定的分隔符" 一定要一致。本题中提供的数据分隔符是'|'所以按代码设置,names 将每列的名字加上。

names

  • 当names没被赋值时,header会变成0,即选取数据文件的第一行作为列名。(从0开始计数)
  • 当 names 被赋值,header 没被赋值时,那么header会变成None。如果都赋值,就会实现两个参数的组合功能

pd.merge()函数介绍

ccl =pd.merge(candidates,ccl)

 能够看出这两个表中的员工是同一批人,而且两个表中也只有"CAND_ID"一列重复列,一般这种情况直接用pd.merge()拼接不用指定主键,直接把一个表的名字传递给参数left,另一个表的名字传递给参数right就可以了。合并之后CAND_ID这列只有一列,其他列是两个表合并在一起的列。

扩展知识看这个:merge函数详解

DataFrame

DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表。

直观理解:DataFrame 是带标签的二维数组

pd.DataFrame(data=None, index=None, columns=None)

ccl =pd.DataFrame(ccl, columns=[ 'CMTE_ID','CAND_ID', 'CAND_NAME','CAND_PTY_AFFILIATION'])

这里从ccl数据表中选中其中的四列,index使用默认的。

fillna()函数

#空值处理,统一填充 NOT PROVIDED
c_itcont['STATE'].fillna('NOT PROVIDED',inplace=True)#fillna函数 填充空值
c_itcont['EMPLOYER'].fillna('NOT PROVIDED',inplace=True)
c_itcont['OCCUPATION'].fillna('NOT PROVIDED',inplace=True)

inplace参数的取值:True、False

True:直接修改原对象

False:创建一个副本,修改副本,原对象不变(缺省默认)

Groupby函数

c_itcont.groupby("CAND_PTY_AFFILIATION").sum().sort_values("TRANSACTION_AMT",ascending=False).head(10)

kind  =  bar

当使用.plot()绘制Pandas DataFrame时,

默认的.plot()用直线连接所有数据点并生成线图。

另一方面,.plot(kind='bar')每个数据点绘制为离散条形。为了在x轴上获得正确的格式,必须在绘图后修改刻度标签。

# 各州捐款总人数可视化,取前10个州的数据
st_amt = c_itcont.groupby('STATE').size().sort_values(ascending=False).head(10)
st_amt.plot(kind='bar')

kind =bar 是图的类型,line参数表示折线图

参数    说明
label    用于图例的标签
ax    要在其上进行绘制的matplotlib subplot对象。如果没有设置,则使用当前matplotlib subplot
style    将要传给matplotlib的风格字符串(for example: ‘ko–’)
alpha    图表的填充不透明(0-1)
kind    可以是’line’, ‘bar’, ‘barh’, ‘kde’
logy    在Y轴上使用对数标尺
use_index    将对象的索引用作刻度标签
rot    旋转刻度标签(0-360)
xticks    用作X轴刻度的值
yticks    用作Y轴刻度的值
xlim    X轴的界限
ylim    Y轴的界限
grid    显示轴网格线

阿里天池数据分析入门 利用Pandas分析数据相关推荐

  1. Python数据分析入门之pandas基础总结

    Pandas--"大熊猫"基础 Series Series: pandas的长枪(数据表中的一列或一行,观测向量,一维数组...) Series1 = pd.Series(np.r ...

  2. 阿里云AI训练营-数据分析入门:利用Pandas分析美国总统选举

    1.1 前言 本次赛事由开源学习组织Datawhale主办,主要带领学习者利用Python进行数据分析以及数据可视化,包含数据集的处理.数据探索与清晰.数据分析.数据可视化四部分,利用pandas.m ...

  3. 数据分析入门活动赛事,利用Pandas分析美国选民总统喜爱

    本次赛事由开源学习组织Datawhale主办,主要带领学习者利用Python进行数据分析以及数据可视化,包含数据集的处理.数据探索与清晰.数据分析.数据可视化四部分,利用pandas.matplotl ...

  4. azw3 python数据分析 活用pandas库_Python数据分析 活用Pandas库 数据科学教程数据分析入门图书 Python编程入门数据处理...

    内容介绍 本书是Python数据分析入门书,每个概念都通过简单实例来阐述,便于读者理解与上手.具体内容包括:Python及Pandas基础知识,加载和查看数据集,Pandas的DataFrame对象和 ...

  5. 数据分析入门(一)数据加载及初步分析

    文章目录 何为数据分析 numpy和pandas库 实战 1.1.1 任务一:导入numpy和pandas 1.1.2 任务二:载入数据 1.1.3 任务三:每1000行为一个数据模块,逐块读取 1. ...

  6. python 保留顺序去重_Python数据分析入门教程(二):数据预处理

    作者 | CDA数据分析师 从菜市场买来的菜,总有一些不太好的,所以把菜买回来以后要先做一遍预处理,把那些不太好的部分扔掉.现实中大部分的数据都类似于菜市场的菜品,拿到以后都要先做一次预处理. 常见的 ...

  7. EDG夺冠,用爬虫+数据分析+自然语言处理(情感分析)+数据可视化分析3万条数据:粉丝都疯了(唯一原创)

    原创不易,本文禁止抄袭.转载,违权必究! 目录 一.EDG夺冠信息 二.实战目标 2.1 网络爬虫 2.2 数据可视化(词云图) 2.3 自然语言处理(情感分析) 三.bilibili接口分析 四.编 ...

  8. python数据分析案例-利用生存分析Kaplan-Meier法与COX比例风险回归模型进行客户流失分析与剩余价值预测

    目录 1. 概述 1.1 背景 1.2 目的 1.3 数据说明 2. 相关概念 2.1 事件 2.2 生存时间 2.3 删失 2.4 生存概率 2.5 中位生存时间 2.6 风险概率 3. 数据处理 ...

  9. 数据分析网站-竞品分析数据来源

    产品汪经常需要做竞品分析,要用到许多专业的图表和数据.数据从何而来?需要我们利用专业的数据研究网站来搜集. 常用的数据搜集网站: 1.百度指数 网址:http://index.baidu.com/ 主 ...

最新文章

  1. SLAM全栈+三维重建全栈系统学习路线!
  2. 对付感冒的十二种偏方
  3. windows server 2008 r2 enterprise ,惠普DL 580 G7服务器报,事件 ID: 47错误。
  4. rsync一行代码实现远程文件同步之修改默认22端口
  5. COJ1183(计算表达式的值)
  6. python文本文档_Python3 File
  7. 用科学数据求真:月球的激光发射器有用吗?
  8. .bat脚本基本命令合集
  9. S32K的flash组件使用(操作FLASH)
  10. HDFS常用命令总结
  11. 【Flutter】应用开发笔记
  12. 江苏单招C语言试题,2011年对口单招计算机试卷(C语言+原理+电工答案).doc
  13. Pandas二次学习- 回炉重造(进阶)
  14. 使用opencv打开笔记本摄像头
  15. 基于MATLAB的filter的使用,低通、带通和高通滤波器设计
  16. java狗具有特别的接飞盘的方法_java第七章 多态 课堂笔记/作业
  17. 蔡徐坤打篮球and源码
  18. 答辩PPT的美化以及配色
  19. Python读取上证指数csv
  20. linux查看usb设备卷标,Linux findfs命令实例讲解(查找指定卷标或者UUID的文件系统对应的设备文件)...

热门文章

  1. swfobject2.2参数详解(swfobject.embedSWF)
  2. 1、Mac如何剪切文件
  3. Linux下装Matlab2014
  4. 异地灾备,利用华为云就可以实现
  5. python 音乐相册_‎App Store 上的“魔力相册-音乐相册、视频电子相册制作工具”...
  6. 常用的推挽输出、开漏输出、上拉输入
  7. Word在试图打开文件时遇到错误
  8. 服务器装win10稳定吗,win10哪个版本最稳定好用 目前win10最稳定的版本推荐
  9. 服务器系统装显卡驱动,windows2019服务器系统安装显卡驱动(A卡篇)
  10. 织梦后台自定义表单,样式美化