阿里天池数据分析入门 利用Pandas分析数据
pd.read_csv用法
ccl = pd.read_csv("1_usa_candidate/ccl.txt", sep = '|',names=['CAND_ID','CAND_ELECTION_YR','FEC_ELECTION_YR','CMTE_ID','CMTE_TP','CMTE_DSGN','LINKAGE_ID'])
sep = '|'
sep
读取csv文件时指定的分隔符,默认为逗号。注意:"csv文件的分隔符" 和 "我们读取csv文件时指定的分隔符" 一定要一致。本题中提供的数据分隔符是'|'所以按代码设置,names 将每列的名字加上。
names
- 当names没被赋值时,header会变成0,即选取数据文件的第一行作为列名。(从0开始计数)
- 当 names 被赋值,header 没被赋值时,那么header会变成None。如果都赋值,就会实现两个参数的组合功能
pd.merge()函数介绍
ccl =pd.merge(candidates,ccl)
能够看出这两个表中的员工是同一批人,而且两个表中也只有"CAND_ID"一列重复列,一般这种情况直接用pd.merge()拼接不用指定主键,直接把一个表的名字传递给参数left,另一个表的名字传递给参数right就可以了。合并之后CAND_ID这列只有一列,其他列是两个表合并在一起的列。
扩展知识看这个:merge函数详解
DataFrame
DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表。
直观理解:DataFrame 是带标签的二维数组
pd.DataFrame(data=None, index=None, columns=None)
ccl =pd.DataFrame(ccl, columns=[ 'CMTE_ID','CAND_ID', 'CAND_NAME','CAND_PTY_AFFILIATION'])
这里从ccl数据表中选中其中的四列,index使用默认的。
fillna()函数
#空值处理,统一填充 NOT PROVIDED
c_itcont['STATE'].fillna('NOT PROVIDED',inplace=True)#fillna函数 填充空值
c_itcont['EMPLOYER'].fillna('NOT PROVIDED',inplace=True)
c_itcont['OCCUPATION'].fillna('NOT PROVIDED',inplace=True)
inplace参数的取值:True、False
True:直接修改原对象
False:创建一个副本,修改副本,原对象不变(缺省默认)
Groupby函数
c_itcont.groupby("CAND_PTY_AFFILIATION").sum().sort_values("TRANSACTION_AMT",ascending=False).head(10)
kind = bar
当使用.plot()绘制Pandas DataFrame时,
默认的.plot()
用直线连接所有数据点并生成线图。
另一方面,.plot(kind='bar')
将每个数据点绘制为离散条形。为了在x轴上获得正确的格式,必须在绘图后修改刻度标签。
# 各州捐款总人数可视化,取前10个州的数据
st_amt = c_itcont.groupby('STATE').size().sort_values(ascending=False).head(10)
st_amt.plot(kind='bar')
kind =bar 是图的类型,line参数表示折线图
参数 说明
label 用于图例的标签
ax 要在其上进行绘制的matplotlib subplot对象。如果没有设置,则使用当前matplotlib subplot
style 将要传给matplotlib的风格字符串(for example: ‘ko–’)
alpha 图表的填充不透明(0-1)
kind 可以是’line’, ‘bar’, ‘barh’, ‘kde’
logy 在Y轴上使用对数标尺
use_index 将对象的索引用作刻度标签
rot 旋转刻度标签(0-360)
xticks 用作X轴刻度的值
yticks 用作Y轴刻度的值
xlim X轴的界限
ylim Y轴的界限
grid 显示轴网格线
阿里天池数据分析入门 利用Pandas分析数据相关推荐
- Python数据分析入门之pandas基础总结
Pandas--"大熊猫"基础 Series Series: pandas的长枪(数据表中的一列或一行,观测向量,一维数组...) Series1 = pd.Series(np.r ...
- 阿里云AI训练营-数据分析入门:利用Pandas分析美国总统选举
1.1 前言 本次赛事由开源学习组织Datawhale主办,主要带领学习者利用Python进行数据分析以及数据可视化,包含数据集的处理.数据探索与清晰.数据分析.数据可视化四部分,利用pandas.m ...
- 数据分析入门活动赛事,利用Pandas分析美国选民总统喜爱
本次赛事由开源学习组织Datawhale主办,主要带领学习者利用Python进行数据分析以及数据可视化,包含数据集的处理.数据探索与清晰.数据分析.数据可视化四部分,利用pandas.matplotl ...
- azw3 python数据分析 活用pandas库_Python数据分析 活用Pandas库 数据科学教程数据分析入门图书 Python编程入门数据处理...
内容介绍 本书是Python数据分析入门书,每个概念都通过简单实例来阐述,便于读者理解与上手.具体内容包括:Python及Pandas基础知识,加载和查看数据集,Pandas的DataFrame对象和 ...
- 数据分析入门(一)数据加载及初步分析
文章目录 何为数据分析 numpy和pandas库 实战 1.1.1 任务一:导入numpy和pandas 1.1.2 任务二:载入数据 1.1.3 任务三:每1000行为一个数据模块,逐块读取 1. ...
- python 保留顺序去重_Python数据分析入门教程(二):数据预处理
作者 | CDA数据分析师 从菜市场买来的菜,总有一些不太好的,所以把菜买回来以后要先做一遍预处理,把那些不太好的部分扔掉.现实中大部分的数据都类似于菜市场的菜品,拿到以后都要先做一次预处理. 常见的 ...
- EDG夺冠,用爬虫+数据分析+自然语言处理(情感分析)+数据可视化分析3万条数据:粉丝都疯了(唯一原创)
原创不易,本文禁止抄袭.转载,违权必究! 目录 一.EDG夺冠信息 二.实战目标 2.1 网络爬虫 2.2 数据可视化(词云图) 2.3 自然语言处理(情感分析) 三.bilibili接口分析 四.编 ...
- python数据分析案例-利用生存分析Kaplan-Meier法与COX比例风险回归模型进行客户流失分析与剩余价值预测
目录 1. 概述 1.1 背景 1.2 目的 1.3 数据说明 2. 相关概念 2.1 事件 2.2 生存时间 2.3 删失 2.4 生存概率 2.5 中位生存时间 2.6 风险概率 3. 数据处理 ...
- 数据分析网站-竞品分析数据来源
产品汪经常需要做竞品分析,要用到许多专业的图表和数据.数据从何而来?需要我们利用专业的数据研究网站来搜集. 常用的数据搜集网站: 1.百度指数 网址:http://index.baidu.com/ 主 ...
最新文章
- SLAM全栈+三维重建全栈系统学习路线!
- 对付感冒的十二种偏方
- windows server 2008 r2 enterprise ,惠普DL 580 G7服务器报,事件 ID: 47错误。
- rsync一行代码实现远程文件同步之修改默认22端口
- COJ1183(计算表达式的值)
- python文本文档_Python3 File
- 用科学数据求真:月球的激光发射器有用吗?
- .bat脚本基本命令合集
- S32K的flash组件使用(操作FLASH)
- HDFS常用命令总结
- 【Flutter】应用开发笔记
- 江苏单招C语言试题,2011年对口单招计算机试卷(C语言+原理+电工答案).doc
- Pandas二次学习- 回炉重造(进阶)
- 使用opencv打开笔记本摄像头
- 基于MATLAB的filter的使用,低通、带通和高通滤波器设计
- java狗具有特别的接飞盘的方法_java第七章 多态 课堂笔记/作业
- 蔡徐坤打篮球and源码
- 答辩PPT的美化以及配色
- Python读取上证指数csv
- linux查看usb设备卷标,Linux findfs命令实例讲解(查找指定卷标或者UUID的文件系统对应的设备文件)...
热门文章
- swfobject2.2参数详解(swfobject.embedSWF)
- 1、Mac如何剪切文件
- Linux下装Matlab2014
- 异地灾备,利用华为云就可以实现
- python 音乐相册_App Store 上的“魔力相册-音乐相册、视频电子相册制作工具”...
- 常用的推挽输出、开漏输出、上拉输入
- Word在试图打开文件时遇到错误
- 服务器装win10稳定吗,win10哪个版本最稳定好用 目前win10最稳定的版本推荐
- 服务器系统装显卡驱动,windows2019服务器系统安装显卡驱动(A卡篇)
- 织梦后台自定义表单,样式美化