python panda是什么_python pandas浅析
之前一直想自学一下大数据,正好七月在线在做1元优惠购活动,所以机缘巧合开始学习,今天就对最近学习的pandas进行一个笔记梳理,以便后续回顾。本次课程主要学习了以下内容:
一. 简介
pandas 是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
通俗的说,pandas就是对表格对数据进行分析,它主要包括以下几个部分:
1. Series, 它是对一位数据的封装(key value pairs);
2. DataFrame,它是一个数据结构,可以看成是一个表格,是Series的容器;
3. Index, 索引;
4. Merge,append, Join,concat。
二. 常用操作
1.导入pandas库:
一般导入pandas时都会一起numpy,
import numpy as np
import pandas as pd
2.导入CSV/XLSX
df = pd.DataFrame(pd.read_csv("test.csv", header=1))
df = pd.DataFrame(pd.read_excel("test.xlsx"))
3. 维度查看
df.shape
4. 每一列数据的格式
df.dtypes
5. 查看数据表的值
df.values
6. 查看列名称
df.columns
7. 更改列名称
df.rename(columns={“category”: “category-size”})
8.数据表合并
Merge,append, Join,concat
9. 设置索引列
df..set_index(“id”)
10.数据提取
主要用到的三个函数:loc,iloc和ix,loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。
11.简单的数据采样
df.sample(n=3)
以上只是一部分我觉得常用的函数,pandas是一个很强大的工具,如果需要去熟练它,光靠这么一节课是不行的,这堂课只是一个引导,让你知道pandas是干什么的,在什么场景你可能需要用到它,等真正需要用到的时候怎么去查询。
python panda是什么_python pandas浅析相关推荐
- python 列表多行_Python Pandas list列表数据列拆分成多行的方法实现
1.实现的效果 示例代码: df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]}) df Out[458]: A B 0 1 [1, 2] 1 2 [1, 2] ...
- python 模糊匹配 合并_Python Pandas模糊合并/匹配重复
我目前有2个数据帧,1个用于捐赠者,1个用于筹款.理想情况下,我想要找到的是,如果有任何筹款人也捐赠,如果是的话,将一些信息复制到我的募捐人数据集(捐赠者姓名,电子邮件和他们的第一次捐赠).我的数据有 ...
- python datetime timedelta函数_Python Pandas DatetimeIndex.to_perioddelta()用法及代码示例
Python是进行数据分析的一种出色语言,主要是因为以数据为中心的python软件包具有奇妙的生态系统. Pandas是其中的一种,使导入和分析数据更加容易. Pandas DatetimeIndex ...
- python dataframe loc函数_python pandas.DataFrame.loc函数使用详解
官方函数 DataFrame.loc Access a group of rows and columns by label(s) or a boolean array. .loc[] is prim ...
- python查看dataframe数据类型_python pandas中DataFrame类型数据操作函数的方法
python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数 ...
- python如何绘制曲线图_python pandas plot画折线图如何显示x轴的值?
在使用python pandas Series plot画折线图时,不知道该如何显示x轴的值. 代码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 ...
- python评估不平衡数据集_Python Pandas:平衡不平衡的数据集(用于面板分析)
I know this might be easy to do. I can do it in Stata but I'm trying to move to Python. I have a big ...
- python计算线性相关系数_Python+pandas计算数据相关系数(person、Kendall、spearman)
pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数.Kendall Tau相关系数和spearman秩相 ...
- python分时间段统计_Python Pandas:按日期分组并统计每个时段的新记录
我正在尝试使用Python Pandas来计算一段时间内每天访问我网站的访问者.在 示例数据:df1 = pd.DataFrame({'user_id':[1,2,3,1,3], 'date':['2 ...
最新文章
- 2021年大数据常用语言Scala(二):Scala开发环境安装
- php 严格过滤,php 常用过滤类
- ★核心关注点_《信息系统项目管理师考试考点分析与真题详解》
- MySQL-数据库三大范式
- Python调用大漠插件
- Windows 下目录及文件向Linux同步
- [转]正确配置Linux系统ulimit值的方法
- 解决IE6下,给图片加上line-height属性不起作用的方法
- python kmeans聚类 对二维坐标点聚类_Kmeans均值聚类算法原理以及Python如何实现
- numpy求逆矩阵_线性代数精华2——逆矩阵的推导过程
- i7处理器好吗_笔记本电脑处理器是i5好还是i7好?为什么?
- Python中的枚举(enumerate)
- java9 变化_Java 9 ← 2017,2019 → Java 13,来看看Java两年来的变化
- Spark:超越Hadoop MapReduce
- 机器学习工程师 - Udacity 强化学习 Part Eleven
- 《Java程序设计精编教程(第3版)》之课后习题 - 个人作
- 炫酷个人引导页主页自适应HTML源码
- Bootstrap INSPINIA 2.9.3 – 响应式管理模板
- Oracle8.1.7 报错01033,win10系统下oracle数据库报错ORA-01033如何解决
- 在谷歌浏览器上面安装AxueRP插件。