之前一直想自学一下大数据,正好七月在线在做1元优惠购活动,所以机缘巧合开始学习,今天就对最近学习的pandas进行一个笔记梳理,以便后续回顾。本次课程主要学习了以下内容:

一. 简介

pandas 是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

通俗的说,pandas就是对表格对数据进行分析,它主要包括以下几个部分:

1. Series, 它是对一位数据的封装(key value pairs);

2. DataFrame,它是一个数据结构,可以看成是一个表格,是Series的容器;

3. Index, 索引;

4. Merge,append, Join,concat。

二. 常用操作

1.导入pandas库:

一般导入pandas时都会一起numpy,

import numpy as np

import pandas as pd

2.导入CSV/XLSX

df = pd.DataFrame(pd.read_csv("test.csv", header=1))

df = pd.DataFrame(pd.read_excel("test.xlsx"))

3. 维度查看

df.shape

4. 每一列数据的格式

df.dtypes

5. 查看数据表的值

df.values

6. 查看列名称

df.columns

7. 更改列名称

df.rename(columns={“category”: “category-size”})

8.数据表合并

Merge,append, Join,concat

9. 设置索引列

df..set_index(“id”)

10.数据提取

主要用到的三个函数:loc,iloc和ix,loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。

11.简单的数据采样

df.sample(n=3)

以上只是一部分我觉得常用的函数,pandas是一个很强大的工具,如果需要去熟练它,光靠这么一节课是不行的,这堂课只是一个引导,让你知道pandas是干什么的,在什么场景你可能需要用到它,等真正需要用到的时候怎么去查询。

python panda是什么_python pandas浅析相关推荐

  1. python 列表多行_Python Pandas list列表数据列拆分成多行的方法实现

    1.实现的效果 示例代码: df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]}) df Out[458]: A B 0 1 [1, 2] 1 2 [1, 2] ...

  2. python 模糊匹配 合并_Python Pandas模糊合并/匹配重复

    我目前有2个数据帧,1个用于捐赠者,1个用于筹款.理想情况下,我想要找到的是,如果有任何筹款人也捐赠,如果是的话,将一些信息复制到我的募捐人数据集(捐赠者姓名,电子邮件和他们的第一次捐赠).我的数据有 ...

  3. python datetime timedelta函数_Python Pandas DatetimeIndex.to_perioddelta()用法及代码示例

    Python是进行数据分析的一种出色语言,主要是因为以数据为中心的python软件包具有奇妙的生态系统. Pandas是其中的一种,使导入和分析数据更加容易. Pandas DatetimeIndex ...

  4. python dataframe loc函数_python pandas.DataFrame.loc函数使用详解

    官方函数 DataFrame.loc Access a group of rows and columns by label(s) or a boolean array. .loc[] is prim ...

  5. python查看dataframe数据类型_python pandas中DataFrame类型数据操作函数的方法

    python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数 ...

  6. python如何绘制曲线图_python pandas plot画折线图如何显示x轴的值?

    在使用python pandas Series plot画折线图时,不知道该如何显示x轴的值. 代码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 ...

  7. python评估不平衡数据集_Python Pandas:平衡不平衡的数据集(用于面板分析)

    I know this might be easy to do. I can do it in Stata but I'm trying to move to Python. I have a big ...

  8. python计算线性相关系数_Python+pandas计算数据相关系数(person、Kendall、spearman)

    pandas中DataFrame对象corr()方法的用法,该方法用来计算DataFrame对象中所有列之间的相关系数(包括pearson相关系数.Kendall Tau相关系数和spearman秩相 ...

  9. python分时间段统计_Python Pandas:按日期分组并统计每个时段的新记录

    我正在尝试使用Python Pandas来计算一段时间内每天访问我网站的访问者.在 示例数据:df1 = pd.DataFrame({'user_id':[1,2,3,1,3], 'date':['2 ...

最新文章

  1. 2021年大数据常用语言Scala(二):Scala开发环境安装
  2. php 严格过滤,php 常用过滤类
  3. ★核心关注点_《信息系统项目管理师考试考点分析与真题详解》
  4. MySQL-数据库三大范式
  5. Python调用大漠插件
  6. Windows 下目录及文件向Linux同步
  7. [转]正确配置Linux系统ulimit值的方法
  8. 解决IE6下,给图片加上line-height属性不起作用的方法
  9. python kmeans聚类 对二维坐标点聚类_Kmeans均值聚类算法原理以及Python如何实现
  10. numpy求逆矩阵_线性代数精华2——逆矩阵的推导过程
  11. i7处理器好吗_笔记本电脑处理器是i5好还是i7好?为什么?
  12. Python中的枚举(enumerate)
  13. java9 变化_Java 9 ← 2017,2019 → Java 13,来看看Java两年来的变化
  14. Spark:超越Hadoop MapReduce
  15. 机器学习工程师 - Udacity 强化学习 Part Eleven
  16. 《Java程序设计精编教程(第3版)》之课后习题 - 个人作
  17. 炫酷个人引导页主页自适应HTML源码
  18. Bootstrap INSPINIA 2.9.3 – 响应式管理模板
  19. Oracle8.1.7 报错01033,win10系统下oracle数据库报错ORA-01033如何解决
  20. 在谷歌浏览器上面安装AxueRP插件。

热门文章

  1. 贝叶斯方法和贝叶斯网络
  2. 获取磁盘信息并扫描是否连接移动磁盘之JS版
  3. 【信息安全案例】——软件解密技术(以OllyDbg为例)
  4. 免费APP在线测试工具以及其使用方法
  5. java flv转mp3_用java程序调用ffmpeg执行视频文件格式转换flv
  6. 【分析向】没有三级缓存会导致什么?
  7. 水星d191g服务器无响应,水星D191G、水星D196G拆机,对比D19G有啥区别??
  8. MarkDown中如何换行?
  9. 2020未来杯总决赛暨颁奖典礼圆满落幕
  10. Cadence入门之电路图绘制及仿真