文章目录

  • 一、pandas
    • 1.pandas简介
      • 1).pandas能做什么
      • 2).ipython简介
      • 3).python命令行与ipython命令行的区别
    • 2.Pandas核心数据结构创建
      • 1)Series创建
      • 2)DataFrame创建
        • 通过传递带有日期时间索引和带标签的列的numpy数组来创建二维数组
        • 通过传递字典对象来创建二维数组
    • 3.查看数据
      • 1)head查看框架顶部 tail查看框架底部行
      • 2)显示行索引与列索引
      • 3)显示值---numpy数组
      • 4)显示数据整体情况---显示数据的快速统计摘要
      • 5)数据转置
      • 6)通过列标签来排序(默认升序)axis=1
      • 7)通过行标签来排序axis=0
      • 8)按值排序
      • 9)查看某一列的数据
    • 4.选择数据
      • 1)选择一个单列,产生一个Series,等于df.A
      • 2)选择行
        • 对行进行切片
        • 行标签
        • 比较
      • 3)通过标签在多轴(行列)上选择
      • 4)减少访问对象尺寸
      • 5)获得值
      • 6)快速访问值---插入原生数据结构
      • 7)通过位置来选择
        • 选择某行
        • 选择某行与某列
        • 选择某几列所有的行
        • 访问特定元素
        • 快速访问特定元素
        • 时间对比
      • 8)布尔索引
        • 使用isin过滤方法
      • 9)修改数据
        • 修改某个元素
        • 直接修改一列或一行元素
      • 10)copy()

一、pandas

1.pandas简介

Pandas是Python里分析结构化数据的工具集
基础是 numpy:高性能矩阵运算
图形库 matplotlib:提供数据可视化

1).pandas能做什么

结构化数据分析
数据挖掘

2).ipython简介

3).python命令行与ipython命令行的区别

# 显示数据可读性强
import numpy as np
from numpy.random import randn
data = {i:randn(i) for i in range(6)}
data
Out[5]:
{0: array([], dtype=float64),1: array([-0.27834191]),2: array([-0.39810411,  1.51621473]),3: array([ 0.04883958, -0.22957738, -0.40316668]),4: array([-0.01699721, -1.09906238, -1.45676746, -0.90384311]),5: array([ 0.41730456, -0.91479429, -0.90714327,  1.37142739,  0.17569011])}# 按Tab键命令补全# shell命令# 显示当前目录
pwd
Out[6]: 'D:\\PycharmProjects\\MyTest'
# 切换目录
cd D:\\PycharmProjects
D:\PycharmProjects# 魔术命令
%run 命令
%timeit 命令
%quickref 命令 显示快速参考文档
%magic显示魔术命令列表和文档

2.Pandas核心数据结构创建

1)Series创建

Series是一维带标签的数组,数组里可以放任意的数据(整数,浮点数,字符串,Python Object)
Series数据结构表示一个行或一个列的数据 有一个默认的整数索引
基本格式s=pd.Series(data,index=index)

其中, index是一个列表,用来作为数据的标签。data可以是不同的数据类型:Python字典,ndarray对象,一个标量值。

2)DataFrame创建

DataFrame是二维带行标签和列标签的数组,可以是Excel表格、SQL数据库的表格、Series对象字典。它是Pandas中最常用的数据结构。

基本格式df=pd.DataFrame(data,index=index,columns=columns)
其中,index是行标签,columns是列标签,data可以为:一维numpy数组、list和Series构成的字典,二维numpy数组,一个Series,DataFrame对象

通过传递带有日期时间索引和带标签的列的numpy数组来创建二维数组


通过传递字典对象来创建二维数组


结果的列DataFrame具有不同的 dtype

3.查看数据

1)head查看框架顶部 tail查看框架底部行

2)显示行索引与列索引

3)显示值—numpy数组


NumPy数组对整个数组具有一个dtype,而pandas DataFrames每列具有一个dtype;DataFrames有多个dtypes时,DataFrames.to_numpy相对昂贵。

4)显示数据整体情况—显示数据的快速统计摘要

5)数据转置

6)通过列标签来排序(默认升序)axis=1

7)通过行标签来排序axis=0

8)按值排序

9)查看某一列的数据

df.A

4.选择数据

1)选择一个单列,产生一个Series,等于df.A

2)选择行

对行进行切片

行标签

比较

效率比较高 因为不用判断是位置还是标签

3)通过标签在多轴(行列)上选择

4)减少访问对象尺寸

5)获得值

6)快速访问值—插入原生数据结构

7)通过位置来选择

选择某行

选择某行与某列

选择某几列所有的行

访问特定元素

快速访问特定元素

时间对比

8)布尔索引

1.使用单列的值选择数据
2.从满足布尔条件的DataFrame中选择值

使用isin过滤方法

9)修改数据

修改某个元素

直接修改一列或一行元素


10)copy()



数据科学包2-pandas快速入门1相关推荐

  1. Python+大数据-数据处理与分析-pandas快速入门

    Python+大数据-数据处理与分析-pandas快速入门 1.Pandas快速入门 1.1DataFrame和Series介绍 1)DataFrame 用来处理结构化数据(SQL数据表,Excel表 ...

  2. 【机器学习-数据科学】第二节:ipython开发环境搭建以及pandas快速入门

    ipython开发环境搭建以及pandas快速入门 0.开发环境搭建 技巧 网页版ipython:ipython notebook numpy 1.pandas 快速入门一 导入 创建对象 2. pa ...

  3. python第二阶段(2)入门-数据科学包 pandas

    数据科学包 pandas 导入pandas 创建对象 1 系列 2 日期序列(1) 3 日期序列(2) 4 Series的操作(1) 5 Series的操作(2) 合并,新增,连接和比较 1 连接 2 ...

  4. 数据科学系列:plotly可视化入门介绍

    导读 在入道数据岗位之初,曾系列写过多个数据科学工具包的入门教程,包括Numpy.Pandas.Matplotlib.Seaborn.Sklearn等,这些也构成了自己当初的核心工具栈.在这5个工具包 ...

  5. 机器学习---数据科学包-第2天

    1 pandas快速入门(一) .Series()方法.Series类型由一组数据及与之相关的数据索引组成. import pandas as pd import numpy as np s = pd ...

  6. 3.机器学习—数据科学包3.2pandas基础

    pandas基础 一.pandas介绍 1.什么是pandas 2.pandas用途 3.课程内容 二.Ipython开发环境搭建 1.安装 2.新建运行环境 3.Ipython技巧 4.Ipytho ...

  7. 数据科学包——Day2

    数据科学包--Day2 利用Pandas, Numpy进行电影数据分析 准备工作 任务: 数据读取 数据合并 按性别查看各个电影的平均评分 男女评分差异最大的电影 活跃电影排行 前十大活跃电影--被评 ...

  8. python 数据科学 包_什么时候应该使用哪个Python数据科学软件包?

    python 数据科学 包 Python is the most popular language for data science. Unfortunately, it can be tricky ...

  9. 机器学习-数据科学库:Pandas总结(1)

    机器学习-数据科学库:Pandas总结(1) Pandas pandas的常用数据类型 pandas之Series创建 pandas之Series切片和索引 pandas之读取外部数据 pandas之 ...

  10. python数据科学系列:pandas入门详细教程

    导读 前2篇分别系统性介绍了numpy和matplotlib的入门基本知识,今天本文自然是要对pandas进行入门详细介绍,通过本文你将系统性了解pandas为何会有数据分析界"瑞士军刀&q ...

最新文章

  1. [js] MD5算法
  2. Linq初级班 Linq To XML体验(基础篇)
  3. Open***异地机房互连以及负载均衡高可用解决方案
  4. IBM 2019-2020数据科学校招
  5. Redhat 5.4 安装Vbox 增强工具失败解决方法。
  6. 同步方法 sleep和wait 线程同步的方法
  7. Centos常用快捷键
  8. 编辑距离及编辑距离算法
  9. linux边看系统信息,Linux查看系统信息大全[备忘]
  10. 收藏 | 循环神经网络 RNN 详细图解!
  11. (71)Verilog HDL时间度量系统函数:$time
  12. 设计模式入门-模板模式
  13. LINUX C#开发教程
  14. 利用GPU加速的软件
  15. foxmail6.5+易邮邮件服务器搭建局域网邮件收发系统(完整版包含测试)
  16. 新托业2020一周极限自救攻略
  17. Linux之DNS域名解析
  18. CocosCreator之绳索摆动效果
  19. win10无线信号强度测试软件,WinFi Lite(WIFI分析工具) V1.0.15.0 官方版
  20. 微信小程序--给头像添加logo(生成海报同理)

热门文章

  1. SQL SERVER IDENTITY 约束的用法
  2. 伟大的程序员是怎样炼成的?
  3. SNS网站获取导入MSN联系人的方法
  4. 雷声大雨点小-参加江西省网站内容管理系统培训有感
  5. Windows下部署安装Docker
  6. mysql限制用户只能访问指定数据库
  7. go tcp socket
  8. PHP多线程pthreads
  9. [原]tornado源码分析系列(二)[网络层 IOLoop类]
  10. 创建Rss Feeds(一)