Python在数据处理和准备一直做得很好,但在数据分析和建模方面就差一些。pandas帮助填
补了这一空白,使您能够在Python中执行整个数据分析工作流程,而不必切换到更特定于领域的语
言,如R。pandas是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。pandas是Python进行数据分析的必备高级工具。

pandas的主要数据结构是 Series(一维数据)与 DataFrame (二维数据),这两种数据结构足以处理
金融、统计、社会科学、工程等领域里的大多数案例。处理数据一般分为四个阶段:数据整理与清洗、数据分析与建模、数据可视化与制表,Pandas 是处理数据的理想工具。

**数据来源与下载:https://www.heywhale.com/mw/dataset/59e715b76d213335f38d4507

1.创建数组和数据框

1.1Series

用列表生成 Series时,Pandas 默认自动生成整数索引,也可以指定索引

s1 = pd.Series(np.random.randint(1,10,5))#默认自动生成整数索引
s2 = pd.Series(np.random.randint(1,10,5),index=list('abcde'))#指定行索引
s3 = pd.Series({'a':90,'b':80,'c':70})#采用字典方式创建,键为行索引
display(s1, s2, s3)

输出:

1.2Dataframe

Dataframe是由多种类型的列构成的二维标签数据结构,类似Excel\SQL 表,或Series对象的字典

pokemon = pd.DataFrame({'evolution':['Ivysaur','Charmeleon','Wartortle','Metapod'],"hp": [45, 39, 44, 45],"name": ['Bulbasaur', 'Charmander','Squirtle','Caterpie'],"pokedex": ['yes', 'no','yes','no'],"type": ['grass', 'fire', 'water', 'bug']})pokemon.rename(index = {0:'A',1:'B',2:'C',3:'D',4:'E'})#修改行索引
#修改列索引将index改为columns

输出:

2.了解你的数据

chipotle快餐店的订单的样本数据(chipotle.tsv),具体字段说明如下:

字段名称 解释说明
order_id 订单编号
quantity 数量
item_name 产品名称
choice_description 产品描述

2.1数据输入

import pandas as pd
chipo = pd.read_csv('chipotle.tsv', sep = '\t',header = [0])
#若数据无列索引,则header = None
#若数据存在行索引,则index_col = 0,可以指定行索引
#若文件为csv,默认分隔符为逗号,则sep = ','

2.2数据查看

1.查看数据前10行

chipo.head(10)

输出:
2.查看数据后10行

chipo.tail(10)

输出:
3.查看形状,数据的行数和列数,输出(行数,列数)

chipo.shape

输出:

4.行索引,从0开始到4622(不包含),步长为1

chipo.index

输出:

5.列索引,各列的名称

chipo.columns

输出:
6.对象值,二维ndarray-NumPy数据结构

chipo.values

输出:
7.查看数值型列的数据汇总统计,输出count计数、mean平均值、std标准差、min最小值、25%第一四分位数、50%中位数、75%第三四分位数、max最大值

chipo.describe()

输出:

8.查看列索引(Columns)、数据类型(Dtype)、缺失值个数(Non-Null Count)和内存信息(memery usage)

chipo.info()

输出:

2.3数据选取

1.查看产品名称这一列,返回数据为Series

chipo.item_name
chipo['item_name']

输出:

2.查看产品名称及数量这两列,返回数据为DataFrame

chipo[['item_name','quantity']]

输出:

3.查看行索引从3开始到10结束(不包含)

chipo[3:15]

输出:

4.查看销售数量大于5的商品订单信息

cond = chipo.quantity>5#返回值是boolean类型的Series
chipo[cond]#返回数量quantity>5的商品订单信息

输出:
5.查看销售数量大于50,商品名称为’Bottled Water’的订单信息

cond = (chipo.quantity>5) & (chipo.item_name =='Bottled Water')#与运算,返回布尔值
chipo[cond]

输出:

6.按位置选择数据

chipo.iloc[3]#得到series,行标签为3
chipo.iloc[3:5,1:3]#得到dataframe,3~4行,1~2列
chipo.iloc[[3,5],[1,3]]#得到dataframe,行标签为3、5,列索引为1、3

输出:



7.新增一列remark,并给列中元素赋值

chipo['remark']='' #新增一列
chipo.loc[0,'remark'] = '无' #修改列中单个元素值

输出:

今天先写到这里,我们下期再见O(∩_∩)O

**整理课件不易,走过路过觉得课程内容不错,请帮忙点赞、收藏!Thanks♪(・ω・)ノ****如需转载,请注明出处

Pandas数据分析实战(1)——探索Chipotle快餐数据相关推荐

  1. python练习——探索 Chipotle 快餐数据

    1. 将数据集存入一个名为 chipo 的数据框内  import pandas as pd chipo = pd.read_csv('chipotle.tsv',sep='\t') 知识点: 读取c ...

  2. Pandas数据分析实战01--Abalone Data Set(鲍鱼数据集)

    Pandas数据分析实战01 1. 数据描述 2. 数据读取 3. 数据呈现 4. 数据分析 打算从基础开始学习数据分析,给自己一个整理内容和学习消化的时间,所以,这也将成为我的学习笔记. 1. 数据 ...

  3. Pandas数据分析实战案例之青春有你2(获取人物名称与头像)

    Pandas数据分析实战案例之青春有你2 看前须知:如果有需要借鉴的地方的话,可以把 导出数据 和 下载图片 的地址改掉.除此以外,可能定义函数的时候里面的 获取资料地址有误 ,会显示404,在文章末 ...

  4. pandas 数据分析 相关性_探索 COVID-19 新冠数据来学习 Pandas

    来源:python中文社区 本文约2100字,建议阅读6分钟. 使用 pandas 数据分析工具来学习一些基本的 pandas 命令,并探索数据集中包含的内容. 欧洲疾病预防控制中心(https:// ...

  5. pandas数据分析实战之apply函数应用

    使用apply函数与字符匹配进行数据分析 1.apply函数使用 2.字符串匹配 3.数据分析实战 1.apply函数使用 DataFrame.apply(self, func, axis=0, ra ...

  6. Pandas数据分析—使用stack和pivot实现数据透视

    15.Pandas使用stack和pivot实现数据透视 文章目录 15.Pandas使用stack和pivot实现数据透视 前言 一.经过统计得到多维度指标数据 二.使用unstack实现数据的二维 ...

  7. Python数据分析实战,,美国总统大选数据可视化分析[基于pandas]

    目录 前言 一.任务详情 二.数据集来源 三.实现过程 四.运行代码 前言 在学习Python数据分析的过程中,是离不开实战的. 今天跟大家带来数据分析可视化经典项目,美国总统大选数据可视化分析,希望 ...

  8. 400 bad request什么意思_成都什么样的酒店最流行?——Python数据分析实战之成都酒店分布数据...

    前言 一个物理学院核工程与核技术专业的学生,对Python爬虫和数据分析技术的痴迷,完成一项全样本数据爬取.清洗和分析的整个数据分析过程,本项目重点体现:在海量数据的获取和清洗,而Python正是你手 ...

  9. Pandas数据分析实战1——淘宝粽子行业分析

    淘宝粽子--可视化分析 1.导入模块,读取数据,分析数据,观察数据基本信息,处理缺省值 2.对初始数据进行进一步整理 3.明确需求目的 分析关键词:品牌.竞争度.销量.销售额.客单价.店铺数量.店铺类 ...

  10. pandas数据分析实战之去除重复值

    Pandas指定行进行去重更新值 加载数据 sample抽样函数 指定需要更新的值 append直接添加 append函数用法 根据某一列key值进行去重(key唯一) 加载数据 首先,我们需要加载到 ...

最新文章

  1. 【有奖辩论】工程师和销售创业谁更有优势?
  2. 第三讲、Linux常用命令
  3. dos下 和 批处理中的 for 语句的基本用法
  4. R 回归 虚拟变量na_如何优雅地计算多变量
  5. shell脚本编程测试类型下
  6. 最实用前端开发框架对比评测
  7. 植物大战僵尸不能保存进度
  8. yum 安装mysql数据库
  9. 集成Tomcat环境到Eclipse中
  10. linux设置组配置额步骤,linux 中磁盘配额设置
  11. LFS安装过程记录(1)-准备工作
  12. Winform中Treeview控件失去焦点,将选择的节点设置为高亮显示 (2012-07-16 13:47:07)转载▼...
  13. Win 10 专业版重新激活详细操作步骤
  14. word插入公式/endnote
  15. 你知道PDF拆分合并怎么弄吗?两个方法帮你轻松搞定!
  16. Proxmox监视器
  17. 垃圾小白羊leetcode刷题记录3
  18. SSM框架学习记录-Spring_day01
  19. 2021中大厂php+go面试题(2)
  20. 微信为什么使用 SQLite 保存聊天记录?

热门文章

  1. 寄给J.Keisler教授的一电子生日贺卡
  2. 3D模型欣赏:《magician》次时代 美女 精灵
  3. Wireshark实验 - TCP
  4. MacBook安装rar解压工具
  5. 首届 RustCon Asia 圆满落幕——Love is electricity for RustCon Asia
  6. 文明与征服新套路,北条点火队
  7. 程序员:如何优雅的写出好代码?
  8. np.take()函数用法 python numpy
  9. 解决SQL Server日志空间满的方法
  10. 博物馆 库房rfid_博物馆RFID综合管理解决方案