Pandas练习4-数据规整

  • 练习题
    • 练习1
    • 练习2
    • 练习3
    • 练习4
  • 练习1
    • 代码
    • 效果图
  • 练习2
    • 代码
    • 效果图
  • 练习3
    • 代码
    • 效果图
  • 练习4
    • 代码
    • 效果图
  • 小结

练习题

练习1

练习2

练习3

练习4

练习1

代码

import pandas as pd
# Exercise 1
# 通过starbucks_store_worldwide.csv数据,分析星巴克在中国分布多还是美国分布多?
# 将 Country 设成 行索引 去匹配 CN(中国)和US(美国)
starbucks_data = pd.read_csv("starbucks_store_worldwide.csv", index_col=["Country"])
# print(starbucks_data.columns)
# 通过上行代码得知 columns有 'Brand', 'Store Number', 'Store Name', 'Ownership Type',
# 'Street Address', 'City', 'State/Province', 'Postcode', 'Phone Number',
# 'Timezone', 'Longitude', 'Latitude'
# 利用Store Number来计算商店的数量 因为每一个星巴克有自己独特的Store Number
China_number = starbucks_data.loc["CN"]["Store Number"].count()
USA_number = starbucks_data.loc["US"]["Store Number"].count()
print("中国星巴克的数量:", China_number)
print("美国星巴克的数量:", USA_number)
if China_number > USA_number:print("星巴克在中国分布多")
elif China_number < USA_number:print("星巴克在美国分布多")
elif China_number == USA_number:print("星巴克在中国和美国分布一样多")print()

效果图

练习2

代码

# Exercise 2
# 通过starbucks_store_worldwide.csv数据,获取中国每个省份的分布数量
starbucks_in_China_of_each_province = starbucks_data.loc["CN"].groupby(by="State/Province")["Store Number"].count()
details_starbucks_in_China = starbucks_data.loc["CN"].groupby(by=["State/Province", "City"])["Store Number"].count()
print("各个省份(省份由数字表示)星巴克的总数(前十个省份):")
print(starbucks_in_China_of_each_province.head(10))
print()
print("各个省份不同城市的星巴克数量:")
print(details_starbucks_in_China)
print()

效果图

练习3

代码

# Exercise 3
# 将 学生成绩表 与 选修成绩表 进行水平拼接
# 将 名字 那一列设置为行索引
student_grades = pd.read_excel("学生成绩表.xlsx", index_col=[0])
optional_courses_grades = pd.read_excel("选修成绩表.xlsx", index_col=[0])
# 利用DataFrame的 join()方法做一个内连接即可
result_table = student_grades.join(optional_courses_grades, how="inner")
print(result_table)
print()

效果图

练习4

代码

# Exercise 4
# 将 学生分配表.xlsx 和 老师排班表.xlsx 结合
# 需求:想在一张表中直观的了解每一位同学对应的老师
# 把每个表格的行索引定位 班级
student_distributions = pd.read_excel("学生分配表.xlsx", index_col="班级")
teachers_classes = pd.read_excel("老师排班表.xlsx", index_col="班级")
# 使用merge()方法进行一个内连接即可
class_table = pd.merge(student_distributions, teachers_classes, on="班级", how="inner")
print(class_table)

效果图

小结

  1. 分析一个文件的数据时,首先要观察数据来获取可以利用的行索引和列索引。
  2. merge()和concat()是pandas的方法,join()是DataFrame的方法。
  3. 要灵活运用groupby(by=key)、索引以及分层索引去取值和将数据分组。

利用Pandas库进行简单的数据规整相关推荐

  1. 利用Pandas库进行简单的数据分析(数据清洗)

    Pandas练习3 练习题 练习1 练习2 练习1 代码 效果图 练习2 代码 效果图 小结 练习题 练习1 练习2 练习1 代码 import pandas as pd import numpy a ...

  2. 利用pandas库中的read_html方法快速抓取网页中常见的表格型数据

    利用pandas库中的read_html方法快速抓取网页中常见的表格型数据 本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要 ...

  3. python如何安装panda数据库_在Pycharm中安装Pandas库方法(简单易懂)

    开发环境的搭建是一件入门比较头疼的事情,在上期的文稿基础上,增加一项Anaconda的安装介绍.Anaconda是Python的一个发行版本,安装好了Anaconda就相当于安装好了Python,并且 ...

  4. 利用pcl库实现简单单帧障碍物检测

    利用pcl库实现简单单帧障碍物检测 #include <iostream> #include <pcl/common/common_headers.h> #include &l ...

  5. 利用PCL库从点云数据生成深度图像及关键点提取

    利用PCL库从点云数据生成生成深度图像及关键点提取 利用PCL库从点云数据生成深度图像及关键点提取 本想利用标准点云数据库分割成若干块,利用标准点云数据生成深度图像作为数据库用来验证算法,目前效果不是 ...

  6. DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出)

    DS之信息挖掘:利用pandas库统计某一列col中各个值出现的次数(降序输出) 目录 利用pandas库统计某一列col中各个值出现的次数(降序输出) 输出结果 实现代码 利用pandas库统计某一 ...

  7. 利用PCL库做简单的三维立体图形

    利用PCL库画简单的三维立体图形需要知道各种图形的参数方程,然后给每个参数赋值便可以. 圆柱面的参数方程为:x = R*cos(θ); y = R*sin(θ); z = z;其中 θ范围是[-2*P ...

  8. python导入excel模块_Excel到python第一章python利用pandas和numpy模块导入数据

    原博文 2019-08-29 21:18 − import numpy as np import pandas as pd # 导入数据 # 读取csv数据 df = pd.read_csv(open ...

  9. python用pandas读取excel_浅谈python之利用pandas和openpyxl读取excel数据

    在学接口自动化测试时, 需要从excel中读取测试用例的数据, 假如我的数据是这样的: 最好是每行数据对应着一条测试用例, 为方便取值, 我选择使用pandas库, 先安装 pip install p ...

最新文章

  1. P1759 通天之潜水(不详细,勿看)(动态规划递推,组合背包,洛谷)
  2. 开发日记-20190612 关键词 读书笔记《鸟哥的Linux私房菜-基础学习篇》
  3. nasm汇编:段的申明、$$、$
  4. SLAM: Orb_SLAM中的ORB特征
  5. javascript 禁止复制网页
  6. ubuntu中将git 提交编译器nano 修改为vim
  7. HTML只言片语网站导航模板
  8. Linux学习总结(27)——CentOS7及以上系统的systemctl命令使用介绍
  9. Python零基础入门(四)——Python面向对象编程[学习笔记]
  10. Python continue 语句
  11. 【codevs1907】【方格取数3】二分图最大带权独立集
  12. 判断一个三位数是否为水仙花数
  13. Win10任务栏图标变成空白方块解决办法
  14. 【团体天梯赛/PTA】7-34 福到了 (15 分)
  15. 用数据激活线下,更好玩的新营销来了
  16. 数字电路基础知识——反相器的相关知识(噪声容限、VTC、转换时间、速度的影响因素、传播延时等)
  17. 编程实现在Linux系统中Intel CPU功耗的获取
  18. 【技术分享】五:搜索排序-特征分析
  19. 武大计算机科学与技术弘毅学堂,弘毅学堂
  20. 蚂蚁金服在 Service Mesh 监控落地经验分享

热门文章

  1. 组织架构递归_映射架构和递归管理数据–第2部分
  2. 汇编在嵌入式编程中的作用_如何在嵌入式Power BI报表中以编程方式传递凭据
  3. sql server 性能_SQL Server性能基础
  4. order by关键字优化
  5. drop table 、delete table和truncate table的区别
  6. C# XML文件操作类XmlHelper
  7. 开发落网电台windows phone 8应用的计划(10)-----收尾
  8. 设置mysql允许外网访问
  9. AtomicReference
  10. js 文件引用传递参数