作者 | 刘早起

来源 | 早起Python(ID:zaoqi-python)

头图 |  CSDN 下载自东方IC

SQL 和 Python 几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?本文将分别用 MySQL 和 pandas 来展示七个在数据分析中常用的操作,希望可以帮助掌握其中一种语言的读者快速了解另一种方法

在阅读本文前,你可以访问下方网站下载本文使用的示例数据,并导入 MySQL 与 pandas 中,一边敲代码一边阅读!

https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv

选择

在 SQL 中,我们可以使用 SELECT 语句从表选择数据,结果被存储在一个结果表中,语法如下:

SELECT column_name,column_name
FROM table_name;

如果不想显示全部的记录,可以使用 TOPLIMIT 来限制行数。因此选择 tips 表中的部分列可以使用下面的语句

SELECT total_bill, tip, smoker, time
FROM tips
LIMIT 5;

而在 pandas 中,我们可以通过将列名列表传递给 DataFrame 来完成列选择

在 SQL 中,进行选择的同时还可以进行计算,比如添加一列

SELECT *, tip/total_bill as tip_rate
FROM tips
LIMIT 5;

在 pandas 中使用 DataFrame.assign() 同样可以完成这个操作

查找

单条件查找

在 SQL 中,WHERE 子句用于提取那些满足指定条件的记录,语法如下

SELECT column_name,column_name
FROM table_name
WHERE column_name operator value;

比如查找示例数据中 time = dinner 的记录

SELECT *
FROM tips
WHERE time = 'Dinner'
LIMIT 5;

而在 pandas 中,按照条件进行查找则可以有多种形式,比如可以将含有 True/False 的 Series 对象传递给 DataFrame,并返回所有带有 True 的行

多条件查找

在SQL中,进行多条件查找可以使用AND/OR来完成

SELECT *
FROM tips
WHERE time = 'Dinner' AND tip > 5.00;

在pandas中也有类似的操作

查找空值

在pandas检查空值是使用 notna()isna() 方法完成的。

frame[frame['col1'].notna()]

在SQL中可以使用 IS NULLIS NOT NULL 完成

SELECT *
FROM frame
WHERE col2 IS NULL;SELECT *
FROM frame
WHERE col1 IS NOT NULL;

  更新

在 SQL 中使用 UPDATE

UPDATE tips
SET tip = tip*2
WHERE tip < 2;

而在 pandas 中则有多种方法,比如使用 loc 函数

tips.loc[tips['tip'] < 2, 'tip'] *= 2

删除

在 SQL 中使用 DELETE

DELETE FROM tips
WHERE tip > 9;

在pandas中,我们选择应保留的行,而不是删除它们

tips = tips.loc[tips['tip'] <= 9]

分组

在 pandas 中,使用 groupby() 方法实现分组。groupby() 通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。

常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过对性别进行分组查询

SELECT sex, count(*)
FROM tips
GROUP BY sex;

在pandas中的等价操作为注意,在上面代码中,我们使用 size() 而不是 count()  这是因为 count() 将函数应用于每一列,并返回每一列中非空记录的数量!

连接

在 pandas 可以使用 join()merge() 进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。

现在让我们重新创建两组示例数据,分别用代码来演示不同的连接

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],....:                     'value': np.random.randn(4)})....: df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],....:                     'value': np.random.randn(4)})

内连接

内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在 SQL 中实现内连接使用 INNER JOIN

SELECT *
FROM df1
INNER JOIN df2ON df1.key = df2.key;

在 pandas 中可以使用 merge()merge() 提供了一些参数,可以将一个 DataFrame 的列与另一个 DataFrame 的索引连接在一起????

左/右外联接

在 SQL 中实现左/右外连接可以使用 LEFT OUTER JOINRIGHT OUTER JOIN

SELECT *
FROM df1
LEFT OUTER JOIN df2ON df1.key = df2.key;SELECT *
FROM df1
RIGHT OUTER JOIN df2ON df1.key = df2.key;

在 pandas 中实现同样可以使用 merge() 并指定 how 关键字为 left 或者 right 即可

全连接

全连接返回左表和右表中的所有行,无论是否匹配,但并不是所有的数据库都支持,比如 mysql 就不支持,在 SQL 中实现全连接可以使用 FULL OUTER JOIN

SELECT *
FROM df1
FULL OUTER JOIN df2ON df1.key = df2.key;

在 pandas 中实现同样可以使用 merge() 并指定 how 关键字为 outer

合并

SQL 中 UNION 操作用于合并两个或多个 SELECT 语句的结果集,UNION UNION ALL 类似,但是 UNION 将删除重复的行。示例代码如下

SELECT city, rank
FROM df1
UNION ALL
SELECT city, rank
FROM df2;
/*city  rankChicago     1
San Francisco     2
New York City     3Chicago     1Boston     4Los Angeles     5
*/

在 pandas 中可以使用 concat() 实现 UNION ALL

上面是 UNION ALL 保留重复值,如果希望删除可以使用  drop_duplicates()

以上就是本文的全部内容,可以看到在不同的场景下不同的语言有着不同的特性,如果你想深入学习了解可以进一步查阅官方文档并多加练习!

来源:pandas官方文档

https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html

编译:刘早起(有删改)

更多精彩推荐
☞1024程序员节重要议程曝光,开源技术英雄会聊开源“真心话”☞“我们的目标是取代物联网中的安卓” | 人物志
☞对话阿里云:开源与自研如何共处?
☞服!AI 让兵马俑“活”起来,颜值惊艳!
☞AI 还原康乾盛世三代皇帝的样貌,简直太太太好玩了!☞观点 | 回顾以太坊近期及中期扩容路线图,展望 rollup 作为中心的以太坊路线图
点分享点点赞点在看

2020年入门数据分析选择Python还是SQL?七个常用操作对比!相关推荐

  1. 2020 年入门数据分析选择 Python 还是 SQL?七个常用操作对比!

    作者 | 刘早起 来源 | 早起Python(ID:zaoqi-python) 头图 |  CSDN 下载自东方IC SQL 和 Python 几乎是当前数据分析师必须要了解的两门语言,它们在处理数据 ...

  2. 入门数据分析选择Python还是SQL?七个常用操作对比!

    SQL和Python几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?本文将分别用MySQL和pandas来展示七个在数据分析中常用的操作,希望可以帮助掌握其中一种语言的读者快速了 ...

  3. Python数据挖掘笔记 七 .PCA降维操作及subplot子图绘制

    Python数据挖掘笔记 七 .PCA降维操作及subplot子图绘制 这篇文章主要介绍四个知识点,也是我那节课讲课的内容.1.PCA降维操作:2.Python中Sklearn的PCA扩展包:3.Ma ...

  4. python的jax包的常用操作

    python的jax包的常用操作 本文参考官方文档 1.jax.random包 PRNGKey >>> from jax import random >>> key ...

  5. 财务数据分析sql python_进阶数据分析工具Python和SQL

    进阶数据处理, 常常离不开python和SQL这两个工具.这两个工具SQL擅长在数据库端进行数据的整理.查询.分析,而Python的优势就在于集成了各种数据分析方法,能完成复杂的数据准备.建模工作.所 ...

  6. Python入门基础篇(四)字符串的常用操作,全面易懂,简单实用!!!

    请认真阅读哦!!! 字符串几乎是所有编程语言在项目开发过程中涉及最多的一块内容,许多地方都是用到字符串的基本操作,前面讲了列表.元组,这次就来说说字符串吧 文章目录 字符串的常用操作: 1.拼接字符串 ...

  7. 【100+ python基础入门-39】Python集合的交集和并集操作

    集合这种数据类型和我们数学中所学的集合很是相似,数学中堆积和的操作也有交集,并集和差集操作,python集合也是一样. 一.交集操作 1.使用intersection()求交集: 可变集合和不可变集合 ...

  8. Python字符串的定义与常用操作

    1.用于储存小量的数据 2.python中用' '," ",''' ''',""" """括起来的就是字符串 3.常用操 ...

  9. 【Python】文件夹的常用操作

    上一篇文章主要讲了Python中,读写文件的常用操作,今天这篇文章主要讲的是关于文件夹的一些常用操作: 关于文件的操作,需要导入包:import os 文件操作: #1.创建相对路径的空文件,如果已有 ...

最新文章

  1. 瘦了!光荣!都是忙工作忙的!
  2. 如何将sql查询出的结果,用符号隔开
  3. FastText情感分析和词向量训练实战——Keras算法练习
  4. Ruby学习笔记_索引贴
  5. Steps to install Domino Server 8.5.1 on AIX 6
  6. 含k个3的数(信息学奥赛一本通-T1090)
  7. 国家航天局+华为云:做地球的守护者
  8. left join 最后一条_一条Mysql查询语句的西天取经之路,你真的了解吗?
  9. case when then end.sql
  10. IT运维的五大基础知识
  11. 360无线路由器dns服务器,路由器的首选dns服务器怎么填
  12. 百度云不限速破解详细教程附工具
  13. 出国读计算机专业好吗,计算机美国读研 - 美国留学读计算机专业好不好
  14. 探讨一种新型的双进程守护应用保活
  15. [知识点整理]中科院/国科大 网络与系统安全 期末考试知识点整理
  16. PHP实现九宫格图片水印功能
  17. 手机dpi修改工具_修改手机的分辨率,让你的手机更流畅
  18. python onenet_onenet简介
  19. Spline(三次样条插值)
  20. SATA3.0中FIS的八种类型

热门文章

  1. 深度剖析Java数据结构之队列(一)——双端队列(ArrayDeque)
  2. logging 模块 与 logging 固定模块
  3. 【心情】bjdldrz
  4. CUDA 计算pi (π)
  5. Java-如何挖取某个网站中的ajax请求信息
  6. [论文阅读] Deep Automatic Natural Image Matting
  7. 矩池云上安装AlphaFold教程
  8. 力扣--220存在重复I-III
  9. python if not A 和 if A is None
  10. xcode12.3 swift 桥接文件_OC与Swift混编项目迁移到Swift4.2小记