SQL和Python几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?本文将分别用MySQL和pandas来展示七个在数据分析中常用的操作,希望可以帮助掌握其中一种语言的读者快速了解另一种方法!

在阅读本文前,你可以访问下方网站下载本文使用的示例数据,并导入MySQL与pandas中,一边敲代码一边阅读!

https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv

一、选择

在SQL中,我们可以使用SELECT语句从表选择数据,结果被存储在一个结果表中,语法如下:

SELECT column_name,column_name

FROM table_name;

如果不想显示全部的记录,可以使用TOP或LIMIT来限制行数。因此选择tips表中的部分列可以使用下面的语句

SELECT total_bill, tip, smoker, time

FROM tips

LIMIT 5;

而在pandas中,我们可以通过将列名列表传递给DataFrame来完成列选择

在SQL中,进行选择的同时还可以进行计算,比如添加一列

SELECT *, tip/total_bill as tip_rate

FROM tips

LIMIT 5;

在pandas中使用DataFrame.assign()同样可以完成这个操作

二、查找

1. 单条件查找

在SQL中,WHERE子句用于提取那些满足指定条件的记录,语法如下

SELECT column_name,column_name

FROM table_name

WHERE column_name operator value;

比如查找示例数据中time = dinner的记录

SELECT *

FROM tips

WHERE time='Dinner'

LIMIT 5;

而在pandas中,按照条件进行查找则可以有多种形式,比如可以将含有True/False的Series对象传递给DataFrame,并返回所有带有True的行

2. 多条件查找

在SQL中,进行多条件查找可以使用AND/OR来完成

在pandas中也有类似的操作

3. 查找空值

在pandas检查空值是使用notna()和isna()方法完成的。

frame[frame['col1'].notna()]

在SQL中可以使用IS NULL和IS NOT NULL完成

SELECT *

FROM frame

WHERE col2 IS NULL;

SELECT *

FROM frame

WHERE col1 IS NOT NULL;

三、更新

在SQL中使用UPDATE

UPDATE tips

SET tiptip= tip*2

WHERE tip <2;

而在pandas中则有多种方法,比如使用loc函数

tips.loc[tips['tip']<2, 'tip'] *= 2

四、删除

在SQL中使用DELETE

DELETE FROM tips

WHERE tip >9;

在pandas中,我们选择应保留的行,而不是删除它们

tipstips= tips.loc[tips['tip']<= 9]

五、分组

在pandas中,使用groupby()方法实现分组。groupby()通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。

常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过对性别进行分组查询

SELECT sex, count(*)

FROM tips

GROUP BY sex;

在pandas中的等价操作为

注意,在上面代码中,我们使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录的数量!

六、连接

在pandas可以使用join()或merge()进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。

现在让我们重新创建两组示例数据,分别用代码来演示不同的连接

df1=pd.DataFrame({'key': ['A', 'B', 'C', 'D'],

....:                     'value': np.random.randn(4)})

....:

df2=pd.DataFrame({'key': ['B', 'D', 'D', 'E'],

....:                     'value': np.random.randn(4)})

1. 内连接

内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在SQL中实现内连接使用INNER JOIN

SELECT *

FROM df1

INNER JOIN df2

ON df1.key=df2.key;

在pandas中可以使用merge()

merge()提供了一些参数,可以将一个DataFrame的列与另一个DataFrame的索引连接在一起

python与sql的区别_2020年入门数据分析选择Python还是SQL?七个常用操作对比!相关推荐

  1. 2020 年入门数据分析选择 Python 还是 SQL?七个常用操作对比!

    作者 | 刘早起 来源 | 早起Python(ID:zaoqi-python) 头图 |  CSDN 下载自东方IC SQL 和 Python 几乎是当前数据分析师必须要了解的两门语言,它们在处理数据 ...

  2. 入门数据分析选择Python还是SQL?七个常用操作对比!

    SQL和Python几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?本文将分别用MySQL和pandas来展示七个在数据分析中常用的操作,希望可以帮助掌握其中一种语言的读者快速了 ...

  3. 2020年入门数据分析选择Python还是SQL?七个常用操作对比!

    作者 | 刘早起 来源 | 早起Python(ID:zaoqi-python) 头图 |  CSDN 下载自东方IC SQL 和 Python 几乎是当前数据分析师必须要了解的两门语言,它们在处理数据 ...

  4. python和java的区别-Python和Java的区别有哪些?如何选择?

    原标题:Python和Java的区别有哪些?如何选择? 随着人工智能AI的发展越来越快速,很多人对于Python开发技术也是越来越重视,也正因如此,不少人拿着Java和Python进行比较,认为Pyt ...

  5. python 材料科学与工程专业_2020年最全的python的就业方向+清华计算机社流出上千集编程资料...

    Python是一门面向对象的编程语言,编译速度超快,从诞生到现在已经25个年头了.其特点在于灵活运用,因为其拥有大量第三方库,所以开发人员不必重复造轮子,就像搭积木一样,只要擅于利用这些库就可以完成绝 ...

  6. python 神经网络工具_神经网络15分钟入门!使用python从零开始写一个两层神经网络...

    本篇是该系列的第三篇,建议在阅读本篇文章之前先看前两篇文章. 在本文中将使用python实现之前描述的两层神经网络,并完成所提出的"象限分类"的问题. 需要注意的是,虽然标题叫做神 ...

  7. python中的常量是指_python入门教程04-01(python语法入门之变量)

    上一课我们学习了编程语言与python介绍,我们接下来的任务就是学习python语法入门的课程了. 本章的主题是先带大家了解下语法入门介绍,然后重点介绍python变量. 一 引入 我们学习pytho ...

  8. python建立sqlite数据库_5分钟快速入门,用Python做SQLite数据库开发,附代码适合初学...

    1.它内置,无需安装,省了很多麻烦. 2.使用方便,无需复杂的连接配置,和打开本地文件一样简单. 3.转移方便,数据库就是一个文件,复制.转移.删除都能简单处理 4.轻量级应用中性能优于多数其它的数据 ...

  9. 当代超吸金的行业“Python工程师”,如何快速从Pytho入门到初级Python工程师?

    前言 如果你想选择一种语言来入门编程,那么python编程语言绝对是首选!其非常接近自然语言,精简了很多不必要的分号和括号,非常容易阅读理解.编程简单直接,更适合初学编程者,让其专注于编程逻辑,而不是 ...

  10. python大数据结课报告_2020知到大数据分析的PYTHON基础结课答案

    2020知到大数据分析的PYTHON基础结课答案 房产新闻 2020-10-02 02:28128未知admin 2020知到大数据分析的PYTHON基础结课答案 更多相关问题 Mike is so ...

最新文章

  1. 2021-7-14 深度学习服务器Linux终端网络训练training(顶会ECCV网络BiSeNet)
  2. The j.u.c Synchronizer Framework翻译(三)使用、性能与总结
  3. python填写excel-使用Python填写Excel文件的简便方法
  4. 搞清axis的含义,这一篇就够了!
  5. 自注意力机制Self-attention(2)
  6. vim 插件之vim-trailing-whitespace
  7. 微信处罚腾讯判定其滥用原创:不要惹我 我狠起来能铁锅炖自己!
  8. 了解JQuery TextArea的取值与赋值问题
  9. idea新建类模板注释设置_开发者必备——IDEA配置清单
  10. C++中两个类中互相包含对方对象的指针问题
  11. Creating Your First Mac App--Implementing Action Methods 实现动作方法
  12. 深入P2P——BT种子解析
  13. 同义替换:哈工大同义词词林扩展版
  14. SSL2893 谷仓的安保
  15. 程序员的自我修养_之三_曾国藩与左宗棠
  16. word使用技巧---插入图片显示不全的解决方案
  17. python中文意思是什么-python是什么意思中文翻译
  18. 原型设计Axure的基本使用
  19. 四阶行列式如何降阶_四阶行列式用降阶法怎么计算 我要计算过程
  20. 华为手机计算机删了怎么办,如何从华为手机恢复丢失或删除的文件

热门文章

  1. 生成的html怎么做成桌面背景,定时改换图片的桌面背景 html页面
  2. SmartGit 授权文件
  3. js中Date函数获取今天星期几的方法
  4. 苹果手机怎么验证app_苹果序列号查询 未验证怎么办?
  5. Unity 2D 入门
  6. 移动硬盘显示无法访问数据错误循环冗余检查的文件寻回办法
  7. jmeter学习指南之生成html性能结果报告(篇幅较长谨慎阅读)
  8. TP-link WR703N, OpenWrt, Mentohust
  9. VIOS查看网卡对应的插槽
  10. 疯狂Python讲义学习笔记(含习题)之网络编程