也许会有专业软件工程师认为,Python的火热有些“过誉”了,但是在经济学乃至数据科学领域,Python的火热绝对是能够理解和值得期待的。大数据时代来临,任何一位想要在未来的经济学界立足的「有志青年」,都应该抓住这把“火”。本文将为那些还没有上手但准备上手的「有志青年」们梳理一份学习Python的内容清单,着重列出数据分析处理方面需要用到的模块。

注:以下知识点主要以Python 的第三方包为主。科普园地/ Science ParkPython的第三方包:Python 具有丰富的扩展性,成千上万的第三方扩展包不断为 Python 赋能,使得其能够承载各式各样的需求。一般代码前几行,如import pandas as pd ,就是在导入第三方包。得益于免费开源的设计理念,任何人都可以为其贡献第三包,反过来许多优秀的第三方包又促进更多的人使用Python,进而创造出更多的第三方包,如此形成一种良性循环。Pandas 数据操作的基石

毫不过分地说,学好 Pandas 甚至比学好 Python 更重要。因为正是Pandas的好用,才奠定了 Python 在数据科学领域的地位。

那么,Pandas 是什么?Pandas 是 Python 的第三方包,用于数据处理。Python 默认的数据格式,无论是列表还是字典,都不能很好地用于操作在现实中常见的二维数据。Pandas正是为解决此问题而生,Pandas 提供了一种名为 DataFrame 的数据格式,将数据储存为一个二维表的形式,再通过各种函数方法,对数据进行横向、纵向、亦或按条件的切片来对数据进行处理,最终得到需要的数据结果。

Pandas 提供了快速而高效的 DataFrame 对象,用于数据操作与综合索引(索引就是用来快速查找对象的,例如快速找到标示性别的一列)。通过 Pandas 你可以轻松读取CSV和文本文件、Microsoft Excel、SQL数据库或者HDF5格式的数据。并且基于各种索引与标签,你可以轻松创建数据切片(例如一个数据里标示年纪的切片),通过大数据集筛选特定子集(例如,筛选性别为男性、年龄大于18岁的成人男性样本)。

总结一下,无论是基础的数据操作,还是为日后扩展,Pandas 都是极为基础且重要的一款第三方包。GitHub 项目地址:https://github.com/pandas-dev/pandas

官方文档地址:

https://pandas.pydata.org/pandas-docs/stable/Numpy 为Python 提供强劲的运算支持

Numpy 是 Pandas 的一个依赖项(安装 Pandas 时会自动安装 Numpy),Pandas的高效率一部分原因就是归功于 Numpy 的强大。

Numpy 提供了一种比 Python 自带的数据运算更加高效的方法。简单理解,就是 Numpy 的运算比 Python 默认数据结构的运算更快,更高效。当你的分析涉及到数组运算,尤其是多维数组运算时,那你应当考虑学习使用 Numpy 。同时,Numpy 也提供了强大的线性代数、傅立叶变化、随机数等数学运算的功能。

总之,Numpy 是Python 数据处理的又一块基石,在机器学习和深度学习领域,Numpy 具有广泛的应用。所以学习 Numpy 到如何的深度,需要看你所研究的领域,是否需要用到较为高级的数学运算。官方地址:https://numpy.org/

官方文档:https://numpy.org/doc/

如果你熟悉 Matalab,可以查看:

《与matlab比较》,也可以对照中文翻译版

Statsmodels 将计量搬到python上来

通过 Pandas 进行数据处理,筛选到了需要的数据,那接下来需要做什么呢?当然是开始计量之旅喽!

很自然地,我们会想到将数据从 Pandas的DataFrame 导出成 CSV,再导入到 Stata 中,进行计量运算嘛?其实大可不必,为了避免海量数据导致无法导入stata的尴尬,可以在 Python中自己写一个 OLS 函数,然后反复调用即可。(此时可能有读者冒出了大量的 「黑人问号.jpg」)

是的 Python 当中也有计量库了:Statsmodels 。Statsmodels 是一个Python的第三方模块,他封装了许多计量模型,方便学者直接调用。所谓封装,就相当于 Stata 中一个 reg 命令,代表了最基础的 OLS 回归命令,在Statsmodels 中也有类似 reg 的语句,提供给 OLS 估计。详细的内容可以参考工具&方法 | 6行代码教你用python做OLS回归,以及下面的官方链接。科普园地/ Science Park程序的封装:封装就是隐藏一些对象的属性和实现细节,仅对外公开接口;将抽象得到的数据和行为(或功能)相结合,形成一个有机的整体,也就是将数据与操作数据的源代码进行有机的结合,形成“类”(在 Python 中就是 class ) ,方便其他人使用自己的代码。更将形象的比喻,可以用瑞士军刀来举例子1,一把瑞士军刀相当于封装了小刀、开瓶器、剪刀等功能,然后当你需要用剪刀时,拨出剪刀这个“接口”即可。类似的,在写代码的过程中,你也可以把一些常用的方法写出特定的函数进行封装,上例中的 Statsmodels 就封装了计量的函数方法。

不得不说,通过 Statsmodels,Python 中做计量的成本大大降低,学习 Python 对于经济学学生来说,也能做到「全程无忧」式的使用体验。官方地址:https://www.statsmodels.org/stable/index.html

官方示例:

https://www.statsmodels.org/stable/examples/index.htmlsqlachemy ( or pymysql、cx_oracle) 进阶操作,处理 SQL 数据库

如今许多大数据被存放在以MySQL、Oracle为代表的sql数据库中,相比于 Stata ,Python还可以很容易地链接到sql数据库,直接对数据库内的数据进行操作。在Python当中,通过 pymysql 能够链接到 mysql 数据库,通过 cx_oracle 能够链接到 Oracle 数据库。

如果你是在总的大数据集中筛选出自己需要子集再进行操作。并且你对SQL 语句不熟悉,还可以使用 sqlachemy 一类的ORM框架的方式,跳过原生 SQL 语句,通过类似 Pandas 的筛选语句的方式来操作数据库查询,获取需要的数据子集。再将数据储存为 DataFrame 格式,利用 Pandas 进行精细化的二次处理,再通过上面提到的 Statsmodels 等第三方包进行计量处理。但是更加复杂的数据匹配融合,则另当别论了。官方地址:

https://www.sqlalchemy.org/

小编整理的经济学学生需要用的数据处理相关的包已经介绍完毕了,简单总结一下:(1)当你拿到数据是 CSV 一类格式的数据时,通过 Pandas 将文件读取为一个 DataFrame,然后对其按需求进行筛选和运算,得到自己需要的数据集。

(2)如果数据储存在 SQL 数据库中,通过Python 连接数据库,运用 ORM 框架或者 原生 SQL 语句对数据进行筛选,拿到自己需要子集后,读取到 DataFrame 中,在Pandas中再进行更加精细化的处理,得到真正需要的数据集。

(3)以上数据集可以通过 Python 的Statsmodels进行计量分析。

至此,一个数据处理 Workflow(工作流)在 Python 得到完整的体现。

根据本文的阅读的阅读数量和点赞情况,我们会考虑基础推出数据获取(爬虫)、数据可视化的相关内容哦。至于先做哪部分内容,也由亲爱的读者朋友们投票决定~

作者:王学习(黄胜蓝)

学经济为什么学python_工具&方法丨划重点 ! 经济学专业学Python需要学哪些内容?——数据分析处理必知必会的知识点...相关推荐

  1. 《渗透测试实践指南 必知必会的工具与方法 (原书第2版)》读书摘录

    ----------------------------------------------------------------------------分割线--------------------- ...

  2. mysql必学十大必会_MYSQL 学习(一)--启蒙篇《MYSQL必知必会》

    MYSQL必知必会 一. DDL 数据定义语言 Data Definition Language 是指CREATE,ALTER和DROP语句. DDL允许添加/修改/删除包含数据的逻辑结构,或允许用户 ...

  3. 风控成长之路---必知必会工具与业务

    关注 "番茄风控大数据",获取更多数据分析与风控大数据的实用干货. 偶然翻开多年前的笔记,当时踏入数据行业就是从人生的第一条select的代码开始.还好多年前做的笔记,网络云盘还为 ...

  4. mysql 必知必会导入官方数据库,出现错误,ASCII ‘\0‘ appeared in the statement解决方法

    最近在学MySQL必知必会,导入自带的数据库,出现如下错误: ERROR: ASCII '\0' appeared in the statement, but this is not allowed ...

  5. 猿创征文|计算机类学生必知必会的开发工具

    计算机类学生必知必会的开发工具目录 前言 一.浏览器工具 1.在线工具 2.插件扩展 二.优化电脑使用工具 1.notpad++ 2.plotplayer 3.Office Tool Plus--强大 ...

  6. Python 程序员必知必会的开发者工具

    Python 程序员必知必会的开发者工具 Python已经演化出了一个广泛的生态系统,该生态系统能够让Python程序员的生活变得更加简单,减少他们重复造轮的工作.同样的理念也适用于工具开发者的工作, ...

  7. MySQL必知必会 MySQL Administrator工具下载地址

    刚读必知必会,准备安装书中所说的 MySQL Administrator 这一重要工具,然而在官方的网站里并没有看到这个名字 csdn里找了一大圈也没找到,终于在知乎里发现了事情的真相 知乎指路:My ...

  8. 跟我一起学Redis之Redis持久化必知必会

    前言 Redis是出了名的速度快,那是因为在内存中进行数据存储和操作:如果仅仅是在内存中进行数据存储,那就会导致以下问题: •数据随进程退出而消失:当服务器断电或Redis Server进程退出时,内 ...

  9. 你学废了嘛?PyCharm 必知必会的 40个使用技巧

    大家好,今天给分享 PyCharm 40个使用技巧,喜欢记得收藏.分享.点赞.文末提供技术交流群. 干货推荐 深度盘点:这20套可视化炫酷大屏真香啊(附源码) 值得收藏,这6种制作竞赛动图的方法妙不可 ...

  10. 后端开发必知必学的 Linux 命令行大全

    今天跟大家推荐个 Linux 命令行教程:<The Linux Command Line>,中文译名:<Linux 命令行大全>. 该书作者出自自美国一名开发者,兼知名 Lin ...

最新文章

  1. UGUI世界转屏幕坐标
  2. 一口气,米哈游连告B站7次
  3. window 日志清除
  4. Nginx入门之两种handler函数的挂载方式
  5. git reset后本地拉取_一份值得收藏的 Git 异常处理清单
  6. 后台设置 datakeynames
  7. Xpath在选择器中正确,在代码中返回的是空列表问题
  8. python列表迭代器_python迭代器生成器-迭代器和list区别
  9. 已在页面完全加载前强制排版_公众号写作排版指南v2.0(适配Dark Mode)
  10. vs2015编译纯ASM文件
  11. 里氏替换原则-正方形是长方形
  12. Process finished with exit code -1073741819(0x0000005)
  13. 易基因 | 表观技术:单细胞及微量细胞全基因组重亚硫酸盐甲基化测序(scWGBS)
  14. 数学在计算机领域的应用,浅析数学在计算机领域中的重要性
  15. React.js介绍
  16. 俄罗斯无线认证-FAC认证
  17. bat获取管理员权限运行
  18. keil工程 freertos+emwin AC5编译器移植到AC6编译器
  19. 眼底病php 是什么病,眼底病_眼底病有哪些_眼底病怎么治疗_快速问医生
  20. 虚拟示波器-开天斧-STC8H8K64U核心功能实验板测试

热门文章

  1. 搜狗输入法遗留文件sogouInput删除方法(此方法适合大部分流氓软件)
  2. 好看流光风格个人主页源码
  3. echarts 热力图(中国地图版)
  4. 设置下载安装 桌面_电脑C盘快满了不要慌,别只知道清垃圾,这些设置也要改...
  5. 2022 年移动应用开发终极指南
  6. tp5设置session过期时间
  7. 遥感影像数据下载网站整理
  8. 《JavaScript 高级程序设计(第四版)》
  9. 管理类综合199资料整理
  10. 使用百度云OCR识别文字