作者 | Rebecca Vickery

译者 | 天道酬勤 责编 | 徐威龙

封图| CSDN 下载于视觉中国

数据科学家的主要作用是将机器学习、统计方法和探索性分析应用到数据中,来提取见解并帮助制定决策。 编程和计算工具的使用对该角色来说必不可少。 实际上,许多人都用这句名言描述该领域:数据科学家比任何软件工程师都更擅长统计科学,也比任何统计学家都更擅长软件工程。

如果你正踏上学习数据科学的旅程,或想要提高现有的技能,那么很有必要了解你所需的工具,以便有效的执行这个角色。

在过去的十年中,用于数据科学的Python逐渐流行起来,目前是该领域从业人员最流行的编程语言。在下面的文章中,作者将概述数据科学家使用的核心工具,这些工具主要侧重于基于Python的工具。

1、NumPy

NumPy是一个功能强大的库,用于使用Python执行数学和科学计算。 你会发现,许多其他数据科学库都将它作为运行的依赖项,因为它是基础科学软件包之一。

该工具以N维数组对象的形式与数据交互。 它提供了用于处理数组、执行数组运算、基本统计信息和常见的线性代数计算(例如叉和点积运算)的工具。

2、Pandas

Pandas库简化了Python中数据的操作和分析。 Pandas使用两个基本数据结构。 它们是Series(一个一维标记的数组)和一个DataFrame(一个二维标记的数据结构)。Pandas软件包具有多种工具,可以从各种来源读取数据,包括CSV文件和关系数据库。

一旦数据可以作为这些数据结构之一,Pandas会提供一系列非常简单的功能,用于清理、转换和分析数据。 这些工具包括处理丢失数据的内置工具、简单的绘图功能和类似Excel的数据透视表。

3、SciPy

SciPy是另一个核心科学计算Python库。 该库是为了与NumPy数组进行交互而构建的,并且依赖于NumPy提供的许多功能。 但是,尽管要使用这个包,你需要同时安装和导入NumPy,无需直接导入功能,因为该功能自动可用。

Scipy有效地建立在NumPy中可用的数学功能上。 在NumPy提供非常快速的数组操作的地方,SciPy可以处理这些数组并启用高级数学和科学计算的应用。

4、Scikit-learn

Scikit-learn是一个用户友好、全面而强大的机器学习库。 它包含将大多数机器学习技术应用于数据的功能,并且为每种功能都提供一致的用户界面。

该库还提供了用于数据清理、数据预处理和模型验证的工具。 它最强大的功能之一是机器学习管道的概念。 这些管道使机器学习中的各个步骤(例如预处理、训练等)能够链接到一个对象中。

5、Keras

Keras是Python API,旨在提供一个简单的接口来处理神经网络。像Tensorflow这样的流行深度学习库因不够友好而臭名昭著。  Keras位于这些框架之上,提供了一种与之交互的友好方式。

Keras支持卷积和循环网络,提供对多后端的支持,并且可以在CPU和GPU上运行。

6、Matplotlib

Matplotlib是Python中基本的绘图库之一。 许多其他流行的绘图库都依赖于Matplotlib API,包括Pandas绘图功能和Seaborn。

Matplotlib是一个非常丰富的绘图库,并包含用于创建各种图表和可视化效果的功能。 此外,它还包含创建动画和交互式图表的功能。

7、Jupyter notebooks

Jupyter notebooks是一个交互式Python编程接口。 在notebook环境中编写Python的好处在于,它允许你直接在程序中轻松呈现可视化、数据集和数据摘要。

这些notebooks也是共享数据科学工作的理想工具,因为它们可以通过直接在代码和可视化中包含标记文本来进行高度注释。

8、Python IDE

Jupyter notebooks是一个编写数据科学代码的有用地方。然而,在许多情况下,需要将代码写入可重用模块中。 如果你正在编写代码来将机器学习模型投入生产,则尤其需要如此。

在这些情况下,集成开发环境(IDE)非常有用,因为它们提供了许多有用的功能,例如集成的Python样式指南、单元测试和版本控制。 作者本人也使用PyCharm,但还有许多其他可用的开发工具。

9、Github

Github是一个非常流行的版本控制平台。 数据科学的基本原则之一是,代码和结果应该由你自己在将来的某个时间点或由其他人再现。 版本控制提供了一种机制,可以在线跟踪和记录对工作的更改。

此外,Github支持在项目上进行安全形式的协作。 这是通过一个人复制一个分支(实际上是项目的一个副本),在本地进行更改,然后将其上传以供审核,然后再将其集成到项目中来实现的。

本文简要介绍了数据科学工作的核心工具包,感谢你的阅读,希望这篇文章对你有用,欢迎评论区和我们讨论。

推荐阅读:另一种声音:容器是不是未来?
GitHub 疑遭中间人攻击,最大暗网托管商再被黑!
漫画:什么是 “模因” ?
1 分钟抗住 10 亿请求!某些 App 怎么做到的?| 原力计划
2020,国产AI开源框架“亮剑”TensorFlow、PyTorch
探索比特币独特时间链、挖矿费用及场外交易的概念
真香,朕在看了!

一个数据科学家需要哪些核心工具包?相关推荐

  1. 怎样成为一个数据科学家:针对大学毕业生的指导

    刚毕业的大学生们,恭喜你们!欢迎成为劳动者的一员.在你所有可能申请的工作中,"数据科学家"这个风骚无比的职位也许最难得到的一个,同时也许是 最具有潜在丰厚回报的一个.但是别害怕:D ...

  2. 想成为一个数据科学家却不知道从何下手?这份路线图带你打开数据科学大门!...

    作者 | Jane 译者 | 火火酱 责编 | 徐威龙 出品 | AI科技大本营(ID:rgznai100) 你想成为一名数据科学家吗?你对数据科学了解很多,想知道关于数据科学天花乱坠的宣传都在讲什么 ...

  3. 一个数据科学家对商学院的建议

    通过协助企业将数据驱动的方法运用到企业运营中,开发从数据中获得市场感知的产品,以及在高管层中推广智能数据文化,我有幸能与很多有才华的商学专业人共事,经历他们如何在颠覆行业的同时又使得组织价值得以保留. ...

  4. 论一枚数据科学家的自我修养

    作者 | 林荟 责编 | 何永灿 在回答这个问题之前,希望你先想想另外一个问题:为什么要成为数据科学家?当然,如果你是为了10万美元的年薪也无可厚非,但是我衷心希望你能将这个职业和自己的价值感挂钩.因 ...

  5. 麦肯锡:优秀数据科学家的5个特征!

    作者:Tessa Xie 本文约3700字,建议阅读5分钟本文总结了成为优秀数据科学家的五大关键准则. 近些年来,数据科学家这一岗位已经变得越来越炙手可热,也吸引了大批年轻人涌入渴望在激烈的竞争中抢占 ...

  6. 独家 | 麦肯锡教我的数据科学家的五大黄金法则

    作者:Tessa Xie 翻译:苗雨校对:欧阳锦本文约3700字,建议阅读5分钟本文总结了成为优秀数据科学家的五大关键准则. 图来源于Dan Dimmock在Unsplash上的拍摄 近些年来,数据科 ...

  7. 一篇文章告诉你如何成为数据科学家

    文章讲的是一篇文章告诉你如何成为数据科学家,通常来说,年轻人都很容易立志成为什么,例如成为一名科学家,然后又很快放弃.这一方面是因为摆在他们面前的诱惑太多,也因为成为一名科学家真的很不容易. 这一点放 ...

  8. 数据科学家最需要什么技能?

    本文整理了多个求职网站的信息,对雇主最希望数据科学家具备的技能进行了分析,并提供了一些建议. 数据科学家需要涉猎很多--机器学习.计算机科学.统计学.数学.数据可视化.通信和深度学习.这些领域中有几十 ...

  9. 深度解析数据分析、大数据工程师和数据科学家的区别

    数据越来越多的影响并塑造着那些我们每天都要交互的系统.不管是你使用Siri,google搜索,还是浏览facebook的好友动态,你都在消费者数据分析的结果.我们赋予了数据如此大的转变的能力,也难怪近 ...

最新文章

  1. Py:递归求解汉诺塔,简单的几行编程可以搞定很高层的三柱汉诺塔游戏
  2. 远程桌面连接CentOS7
  3. Micropython教程之TPYBoard制作蓝牙+红外循迹小车
  4. vue实现Excel文件的上传与下载
  5. C和指针之数组编程练习8(8皇后问题)
  6. 【BZOJ - 3224】普通平衡树(Splay模板题)
  7. 修改mysql密码时遇见ERROR 1064 (42000) You have an error in your SQL syntax; check the manual that correspo
  8. mongodb or and 条件拼凑 Query.And Query.Or
  9. C++笔记-获取光标(非鼠标坐标)在屏幕的位置
  10. MapServer使用笔记(一)
  11. Spring声明式事物DataSourceTransactionManager的使用与jdbcTemplate的使用
  12. Struts2 通配符使用
  13. 解决 dyld: Library not loaded:Reason: image not found
  14. 为什么可以做Shopyy独立站
  15. miniGUI源码分析:初始化
  16. 【数据可视化笔记】如何选择图表?
  17. python3制作中文词云_Python_制作中文词云
  18. webview加载网页,tel协议不会调出拨号盘?该如何处理
  19. AE学习笔记 日历翻阅效果
  20. 象yhoo相册那样在网页上操作图片(不完全)_1

热门文章

  1. linux远程登录 密钥,使用密钥认证机制远程登录Linux
  2. 4x4矩阵键盘工作原理及扫描程序_单片机人机交互矩阵按键
  3. java 注释 depredated_depredated是什么意思_depredated怎么读_depredated翻译_用法_发音_词组_同反义词-新东方在线英语词典...
  4. java 开发帮助_java的简单编程请帮助
  5. u8 附件上传后存放路径_织梦DedeCms附件按月份保存的修改方法
  6. 远程连接电脑_Python黑科技:在家远程遥控公司电脑,python+微信一键连接!
  7. 丘成桐:用10年时间培养一批本土一流基础科学人才
  8. 6年20多篇重磅论文,27岁浙大女博导太飒了~
  9. “双十一缔造者”张勇
  10. 那个悲伤的朋友,去了一趟菜场竟然活过来了