来源:专知
本文附论文,建议阅读5分钟
这篇经过彻底修改的指南演示了命令行的灵活性如何帮助您成为更高效和高效的数据科学家。

这篇经过彻底修改的指南演示了命令行的灵活性如何帮助您成为更高效和高效的数据科学家。您将学习如何组合小型但功能强大的命令行工具来快速获取、清理、探索和建模您的数据。首先,作者Jeroen Janssens提供了一个Docker映像,其中包含超过100个Unix强大工具——无论您是在Windows、macOS还是Linux上工作都很有用。

您将很快发现为什么命令行是一种敏捷的、可伸缩的和可扩展的技术。即使您习惯于使用Python或R处理数据,您也将了解如何通过利用命令行的强大功能来极大地改进数据科学工作流。本书是数据科学家、分析师、工程师、系统管理员和研究人员的理想读物。

  • 从网站、API、数据库和电子表格中获取数据

  • 对文本、CSV、HTML、XML和JSON文件执行擦洗操作

  • 研究数据,计算描述性统计数据,并创建可视化

  • 管理您的数据科学工作流

  • 从一行程序和现有的Python或R代码创建您自己的工具

  • 并行和分发数据密集型管道

  • 用降维、回归和分类算法建模数据

  • 利用Python、Jupyter、R、RStudio和Apache Spark中的命令行

https://datascienceatthecommandline.com/2e/index.html

【开放书】《命令行数据科学指南(第二版)》相关推荐

  1. 《Python数据科学指南》——1.8 使用迭代器

    本节书摘来自异步社区<Python数据科学指南>一书中的第1章,第1.8节,作者[印度] Gopi Subramanian ,方延风 刘丹 译,更多章节内容可以访问云栖社区"异步 ...

  2. 《Python数据科学指南》——1.17 使用映射函数

    本节书摘来自异步社区<Python数据科学指南>一书中的第1章,第1.17节,作者[印度] Gopi Subramanian ,方延风 刘丹 译,更多章节内容可以访问云栖社区"异 ...

  3. 《Python数据科学指南》——1.16 使用lambda创造匿名函数

    本节书摘来自异步社区<Python数据科学指南>一书中的第1章,第1.16节,作者[印度] Gopi Subramanian ,方延风 刘丹 译,更多章节内容可以访问云栖社区"异 ...

  4. 《Python数据科学指南》——1.23 采用键排序

    本节书摘来自异步社区<Python数据科学指南>一书中的第1章,第1.23节,作者[印度] Gopi Subramanian ,方延风 刘丹 译,更多章节内容可以访问云栖社区"异 ...

  5. ftp命令行登陆 用法指南

    转载:ftp命令行登陆 用法指南 1. ftp open *.*.*.* 这时会提示输入用户名和密码,输入完即可登陆. 可以用 dir或者ls命令查看当前目录内容 可以用 ascii或者binary改 ...

  6. 《UML用户指南第二版》再次温读笔记(一)(downmoon)

    前言:最近,花点时间重读(也不知道是第几遍了)<UML用户指南第二版>这本书,感觉虽然对WEB程序开发而言,UML的应用是一个极大的挑战,然而,其中蕴含的基本原理和指导性却是历久弥新,耐人 ...

  7. 程序员代码面试指南第二版 4.猫狗队列

    welcome to my blog 程序员代码面试指南第二版 4.猫狗队列 题目描述 题目描述 实现一种猫狗队列的结构,要求如下: 1. 用户可以调用 add 方法将 cat 或者 dog 放入队列 ...

  8. QTP自动化测试权威指南(第二版)

    <QTP自动化测试权威指南(第二版)> 基本信息 原书名:QuickTest Professional Unplugged: 2nd Edition 作者: (印度)Tarun Lalwa ...

  9. 入行数据科学,这些书一定要看

    近日,在GitHub上看到一张大而全的数据科学书单图,该图片分成七大领域,各自都有相对应的推荐书单,本文就为为各位推荐几本书,希望能够有助于你在大数据方面的学习. 大数据已经成为这个时代的标志,如何理 ...

最新文章

  1. PHP5 $this self parent static的区别
  2. 【转】POJ 2104 K-th Number(2)
  3. java堆算法,Java 基本功04-JVM-Java堆详解和GC算法
  4. java 排序_Java中常见的排序算法有哪些?---选择排序
  5. python基础——if语句/条件控制
  6. 商业游戏美术成本已超1000万,研发门槛连续飙升,CP砸不起怎么办?
  7. EXCHANGE 2010 DAG 实验总结
  8. Python学习系列:PyCharm CE 安装与测试
  9. php对帖子分类,php – MySQL:从类别中获取帖子
  10. C#LeetCode刷题之#349-两个数组的交集(Intersection of Two Arrays)
  11. javascript基础知识系列:eval()
  12. PAIP.国内软件公司的现状及解决.txt
  13. MATLAB实现多元正态Copula分布
  14. 360浏览器html5无法播放,win7系统360浏览器播放不了视频的解决方法
  15. 如何选择频谱监测的天线?
  16. Microsoft-Yahoo: Not Again. Why Again?
  17. hdu 6438 - 贪心
  18. 营销大师马斯克又发话了:芯片短缺不要怕,明年有望可解决
  19. 花旗软件DWH实习回顾
  20. wannacry 勒索病毒_WannaCry:勒索软件尸检

热门文章

  1. 404未找到是什么意思_为什么老遇上404 not found?你懂的
  2. linux 切换python版本_Linux下python默认版本切换成替代版本(示例代码)
  3. wasserstein距离_EMD(earth mover#x27;s distances)距离
  4. android socket_盘点Android常用Hook技术
  5. java内省操作类的属性
  6. Java连接Oracle数据库常用方法
  7. Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
  8. nginx三大功能(之二负载均衡)
  9. 解决“SCRIPT257: 由于出现错误 80020101 而导致此项操作无法完成。 ”
  10. 社区企业云操作系统 (不错的开源虚拟化系统,期待中)