前 言

为什么要写这本书

我接触大数据技术的时间算是比较早的,四五年前当大数据这个词火遍互联网的时候,我就已经在实验室里学习编程及算法的知识。那个时候我一心想要做学术,每天阅读大量的英文文献,主要兴趣更多的是在机器人和人工智能上。研究生毕业时我本来想实现早先的愿望,继续攻读博士学位,不过思来想去觉得不应该错过大数据这个机会,所以毅然决定投入大数据行业中。

在工作之初,市面上已经存在一些介绍大数据相关技术的权威著作,其中很多还是很底层的或特定领域的专著。但即使是我这种自诩为“学院派”的人看这些书,头脑也会经常开小差。而大数据相关的技术又特别庞杂,包括计算框架、网络爬虫、机器学习算法、编程语言、数据库、文本分析、数据流水线的架构,甚至还包括前端可视化等众多方面,只有对它们都有涉猎,才能更好地胜任相关的工作。所以我读过很多的相关图书,这确实为我以后的工作打下了坚实的基础,不过随着工作内容的增加,以及新同事的到来,更多的问题相继涌现。首当其冲的就是,并不是每个人都有足够的基础来阅读这些专业著作,而且每个人的情况各不相同,有的是编程基础差,有的是数学基础差,有的是英语基础差,这也导致我的这套学习方法难以推广开来。所以我想写一本关于大数据技术的手册,其目的并不是为读者讲明白所有技术背后的原理,而是告诉读者某项技术可以用于哪些工作中,哪些工作需要哪些工具。

读完这本手册,可以帮助读者建立一个相对完整的大数据生态的概念,其中所讲的每一个工具都值得读者进行更深入的研究(你也可以像我一样,对其中的两三项进行非常深入的研究),也许在研究过程中,你会成为该领域的专家。如果现在正在看这本书的你是一位技术决策者,那么我希望本书的介绍能帮助你下定决心使用其中的某项技术,比如写作全书的Python语言就是一门非常好的数据处理语言,它能快速编码,且具有强大的字符串处理能力,拥有大量成熟的大数据类库,这些都使Python成为数据科学领域无可争议的No. 1语言;或许你的团队可以仅用Python编写大规模分布式爬虫程序(虽然本书介绍的是单机的简化版)就能大幅度地提升工作的效率。Scrapy可能是爬虫领域最有名的框架了,你也可以像我一样实现属于你自己的版本。当然这本书也是一本Python入门书,所以读者无须担心阅读门槛,你可以从零基础开始学习,并体验整个学习过程所带来的愉悦。

目 录

[第0章 发现、出发

0.1 何谓数据科学 ](https://yq.aliyun.com/articles/119372/)

0.1.1 海量的数据与科学的方法

0.1.2 数据科学并不是新概念

0.1.3 数据科学是一个系统工程

0.2 如何成为数据科学家

0.3 为什么是Python

0.4 一个简单的例子

[第1章 Python介绍

1.1 Python的版本之争 ](https://yq.aliyun.com/articles/119389/)

1.2 Python解释器

1.2.1 Mac OS X系统

1.2.2 Linux系统

1.2.3 Windows系统

1.3 第一段Python程序

1.4 使用Python shell调试程序

[第2章 Python基础知识

2.1 应当掌握的基础知识 ](https://yq.aliyun.com/articles/119418/)

2.1.1 基础数据类型

2.1.2 变量和赋值

2.1.3 操作符及表达式

2.1.4 文本编辑器

2.2 字符串

2.3 获取键盘输入

2.4 流程控制

2.4.1 条件判断

2.4.2 循环

2.4.3 缩进、空白和注释

python数据科学实践指南_《Python数据科学实践指南》——导读-阿里云开发者社区...相关推荐

  1. python的requests模块功能_《Python数据可视化编程实战》—— 1.7 安装requests模块-阿里云开发者社区...

    本节书摘来异步社区<Python数据可视化编程实战>一书中的第1章,第1.7节,作者:[爱尔兰]Igor Milovanović,更多章节内容可以访问云栖社区"异步社区" ...

  2. mysql 客户服务号获取_《MySQL排错指南》——1.4 获取查询信息-阿里云开发者社区...

    本节书摘来自异步社区出版社<MySQL排错指南>一书中的第1章,第1.4节,作者:[美]Sveta Smirnova(斯维特 斯米尔诺娃),更多章节内容可以访问云栖社区"异步社区 ...

  3. python列表做参数传值_python不定参数传值怎么做-问答-阿里云开发者社区-阿里云...

    使用arg_name定义的位置参数,表示任意多个位置参数:Python标准库中习惯使用args来命名不定长位置参数,当然我们可以自定义 这个名称:不定长位置参数的类型为元组: Python 允许在形参 ...

  4. python刷新cdn_api 刷新是什么-和api 刷新相关的问题-阿里云开发者社区

    关于 api 刷新的搜索结果 回答 详细解答可以参考官方帮助文档 登陆CDN控制台,单击 刷新,进行刷新配置. URL刷新 原理:通过提供文件URL的方式,强制CDN节点回源拉取最新的文件. 任务生效 ...

  5. python键盘怎么输入双引号_python中怎么输入引号 -问答-阿里云开发者社区-阿里云...

    Python中的引号可分为单引号.双引号和三引号. 在Python中我们都知道单引号和双引号都可以用来表示一个字符串,比如 str1 = 'python' str2 = "python&qu ...

  6. cdn与gnd接地_接地-和接地相关的内容-阿里云开发者社区

    又要放大招了 监控中干扰如何消除你可知道? 安防监控现已成为咱们安防作业中最重要的组成有些之一.从高清的前端摄像机,到启用愈加便当的网络传输监控,再到后端愈加微弱的存储与高清的视频显现,单从这种投入的 ...

  7. 阿里巴巴400集python教程_递归的练习课程 | Python从入门到精通:高阶篇之十二-阿里云开发者社区...

    上节课留了两个练习,这节课给大家讲一下,同时巩固一下递归的用法. 练习1.创建一个函数 power 来为任意数字做幂运算 n* * i 用数据10^5举例说明一下: # 10 ** 5 = 10 * ...

  8. python周天为一周的开始_周天-和周天相关的内容-阿里云开发者社区

    商朝·商高·勾三股四玄五·勾股定理 昔者周公问于商高曰:"窃闻乎大夫善数也,请问昔者包牺立周天历度--夫天可不阶而升,地不可得尺寸而度,请问数安从出?" 商高曰:"数之法 ...

  9. python读取mssql文件_python 读取mssql数据库中文的搜索结果-阿里云开发者社区

    sphinx 配置文件全解析 sphinx的配置文件是在配置的时候最容易出错的了: 我们先要明白几个概念: source:数据源,数据是从什么地方来的. index:索引,当有数据源之后,从数据源处构 ...

最新文章

  1. CC2540 OSAL 学习其中原理,以及 给任务 添加 一个事件(定时发送串口消息)
  2. JAVA基础代码分享--学生成绩管理
  3. 离散数学 第二章 谓词逻辑 2-1 谓词的概念与表示
  4. OSI网络体系结构各层协议:
  5. java8 遍历目录_使用java8API遍历过滤文件目录及子目录及隐藏文件
  6. MariaDB10 主从配置
  7. 伦斯勒理工学院计算机科学本科,【择校解读】伦斯勒理工学院(RPI)院校指南...
  8. 2017.4.22 hankson的趣味题 思考记录
  9. 快速从小白到大牛的Python学习路线
  10. 蓝桥杯2019年第十届C/C++省赛A组第四题-迷宫
  11. JAVA程序员面试32问(价值8k)你认同吗?
  12. 关于STM32xE系列芯片STOP模式下使用RTC唤醒所遇到的问题记录
  13. 台式电脑接路由器步骤_无线路由器连接台式电脑的方法
  14. 新电脑win10系统的一个BUG
  15. 2021年秋招面经:上海禾赛提前批(FPGA设计)
  16. 《星际争霸2》【技术分析】星际争霸2的一些技术特性
  17. 6.6 在图表上显示最大值和最小值 [原创Excel教程]
  18. VCC、VDD、VSS、GND等等V某某究竟是什么意思
  19. 优信拍集团php面试题_【优信拍PHP高级工程师面试】不错,主管眼光很犀利,而且不扯皮。-看准网...
  20. 网站域名在微信内显示已停止访问此页面解决方案,绿标防红链接生成,域名跳转链接生成

热门文章

  1. 安卓机更新系统会卡吗_【ios13更新】最全的ios13系统的攻略,最大一次更新,升级绝对不会后悔吗?来看看...
  2. 利用Python编写网络爬虫下载文章
  3. 离散对数(关于方程x^A=B(mod C)的解)
  4. HDU4006(The kth great number)
  5. ST算法解决RMQ问题
  6. Catalan数推导及应用
  7. 外挂学习之路(1)--- bp send 回溯寻找关键call
  8. TCP 和 UDP 绑定同一端口通信的解释
  9. MySQL 锁与MVCC :数据库的锁、MVCC、当前读、快照读、锁算法、死锁
  10. 武汉疫情之后,中国即将发生的10大变化!(强烈推荐)