爬虫,是人工智能行业获取数据时最方便、最常用的一种手段。爬虫,也是很多人文社科领域内,获取数据的有效方法,比如用户行为研究、传播学研究、文本分析等等。学好爬虫,找数据不求人。

厚厚的一本书,一共包括了17章,内容丰富:

第1章介绍学习爬虫前需要了解的基础知识,如HTTP、网页结构、多线程等等,适合初学者。

第2章介绍了最基本的请求库和正则表达式的基本用法。

第3章介绍了网页解析库,比如BeautifulSoup、XPath、pyquery、parsel,可以使提取信息更加方便快捷。

第4章介绍了数据存储的常见形式及数据库存储操作,包括txt文件、jason文件、csv文件的存储,MySQL,MongoDB、Redis的基本存储操作等等。

第5章介绍了Ajax数据爬取,适用于有些网页是用Ajax请求API接口的方式加载的,所以常规方法无法获取。

第6章讲异步爬虫,爬取效率大大提高。

第7章讲动态渲染页面的爬取,介绍了使用Selenium、Splash、Playwright等工具模拟浏览器来进行数据爬取。

第8—11章分别介绍了验证码的处理方法、代理的使用、模拟浏览器登陆、JS逆向等知识。

第12章介绍了App的爬取方法,包括基本的抓包软件如何使用等等。

第13章介绍了Android逆向的相关知识。

第14章介绍了页面智能解析技术,让我大开眼界,推荐阅读!

第15章介绍了目前使用最广泛的Scrapy爬虫框架及用法,包括其基本架构、原理及各个组件的使用方法,以及对接Selenium等的方法。

第16-17章介绍了分布式爬虫,包括基本原理、实现方法、部署及管理,极大提高爬虫效率。

作者还开发了一个爬虫案例平台,覆盖了现在爬虫和反爬虫相关的大多数技术,在这也强烈推荐一下,这么用心的书籍应该被大家看到!

Python3网络爬虫开发实战(第二版)相关推荐

  1. 《Python3网络爬虫开发实战(第二版)》上市了!!!!

    " 阅读本文大概需要 5 分钟. " 告诉大家一个好消息:我的好朋友崔庆才老师的<Python3网络爬虫开发实战(第二版)>现在正式上市了!!!! 没错,就是这本: 就 ...

  2. 《Python3网络爬虫开发实战(第二版)》内容介绍

    这是「进击的Coder」的第 505 篇分享 作者:崔庆才 大家好,本节首先来预告下即将出版的<Python3网络爬虫开发实战(第二版)>的主要内容. 由于我已经把书的总体的内容介绍写在了 ...

  3. 《Python3 网络爬虫开发实战(第二版)》第二波赠书获奖名单公布~​

    " 阅读本文大概需要 3 分钟. " 上周我搞了一个赠书活动,详情见:618 来了!<Python3网络爬虫开发实战(第二版)>第二波赠书活动也来了!,真的非常感谢大家 ...

  4. 我的新书《Python3网络爬虫开发实战(第二版)》获得 Python 之父的推荐了!

    这是「进击的Coder」的第 492 篇分享 作者:崔庆才 别急,这书现在还没上市哈,但很快了! 最近朋友们一直在催:你的第二版爬虫书怎么还不出来啊,我都等了好几年了!你不是前几个月就完稿了吗?咋这么 ...

  5. 【Python3网络爬虫开发实战】4-解析库的使用-3 使用pyquery

    在上一节中,我们介绍了Beautiful Soup的用法,它是一个非常强大的网页解析库,你是否觉得它的一些方法用起来有点不适应?有没有觉得它的CSS选择器的功能没有那么强大? 如果你对Web有所涉及, ...

  6. 《崔庆才Python3网络爬虫开发实战教程》学习笔记(3):抓取猫眼电影榜单TOP100电影,并存入Excel表格

    本篇博文是自己在学习崔庆才的<Python3网络爬虫开发实战教程>的学习笔记系列,如果你也要这套视频教程的话,关注我公众号[小众技术],关注后回复[PYTHON],无套路免费送你一个学习大 ...

  7. [Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图

    [Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图 学习笔记--爬取今日头条街拍美图 准备工作 抓取分析 实战演练 学习笔记–爬取今日头条街拍美图 尝试通过分析Ajax请求来抓取 ...

  8. 【Python3网络爬虫开发实战】3-基本库的使用-4抓取猫眼电影排行

    本节中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容.requests比urllib使用更加方便,而且目前我们还没有系统学习HTML解析库,所以这里就选用正则表达式来作为 ...

  9. [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品

    在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...

  10. 【Python3网络爬虫开发实战】3-基本库的使用 1.2-处理异常

    前一节我们了解了请求的发送过程,但是在网络不好的情况下,如果出现了异常,该怎么办呢?这时如果不处理这些异常,程序很可能因报错而终止运行,所以异常处理还是十分有必要的. urllib的error模块定义 ...

最新文章

  1. 让Team Exploer自动登录TFS
  2. 【数据结构与算法】之深入解析“两两交换链表中的节点”的求解思路与算法示例
  3. nginx源码初读(1)--让烦恼从数据结构开始(ngx_cdecl/ngx_int/ngx_log)
  4. python note 29 线程创建
  5. Depth-first Search深度优先搜索专题7
  6. 32. 脱壳篇-简单带壳的程序、反调试带壳的程序(堆栈平衡原理找OEP、代码段设置断点)
  7. 项目优化经验mdash;mdash;垃圾回收导致的性能问题[z]
  8. HTML:雪碧图、高度塌陷和序号选择器
  9. 常用数据库高可用和分区解决方案(2) — MongoDB篇
  10. 【必看】AVAudioPlayer播放声音时加入了后台播放功能,看懂了吗?
  11. 大学英语综合教程四 Unit 7 课文内容英译中 中英翻译
  12. 玩转力扣 - LeetCode进度倒计数表
  13. 网络钓鱼(Phishing)攻击方式
  14. Android——超简单悬浮窗使用教程
  15. 手机上照片大小怎么改?如何用手机修改图片尺寸?
  16. HighwayNet网络详解及复现
  17. 车载以太网 - SomeIP - 详细解析 - 02
  18. unity3d序列帧动画无法显示坑
  19. n维椭球体积公式_物质的量浓度计算公式都有什么?
  20. Jetpack Paging3 基本使用

热门文章

  1. 用计算机玩游戏教程,Wegame怎么用手机玩电脑游戏 Wegame手机玩电脑游戏教程
  2. 看操作系统是x84还是x64啊
  3. 服务端使用GZIP压缩数据
  4. Android中的封装流式布局FlowLayout
  5. 华为HCIA认证考试简介
  6. java英语面试自我介绍_java的英文面试自我介绍
  7. /deep/ >>> ::v-deep的用法
  8. 直流侧电力有源滤波器滤除谐波干扰的原理及方案
  9. 解决 Mounty显示问题:the volume my passport is not mounted currently at the specified path Please remove
  10. 金融证券基础(三)----回撤