前言


这本书我是真的强烈推荐的。

本书讲解了如何使用 Python 来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用 Scarpy 和 Portia 来进行数据抓取,并在最后使用本书介绍的数据抓取技术对几个真实的网站进行了抓取,旨在帮助读者活学活用书中介绍的技术。

本书适合有一定 Python 编程经验,而且对爬虫技术感兴趣的读者阅读。

关于作者:Richard Lawson 来自澳大利亚,毕业于墨尔本大学计算机科学专业。华业后,他创办了一家专注于网络爬电的公司,为超过 50个国家的业务提供远程工作。他精通于世界语,可以使用汉语和韩语对话,并且积极投身于开源软件。他目前在牛津大学攻读研究牛学位,并利用业余时间研发自丰无人机。

本书内容

第1章,网络爬虫简介,介绍了网络爬虫,并讲解了爬取网站的方法。

第2章,数据抓取,展示了如何从网页中抽取数据。

第了章,下载缓存,学习了如何通过缓存结果避免重复下载的问题。

第4章,并发下载,通过并行下载加速数据抓取。

第5 章,动态内容,展示了如何从动态网站中抽取数据。

第6章,表单交互,展示了如何与表单进行交互,从而访问你需要的数据。

第7章,验证码处理,阐述了如何访问被验证码图像保护的数据。

第8章,Scrapy,学习了如何使用流行的高级框架 Scrapy。

第9章,总结,对我们介绍的这些网络爬虫技术进行总结。


网络爬虫何时有用

假设我有一个鞋店,并且想要及时了解竞争对手的价格。我可以每天访问他们的网站,与我店铺中鞋子的价格进行对比。但是,如果我店铺中的鞋类品种繁多,或是希望能够更加频繁地查看价格变化的话,就需要花费大量的时间,甚至难以实现。再举一个例子,我看中了一双鞋,想等它促销时再购买。我可能需要每天访问这家鞋店的网站来查看这双鞋是否降价,也许需要等待几个月的时间,我才能如愿盼到这双鞋促销。上述这两个重复性的手工流程,都可以利用本书介绍的网络爬虫技术实现自动化处理。

网络爬虫是否合法

网络爬虫目前还处于早期的蛮荒阶段,“允许哪些行为”这种基本秩序还处于建设之中。从目前的实践来看,如果抓取数据的行为用于个人使用,则不存在问题:而如果数据用于转载,那么抓取的数据类型就非常关键了。世界各地法院的一些案件可以帮助我们确定哪些网络爬虫行为是允许的。在Feist Publications, Inc.起诉 Rural Telephone Service Co.的案件中,美国联邦量高法院裁定抓取并转载真实数据(比如,电话清单)是允许的。而在澳大利亚,Telsira Corporation Limited 起诉 Phone Direciories Compary PoLid 这一类似案件中,则裁定只有拥有明确作者的数据,才可以获得版权此外,在欧盟的ofir.dk起诉home.dk 一案中,最终裁定定期抓取和深度链接是允许的。

这些案件告诉我们,当抓取的数据是现实生活中的真实数据(比如,营业地址、电话清单)时,是允许转载的。但是,如果是原创数据(比如,意见和评论),通常就会受到版权限制,而不能转载。无论如何,当你抓取某个网站的数据时,请记住自己是该网站的访客,应当约束自己的抓取行为,否则他们可能会封禁你的 IP,甚至采取更进一步的法律行动。这就要求下载请求的速度需要限定在一个合理值之内,并且还需要设定一个专属的用户代理来标识自己。

读者福利:如果你对Python感兴趣,这套python学习资料可能你需要,文末可以免费领取,

对于0基础小白入门:

如果你是零基础小白,想快速入门Python是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括:Python永久使用安装包、Python web开发,Python爬虫,Python数据分析,人工智能、机器学习等教程。带你从零基础系统性的学好Python!

零基础Python学习资源介绍

用python如何写网络爬虫?相关推荐

  1. python编写爬虫的步骤-python学习: 写网络爬虫程序的三个难点

    写爬虫,是一个非常考验综合实力的活儿.有时候,你轻而易举地就抓取到了想要的数据:有时候,你费尽心思却毫无所获. 好多Python爬虫的入门教程都是一行代码就把你骗上了"贼船",等上 ...

  2. 网页爬虫python代码_《用python写网络爬虫》完整版+源码

    原标题:<用python写网络爬虫>完整版+源码 <用python写网络爬虫>完整版+附书源码 本书讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中 ...

  3. 《用Python写网络爬虫》——1.5 本章小结

    本节书摘来自异步社区<用Python写网络爬虫>一书中的第1章,第1.5节,作者 [澳]Richard Lawson(理查德 劳森),李斌 译,更多章节内容可以访问云栖社区"异步 ...

  4. python网络爬虫权威指南 豆瓣_豆瓣Python大牛写的爬虫学习路线图,分享给大家!...

    豆瓣Python大牛写的爬虫学习路线图,分享给大家! 今天给大家带来我的Python爬虫路线图,仅供大家参考! 第一步,学会自己安装python.库和你的编辑器并设置好它 我们学习python的最终目 ...

  5. 用Python写网络爬虫pdf

    下载地址:网盘下载 作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用.使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站. <用Pyt ...

  6. 用python写网络爬虫 第2版 pd_用Python写网络爬虫(第2版)

    用Python写网络爬虫(第2版)电子书 畅销的Python网络爬虫发实战图书全新升级版,上一版年销量近40000册. 针对Python 3.6版本编写. 提供示例完整源码和实例网站搭建源码,确保用户 ...

  7. 网络爬虫python的特点有哪些_为什么写网络爬虫天然就是择Python而用

    关于这个问题,老猿就先从自己的经历讲起吧.很多年前,大约11年前,老猿我接手了一个搜索引擎的网络爬虫,那是一个用C++写的通用搜索引擎的爬虫.C++的语言,多线程的实现,爬虫的运行效率非常高.但是,找 ...

  8. python爬取微博恶评_详解用python写网络爬虫-爬取新浪微博评论

    新浪微博需要登录才能爬取,这里使用m.weibo.cn这个移动端网站即可实现简化操作,用这个访问可以直接得到的微博id. 分析新浪微博的评论获取方式得知,其采用动态加载.所以使用json模块解析jso ...

  9. 《用Python写网络爬虫第2版》PDF中英文+代码分析

    互联网包含了迄今为止最有用的数据集,并且大部分可以免费公开访问.但是,这些数据难以复用.它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用.从网页中抽取数据的过程又称为网络爬虫,随着越来越多的信息 ...

最新文章

  1. 数据中心节能改造刻不容缓成本高昂怎么破?
  2. leetcode 384. Shuffle an Array | 384. 打乱数组(Fisher-Yates洗牌算法)
  3. SAP CRM和Cloud for Customer的扩展字段元数据
  4. 【转】2.3【MySQL】运行原理(三)InnoDB 逻辑存储结构
  5. python 分类变量转为哑变量_python 虚拟变量
  6. 耳挂式蓝牙耳机原理_蓝牙真无线耳机MP3功能二合一 wedoking W-607耳机评测
  7. windows 9X, 2000, xp所有版本注册表设置(1)
  8. sqlserver存储过程加锁后怎么解锁_MySQL 的加锁处理,你都了解的一清二楚了吗?...
  9. leaflet+D3
  10. wordpress使用又拍云存储实现CDN加速使用心得
  11. python全栈工程师熟练的技巧
  12. 深大校园网掉线/Drcom掉线/使校园网保持在线V2.0+Linux端Drcom登录方法(宿舍区教学区)
  13. SDH,OTN,IP,MPLS,ATM网络介绍
  14. 简单2步轻松查找、免费下载国内外数据集?在OpenDataLab 真的可以
  15. JavaScript实现炸金花
  16. python四瓣花图形_Python竟能画这么漂亮的花,帅呆了(代码分享)
  17. GNU Radio学习一 :什么是GUN Radio
  18. win10安装MySQL解压缩版 8.0.15(非转载,较详细)
  19. 关于excel表格输入身份证的问题
  20. S120驱动器基本调试步骤总结

热门文章

  1. android 5.1 白名单,iqoo5如何将应用加密 iqoo5一键设置应用白名单方法分享
  2. java使用POI根据word模板生成文档,并且根据参数值实现换行
  3. 联想服务器自动关机_联想笔记本电脑自动关机
  4. “是啊,不是姓朱的那种败类就好,
  5. java验证苹果支付收据
  6. SF19 | 基于VWAP(成交量加权平均价格)开发Alpha均线增强策略
  7. Linux系统学习 -- 信号
  8. spring(三) spring与mybatis整合
  9. Ubuntu安装JDK并配置JAVA环境变量
  10. ios自用url整理