版权声明

© 2015 by Ryan Mitchell.

Simplified Chinese Edition, jointly published by O'Reilly Media, Inc. and Posts & Telecom Press, 2016. Authorized translation of the English edition, 2015 O'Reilly Media, Inc., the owner of all rights to publish and sell the same.

All rights reserved including the rights of reproduction in whole or in part in any form.

英文原版由 O'Reilly Media, Inc. 出版,2015。

简体中文版由人民邮电出版社出版,2016。英文原版的翻译得到 O'Reilly Media, Inc. 的授权。此简体中文版的出版和销售得到出版权和销售权的所有者——O'Reilly Media, Inc. 的许可。

版权所有,未得书面许可,本书的任何部分和全部不得以任何形式重制。

译者序

每时每刻,搜索引擎和网站都在采集大量信息,非原创即采集。采集信息用的程序一般被称为网络爬虫(Web crawler)、网络铲(Web scraper,可类比考古用的洛阳铲)、网络蜘蛛(Web spider),其行为一般是先“爬”到对应的网页上,再把需要的信息“铲”下来。O'Reilly 这本书的封面图案是一只穿山甲,图灵公司把这本书的中文版定名为“Python 网络数据采集”。当我们看完这本书的时候,觉得网络数据采集程序也像是一只辛勤采蜜的小蜜蜂,它飞到花(目标网页)上,采集花粉(需要的信息),经过处理(数据清洗、存储)变成蜂蜜(可用的数据)。网络数据采集可以为生活加点儿蜜,亦如本书作者所说,“网络数据采集是为普通大众所喜闻乐见的计算机巫术”。

网络数据采集大有所为。在大数据深入人心的时代,网络数据采集作为网络、数据库与机器学习等领域的交汇点,已经成为满足个性化网络数据需求的最佳实践。搜索引擎可以满足人们对数据的共性需求,即“我来了,我看见”,而网络数据采集技术可以进一步精炼数据,把网络中杂乱无章的数据聚合成合理规范的形式,方便分析与挖掘,真正实现“我征服”。工作中,你可能经常为找数据而烦恼,或者眼睁睁看着眼前的几百页数据却只能长恨咫尺天涯,又或者数据杂乱无章的网站中满是带有陷阱的表单和坑爹的验证码,甚至需要的数据都在网页版的 PDF 和网络图片中。而作为一名网站管理员,你也需要了解常用的网络数据采集手段,以及常用的网络表单安全措施,以提高网站访问的安全性,所谓道高一尺,魔高一丈……一念清净,烈焰成池,一念觉醒,方登彼岸,本书试图成为解决这些问题的一念,让你茅塞顿开,船登彼岸。

网络数据采集并不是一门语言的独门秘籍,Python、Java、PHP、C#、Go 等语言都可以讲出精彩的故事。有人说编程语言就是宗教,不同语言的设计哲学不同,行为方式各异,“非我族类,其心必异”,但本着美好生活、快乐修行的初衷,我们对所有语言都时刻保持敬畏之心,尊重信仰自由,努力做好自己的功课。对爱好 Python 的人来说,人生苦短,Python 当歌!简洁轻松的语法,开箱即用的模块,强大快乐的社区,总可以快速构建出简单高效的解决方案。使用 Python 的日子总是充满快乐的,本书关于 Python 网络数据采集的故事也不例外。网络数据采集涉及多个领域,内容包罗万象,因此本书覆盖的主题较多,涉及的知识面相对广阔,书中介绍的 Python 模块有 urllib、BeautifulSoup、lxml、Scrapy、PdfMiner、Requests、Selenium、NLTK、Pillow、unittest、PySocks 等,还有一些知名网站的 API、MySQL 数据库、OpenRefine 数据分析工具、PhanthomJS 无头浏览器以及 Tor 代理服务器等内容。每行到一处,皆是风景独好,而且作者也为每一个主题提供了深入研究的参考资料。不过,本书关于多进程(multiprocessing)、并发(concurrency)、集群(cluster)等高性能采集主题着墨不多,更加关注性能的读者,可以参考其他关于 Python 高性能和多核编程的书籍。总之,本书通俗易懂,简单易行,有编程基础的同学都可以阅读。不会 Python ?抽一节课时间学一下吧。

网络数据采集也应该有所不为。国内外关于网络数据保护的法律法规都在不断地制定与完善中,本书作者在书中介绍了美国与网络数据采集相关的法律与典型案例,呼吁网络爬虫严格控制网络数据采集的速度,降低被采集网站服务器的负担。恶意消耗别人网站的服务器资源,甚至拖垮别人网站是一件不道德的事情。众所周知,这已经不仅仅是一句“吸烟有害健康”之类的空洞口号,它可能导致更严重的法律后果,且行且珍惜!

译者联系方式——

QQ:2103755018

哈雷

2016 年 8 月

Python网络数据采集1(译者:哈雷)相关推荐

  1. Python网络数据采集9(译者:哈雷)

    第七章 清理脏数据 脏数据包含很多中,比如停用词,符号等等,可以用正则表达式来去除,当然反过来我们也能使用正则表达式来提取我们所需要的信息.正则表达式的简单用法可以参考其他博客,我的博客中也有.本书中 ...

  2. Python网络数据采集2-wikipedia

    Python网络数据采集2-wikipedia 随机链接跳转 获取维基百科的词条超链接,并随机跳转.可能侧边栏和低栏会有其他链接.这不是我们想要的,所以定位到正文.正文在id为bodyContent的 ...

  3. python数据采集框架_20190715《Python网络数据采集》第 1 章

    <Python网络数据采集>7月8号-7月10号,这三天将该书精读一遍,脑海中有了一个爬虫大体框架后,对于后续学习将更加有全局感. 此前,曾试验看视频学习,但是一个视频基本2小时,全部拿下 ...

  4. Python 网络数据采集(三):采集整个网站

    Python 网络数据采集(三):采集整个网站 1.采集整个网站 2. 完整代码 3. 下一节,继续优化这个"爬虫"程序 参见  作者:高玉涵  时间:2022.5.30 15:3 ...

  5. Python 网络数据采集(中文版)

    Python 网络数据采集(中文版) 链接:https://pan.baidu.com/s/1vXtIUXVFlGLBnA3BbWFAAg 提取码:f2a8

  6. 笔记之Python网络数据采集

    笔记之Python网络数据采集 非原创即采集 一念清净, 烈焰成池, 一念觉醒, 方登彼岸 网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息 通常, ...

  7. 《深入浅出Python》与《Python网络数据采集》读后感

    本学期在课程之外,自主计划学习Python语言以及爬虫知识.书籍方面,采用了O`Reilly的<深入浅出Python>与<Python网络数据采集>.前者用于Python语法的 ...

  8. python网络数据采集学习笔记-前言

    <Python网络数据采集>,英文名<web scraping with python>     Ryan Mitchell著     陶俊杰 陈小莉 译 那老僧道:" ...

  9. python网络数据爬取及分析_《Python网络数据采集》读后总结--第3章开始爬取数据及天善用户关系分析实例...

    这次介绍一下<Python网络数据采集>这本书的第3章内容(Chpt03.开始爬数据的内容), 使用了天善用户关系分析的示例来介绍一下具体实践. 1.第3章内容简介 1-getWikiLi ...

  10. 笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫

    笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫 本资料为最新整理高清带目录pdf,百度网盘下载~~~ 本资料为最新整理高清带目 ...

最新文章

  1. 数据库数据用Excel导出的3种方法
  2. kustomize+argo
  3. Spring ORM示例 - JPA,Hibernate,Transaction
  4. WORD如何修改自动编号的起始编号值?
  5. [Reinforcement Learning] Value Function Approximation
  6. 摄影构图如何脱离规则套路
  7. java解析marc乱码_国际C语言乱码大赛(IOCCC)的一个经典作品
  8. Java-Java基础—(6)面向对象高级
  9. 上网的时候总是掉线?该如何处理
  10. php 8bit 10bit 解码,求助:我想把10bit的MKV压制成8bitMP4
  11. 两个电阻的并联与串联
  12. Word文档中插入的图片显示不全、嵌入式图片显示不全解决方法,仅设置图片为单倍行距方法
  13. 2019学unity3d游戏开发必看
  14. 计算机端口概念理解(转载)
  15. 触点通RTC在线文档服务onlyoffice安装教程
  16. 2021年中国雇员对薪酬结构幸福感最低,管理类岗位雇员幸福感最高
  17. Docker高级篇之Mysql主从复制、Redis集群扩容缩容配置案例详解
  18. 柬埔寨已试用央行数字货币,有望本季度投入运营
  19. android自定义键盘 自定义身份证键盘
  20. 轻舟已过万重山——计算机达人成长之路(31)

热门文章

  1. 将CSDN文章下载为markdown文档
  2. 翰文付费打印后还有水印吗_翰文进度计划编制系统去除水印中文增强版
  3. Maven环境变量配置及是否成功
  4. 测试工程师/测试开发面试题整理
  5. idea打包jar运行时出现——jar中没有主清单属性(Invalid or corrupt jarfile)
  6. Java中什么不是线程状态_并发基础(四) java中线程的状态
  7. python EXCEL表格数据对比
  8. KYLO的Java基础知识总结(其二)
  9. 计算机管理格式化硬盘,如何将电脑硬盘格式化?笔记本硬盘格式化的操作方法...
  10. 道路测量xy坐标表示什么_cad里面什么叫绝对极坐标,相对极坐标,怎么区分他们?...