文件目录:

书本介绍:

书名

精通Python网络爬虫:核心技术、框架与项目实战

作者

韦玮著

出版社

机械工业出版社

出版日期

2017

内容简介

本书从系统化的视角,为那些想学习Python网络爬虫或者正在研究Python网络爬虫的朋友们提供了一个全面的参考,让读者可以系统地学习Python网络爬虫的方方面面,在理解并掌握了本书的实例之后,能够独立编写出自己的Python网络爬虫项目,并且能够胜任Python网络爬虫工程师相关岗位的工作。

题名/责任者:精通Python网络爬虫:核心技术、框架与项目实战/韦玮著

出版发行项:北京:机械工业出版社,

2017ISBN及定价:978-7-111-56208-5/CNY69.00

载体形态项:X, 294页:图;24cm

并列正题名:&Deep in python web crawler:core technology、frame and practices

个人责任者:韦玮 著

学科主题:软件工具-程序设计

中图法分类号:TP311.561

一般附注:华章IT

提要文摘附注:本书分为4个部分: 第一部分对网络爬虫做了概要性的介绍, 主要介绍了网络爬虫的常识和所涉及的技术概览 ; 第二部分是本书的重点之一, 详细讲解了网络爬虫的核心技术, 包括网络爬虫的实现原理与实现技术、Urllib库和URLError库的异常处理、正则表达式与Cookie的使用、Fiddler的使用、爬虫的浏览器伪装技术、爬虫的定向爬取技术等 ; 第三部分讲解了最流行的爬虫框架Scrapy的使用、架构和高级应用, 是目前关于Scrapy最详细的讲解 ; 第四部分是3个实战案例, 讲解了博客爬虫、图片爬虫和模拟登陆爬虫的编写方法。

豆瓣简介:

为什么写这本书

网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中。在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储。

随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫。在大数据时代,聚焦网络爬虫的应用需求越来越大。

目前在国内Python网络爬虫的书籍基本上都是从国外引进翻译的,国内的本版书籍屈指可数,故而我跟华章的副总编杨福川策划了这本书。本书的撰写过程中各方面的参考资料非常少,因此完成本书所花费的精力相对来说是非常大的。

本书从系统化的视角,为那些想学习Python网络爬虫或者正在研究Python网络爬虫的朋友们提供了一个全面的参考,让读者可以系统地学习Python网络爬虫的方方面面,在理解并掌握了本书的实例之后,能够独立编写出自己的Python网络爬虫项目,并且能够胜任Python网络爬虫工程师相关岗位的工作。

同时,本书的另一个目的是,希望可以给大数据或者数据挖掘方向的从业者一定的参考,以帮助这些读者从海量的互联网信息中爬取需要的数据。所谓巧妇难为无米之炊,有了这些数据之后,从事大数据或者数据挖掘方向工作的读者就可以进行后续的分析处理了。

本书的主要内容和特色

本书是一本系统介绍Python网络爬虫的书籍,全书注重实战,涵盖网络爬虫原理、如何手写Python网络爬虫、如何使用Scrapy框架编写网络爬虫项目等关于Python网络爬虫的方方面面。

本书的主要特色如下:

系统讲解Python网络爬虫的编写方法,体系清晰。

结合实战,让读者能够从零开始掌握网络爬虫的基本原理,学会编写Python网络爬虫以及Scrapy爬虫项目,从而编写出通用爬虫及聚焦爬虫,并掌握常见网站的爬虫反屏蔽手段。

有配套免费视频,对于书中的难点,读者可以直接观看作者录制的对应视频,加深理解。

拥有多个爬虫项目编写案例,比如博客类爬虫项目案例、图片类爬虫项目案例、模拟登录爬虫项目等。除此之外,还有很多不同种类的爬虫案例,可以让大家在理解这些案例之后学会各种类型爬虫的编写方法。

总之,在理解本书内容并掌握书中实例之后,读者将能胜任Python网络爬虫工程师方向的工作并学会各种类型网络爬虫项目的编写。此外,本书对于大数据或数据挖掘方向的从业者也非常有帮助,比如可以利用Python网络爬虫轻松获取所需的数据信息等。

本书面向的读者

Python网络爬虫初学者

网络爬虫工程师

大数据及数据挖掘工程师

高校计算机专业的学生

其他对Python或网络爬虫感兴趣的人员

.  如何阅读本书

本书分为四篇,共计20章。

第一篇为理论基础篇(第1~2章),主要介绍了网络爬虫的基础知识,让大家从零开始对网络爬虫有一个比较清晰的认识。

第二篇为核心技术篇(第3~9章),详细介绍了网络爬虫实现的核心技术,包括网络爬虫的工作原理、如何用Urllib库编写网络爬虫、爬虫的异常处理、正则表达式、爬虫中Cookie的使用、手写糗事百科爬虫、手写链接爬虫、手写微信爬虫、手写多线程爬虫、浏览器伪装技术、Python网络爬虫的定向爬取技术及实例等。学完这一部分内容,读者就可以写出自己的爬虫了。这部分的爬虫编写采用的是一步步纯手写的方式进行的,没有采用框架。

第三篇为框架实现篇(第10~17章),主要详细介绍了如何用框架实现Python网络爬虫项目。使用框架实现Python网络爬虫项目相较于手写方式更加便捷,主要包括Python爬虫框架分类、Scrapy框架在各系统中的安装以及如何避免各种“坑”、如何用Scrapy框架编写爬虫项目、Scrapy框架架构详解、Scrapy的中文输出与存储、在Scrapy中如何使用for循环实现自动网页爬虫、如何通过CrawlSpider实现自动网页爬虫、如何将爬取的内容写进数据库等。其中第12章为基础部分,读者需要着重掌握。

第四篇为项目实战篇(第18~20章),分别讲述了博客类爬虫项目、图片类爬虫项目、模拟登录爬虫项目的编程及实现。其中,也会涉及验证码处理等方面的难点知识,帮助读者通过实际的项目掌握网络爬虫项目的编写。

勘误和支持

由于作者的水平有限,书中难免有一些错误或不准确的地方,恳请各位读者不吝指正。

相关建议各位可以通过微博@韦玮pig或通过QQ公众号a67899或微信公众平台weijc7789(可以直接扫描下方二维码添加)进行反馈,也可以直接向邮箱ceo@iqianyue.com发送邮件,期待能够收到各位读者的意见和建议,欢迎来信。

致谢

感谢机械工业出版社华章公司的副总编杨福川老师与编辑李艺老师,在近一年的时间里,是你们一次次在我遇到困难的时候,给予我鼓励,让我可以坚持写下去。创作一本图书是非常艰苦的,除了技术知识等因素之外,还需要非常大的毅力。特别感谢杨福川在写作过程中对我各方面的支持,尤其是对我毅力的培养。

感谢CSDN、51CTO与极客学院,因为你们,让我在这个领域获得了更多的学员与支持。

感谢恩师何云景教授对我创业方面的帮助,因为有您,我才拥有了一个更好的创业开端及工作环境。

特别致谢

最后,需要特别感谢的是我的女友,因为编写这本书,少了很多陪你的时间,感谢你的不离不弃与理解包容。希望未来可以加倍弥补你那些错过吃的美食和那些错过逛的街道。

同时,也要感谢你帮我完成书稿的校对工作,谢谢你的付出与支持。因为有了你默默的付出,我才能坚定地走下去;因为有了你不断的支持,我才可以安心地往前冲。

感谢爷爷从小对我人生观、价值观的培养,您是一个非常有思想的人。

感谢远方的父母、叔叔、姐姐,那些亲情的陪伴是我最珍贵的财富。

谨以此书献给热爱Python的朋友们!

相关下载

python基础实例 韦玮 pdf_精通Python网络爬虫 核心技术、框架与项目实战 作者:韦玮PDF...相关推荐

  1. 韦玮python视频教程下载_[课程学习]精通Python网络爬虫核心技术框架与项目实战韦玮PDF附源码 rar文件[101.68MB]-码姐姐下载...

    只需2积分精通精通Python网络爬虫核心技术.框架与项目实战,韦玮.pdf 大小:101.66MB | 2020-05-14 19:06:39 韦玮老师<精通python网络爬虫>源代码 ...

  2. 精通Python网络爬虫_核心技术框架与项目实战_韦玮.pdf

    精通Python网络爬虫_核心技术框架与项目实战_韦玮 编辑推荐 从技术.工具.实战3个维度讲透Python网络爬虫各项核心技术和主流框架,深度讲解网络爬虫的抓取技术与反爬攻关技巧 内容简介 随着大数 ...

  3. python基础实例教程 微课版-Python爬虫开发实战教程(微课版)

    第1章 静态网页爬虫 1 1.1 爬虫的基本概念和工作原理 2 1.1.1 什么是网络爬虫 2 1.1.2 爬虫的结构与工作流程 3 1.2 爬虫抓包分析 4 1.2.1 使用Chrome浏览器进行抓 ...

  4. python基础实例 韦玮 pdf_韦玮:Python网络爬虫实战解析

    2016年12月27日晚8点半,CSDN特邀IT专家.<Python系列实战教程>系列图书作者韦玮带来了主题为"Python网络爬虫反爬破解策略实战"的Chat交流.以 ...

  5. 精通Python网络爬虫:核心技术、框架与项目实战(韦玮)pdf

    下载地址:网盘下载 为什么写这本书 网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储. 随着大数据时代的到来,我们经常需要在海量 ...

  6. 《精通Python网络爬虫:核心技术、框架与项目实战》——1.3 网络爬虫的组成...

    本节书摘来自华章出版社<精通Python网络爬虫:核心技术.框架与项目实战>一书中的第1章,第1.3节,作者 韦 玮,更多章节内容可以访问云栖社区"华章计算机"公众号查 ...

  7. 笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫

    笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫 本资料为最新整理高清带目录pdf,百度网盘下载~~~ 本资料为最新整理高清带目 ...

  8. python 基础系列(十二) — python正则

    python 基础系列(十二) - python正则 1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一部分.正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独 ...

  9. python基础教程视频(全13集)-Python基础视频教程全集

    原标题:Python基础视频教程全集 Python编程语言的定位是"优雅"."明确"."简单",所以对于Python初学者来说,学起来没有那 ...

最新文章

  1. 【Android游戏开发十五】关于Android 游戏开发中 OnTouchEvent() 触屏事件的性能优化笔记! .
  2. spring解决ajax跨域问题
  3. 飞鸽传书绿色版 部分数据库被陆续公开了
  4. kafka 分区分配及再平衡总结
  5. python小括号( )与中括号 [ ]
  6. ogre 1.9SDK阅读笔记
  7. android黑科技系列——手机端破解神器MT的内购VIP功能破解教程
  8. pdf照片显示正常打印时被翻转_要哭了,差点打印不了准考证!(2021考生提前收藏!)...
  9. 软件测试的未来:2021年需要关注的15大软件测试趋势
  10. L298N电机驱动的使用
  11. windows内核开发学习笔记十七:IRP 和 IO_STACK_LOCATION 的交互
  12. 如何高效的使用搜索引擎
  13. 按键精灵找图并点击图片中间
  14. 1688商品sku采集抓取实现方法
  15. 沙特强制无线注册CITC认证讲解
  16. 小班关于计算机运用的教案,实用的小班教案四篇
  17. App爬虫进阶——抓包拿不到数据怎么办
  18. 重启计算机怎么一键还原系统还原,w7怎么一键还原_w7系统一键还原设置
  19. 全款买房划算,还是贷款划算?
  20. OpenLayer学习之OGC数据

热门文章

  1. 米家小白智能摄像机 JTSXJ01CM 刷机教程
  2. Arnold在C4D中使用的ACES使用盲区!
  3. Python3Hovercraft创建impressive.js演示文档(一)
  4. android 动态显示表格,在Android Studio中动态生成并显示表格
  5. 微信公众号授权登录 url中添加%E2%80%8b
  6. 谭浩强c语言程序设计第四版课后习题:求Sn=a+aa+aaa+aaaa+...n个a ,a是数字 ,n表示a的位数
  7. 万物皆可集成系列:低代码对接Web Service接口
  8. 谁能告诉我文字生成图片在线制作要如何做?
  9. Python PDF文件转Word格式,只需要3秒(附打包)
  10. Visual Studio 2015安装的Visual Studio Installer生成的msi兼容XP系统