来源:公众号-极客猴 出处:

本文主要讲解如何利用urllib、re、BeautifulSoup 这几个库去实战,爬取当当网所有 Python 书籍。

1 确定爬取目标

任何网站皆可爬取,就看你要不要爬取而已。本次选取的爬取目标是当当网,爬取内容是 以 Python 为关键字搜索出来的页面中所有书籍的信息。具体如下图所示:

本次爬取结果有三项:

图书的封面图片

图书的书名

图书的链接页面

最后把这三项内容保存到 csv 文件中。

2 爬取过程

总所周知,每个站点的页面 DOM 树是不一样的。所以我们需要先对爬取页面进行分析,再确定自己要获取的内容,再定义程序爬取内容的规则。

2.1 确定 URL 地址

我们可以通过利用浏览器来确定URL 地址,为 urllib 发起请求提供入口地址。接下来,我们就一步步来确定请求地址。

搜索结果页面为 1 时,URL 地址如下:

搜索结果页面为 3 时,URL 地址如下:

搜索结果页面为 21 时,即最后一页,URL 地址如下:

从上面的图片中,我们发现 URL 地址的差异就在于 page_index 的值,所以 URL 地址最终为

而 page_index 的值,我们可以通过循环依次在地址后面添加。因此, urllib 请求代码可以这样写:

2.2 确定爬取节点

有了 URL 地址,就能使用 urllib 获取到页面的 html 内容。到了这步,我们就需要找到爬取的节点的规则,以便于 BeautifulSoup 地解析。为了搞定这个问题,就要祭出大招 —— Chrome 浏览器的开发者功能(按下 F12 键就能启动)。我们按下 F12 键盘,依次对每本书进行元素检查(在页面使用鼠标右键,点击“检查”即可),具体结果如下:

从上图可以得知解析规则:每本书的节点是一个 a 标签,a 标签具有 title,href,子标签 img 的 src 三个属性,这三者分别对应书名、书的链接页面、书的封图。看到这里也需你不会小激动,感叹这不就是我们要感兴趣的内容吗?得到解析规则,编写BeautifulSoup 解析代码就有了思路,具体代码如下:

运行结果如下:

这证明刚才制定规则是正确爬取我们所需的内容。

2.3 保存爬取信息

我写爬虫程序有个习惯,就是每次都会爬取内容持久化到文件中。这样方便以后查看使用。如果爬取数据量比较大,我们可以用其做数据分析。我这里为了方便,就将数据保存到 csv 文件中。用 Python 将数据写到文件中,我们经常中文乱码问题所烦恼。如果单纯使用 csv 库,可能摆脱不了这烦恼。所以我们将 csv 和 codecs 结合一起使用。在写数据到 csv 文件的时候,我们可以通过指定文件编码。这样中文乱码问题就迎刃而解。具体代码如下:

看到这里,你可能会问为什么不把编码指定为 gb2312 呢,这样用 ecxel 打开就不会乱码了?原因是当书名全部为英文单词时,使用 gb2312 编码,writer.writerow()会出现编码错误的问题。

如果你要用 excel 打开 PythonBook.csv文件, 你则需多执行下面几步:

1) 打开 Excel

2) 执行“数据”->“自文本”

3) 选择 CSV 文件,出现文本导入向导

4) 选择“分隔符号”,下一步

5) 勾选“逗号”,去掉“ Tab 键”,下一步,完成

6)在“导入数据”对话框里,直接点确定

3 爬取结果

最后,我们将上面代码整合起来即可。爬取结果截下图:

4 写在最后

这次实战算是结束了,但是我们不能简单地满足,看下程序是否有优化的地方。我把该程序不足的地方写出来。

该程序是单线程,没有使用多线程,执行效率不够高。

没有应用面向对象编程思想,程序的可扩展性不高。

没有使用随机 User-Agent 和 代理,容易被封 IP。

【Python那些事】补充,如遇到保存文件乱码,可以尝试调整编码方式,即:

codecs.open(fileName, 'w','utf-8')调整为codecs.open(fileName, 'w')或者其它编码方式。

(完)

看完本文有收获?请转发分享给更多人

关注「Python那些事」,做全栈开发工程师

在当当买了python怎么下载源代码-爬虫实战:爬取当当网所有 Python 书籍相关推荐

  1. python linux下载磁力链_Python爬取80s网电影名称及迅雷(磁力)链接

    更多教程请移步至:洛凉博客 大家可以登录下www.80s.tw网站,观察页面菜单. 最开始我是想把菜单下所有页面的都爬一遍.想想还是有点复杂. image.png 但是最开始通过匹配,这些菜单的链接都 ...

  2. Python爬虫深入 爬取当当网商品基本信息

    Python爬虫深入 爬取当当网商品基本信息 使用scrapy爬虫框架,创建爬虫项目. 基本命令: scrapy startproject dangdang scrapy genspider -l s ...

  3. python爬虫实战-爬取视频网站下载视频至本地(selenium)

    #python爬虫实战-爬取视频网站下载视频至本地(selenium) import requests from lxml import etree import json from selenium ...

  4. python爬虫之--爬取当当网商品信息

                                    python爬虫之--爬取当当网图商品信息                                               ...

  5. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  6. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

  7. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  8. python爬虫之爬取百度网盘

    爬虫之爬取百度网盘(python) #coding: utf8 """ author:haoning create time: 2015-8-15 "" ...

  9. 在当当买了python怎么下载源代码-爬虫实战一:爬取当当网所有 Python 书籍

    图片来自 unsplash 我们已经学习 urllib.re.BeautifulSoup 这三个库的用法.但只是停留在理论层面上,还需实践来检验学习成果.因此,本文主要讲解如何利用我们刚才的几个库去实 ...

最新文章

  1. cocosstudio csd文件解析为.lua
  2. Linux下MySQL数据库主从同步配置
  3. jfinal框架增加微信jsapi支持
  4. Fast Realtime Subsurface Scattering Skin Rendering
  5. js 只准输入数字_基于TensorFlow.js的JavaScript机器学习
  6. 用栈实现后缀表达式求解问题
  7. Python3 爬虫学习笔记 C18【爬虫框架 pyspider — 深入理解】
  8. avs 中国音视频标准DRA 中音频标准及应用
  9. SpringCloud Hoxton版微服务-入门篇
  10. 展望10年内VR技术的盈利模式的发展历程
  11. Triumph X与K-Hyundai美术馆将于今年4月推出现代美术NFT
  12. Python使用chardet包自动检测编码
  13. XML文件处理总结 - 1
  14. 鹏业安装算量软件运行环境_安装算量软件电脑配置
  15. 【qq机器人】定时发送消息大全
  16. macbook清理磁盘空间
  17. 如何零成本实现微信公众号自助查券返利机器人(二)
  18. SSD1963芯片引脚分布及其功能
  19. 搭建深度学习网络时节约GPU显存的技巧
  20. Autofac之类型注册

热门文章

  1. Node.js-sublime text3 配置node.js(ERROR: The process node.exe not found.)
  2. * Linux相关命令
  3. 字符串按长度转换成数组
  4. Tomcat7配置DataSource数据源
  5. div+css中设置了float属性后如何让外层的高度随着内层的高度大小自动调整
  6. springboot拦截器中注入service失败问题
  7. 实验二:用机器指令和汇编指令编程
  8. php单元测试断言方法
  9. iOS7以下设备获取mac地址
  10. SpringBoot自动化配置之一:SpringBoot内部的一些自动化配置入门介绍