在当当买了python怎么下载源代码-爬虫实战一:爬取当当网所有 Python 书籍
图片来自 unsplash
我们已经学习 urllib、re、BeautifulSoup 这三个库的用法。但只是停留在理论层面上,还需实践来检验学习成果。因此,本文主要讲解如何利用我们刚才的几个库去实战。
1 确定爬取目标
任何网站皆可爬取,就看你要不要爬取而已。本次选取的爬取目标是当当网,爬取内容是 以 Python 为关键字搜索出来的页面中所有书籍的信息。具体如下图所示:
点击查看大图
本次爬取结果有三项:
图书的封面图片
图书的书名
图书的链接页面
最后把这三项内容保存到 csv 文件中。
2 爬取过程
总所周知,每个站点的页面 DOM 树是不一样的。所以我们需要先对爬取页面进行分析,再确定自己要获取的内容,再定义程序爬取内容的规则。
2.1 确定 URL 地址
我们可以通过利用浏览器来确定URL 地址,为 urllib 发起请求提供入口地址。接下来,我们就一步步来确定请求地址。
搜索结果页面为 1 时,URL 地址如下:
点击查看大图
搜索结果页面为 3 时,URL 地址如下:
点击查看大图
搜索结果页面为 21 时,即最后一页,URL 地址如下:
点击查看大图
从上面的图片中,我们发现 URL 地址的差异就在于 page_index 的值,所以 URL 地址最终为 http://search.dangdang.com/?key=python&act=input&show=big&page_index=。而 page_index 的值,我们可以通过循环依次在地址后面添加。因此, urllib 请求代码可以这样写:
# 爬取地址, 当当所有 Python 的书籍, 一共是 21 页
url = "http://search.dangdang.com/?key=python&act=input&show=big&page_index="
index = 1
while index <= 21:
# 发起请求
request = urllib.request.Request(url=url+str(index), headers=headers)
response = urllib.request.urlopen(request)
index = index + 1
# 解析爬取内容
parseContent(response)
time.sleep(1) # 休眠1秒
2.2 确定爬取节点
有了 URL 地址,就能使用 urllib 获取到页面的 html 内容。到了这步,我们就需要找到爬取的节点的规则,以便于 BeautifulSoup 地解析。为了搞定这个问题,就要祭出大招 —— Chrome 浏览器的开发者功能(按下 F12 键就能启动)。我们按下 F12 键盘,依次对每本书进行元素检查(在页面使用鼠标右键,点击“检查”即可),具体结果如下:
点击查看大图
从上图可以得知解析规则:每本书的节点是一个 a 标签,a 标签具有 title,href,子标签 img 的 src 三个属性,这三者分别对应书名、书的链接页面、书的封图。看到这里也需你不会小激动,感叹这不就是我们要感兴趣的内容吗?得到解析规则,编写BeautifulSoup 解析代码就有了思路,具体代码如下:
# 提取爬取内容中的 a 标签, 例如:
#
# class="pic" dd_name="单品图片"
# ddclick="act=normalResult_picture&pos=23648843_53_2_q"
# href="http://product.dangdang.com/23648843.html"
# name="itemlist-picture"
# target="_blank" title="
# 趣学Python――教孩子学编程 ">
#
#
# alt=" 趣学Python――教孩子学编程 "
# data-original="http://img3x3.ddimg.cn/20/34/23648843-1_b_0.jpg"
# src="data:images/model/guan/url_none.png"/>
#
soup = BeautifulSoup(response)
books = soup.find_all('a', class_='pic')
print(books)
运行结果如下:
点击查看大图
这证明刚才制定规则是正确爬取我们所需的内容。
2.3 保存爬取信息
我写爬虫程序有个习惯,就是每次都会爬取内容持久化到文件中。这样方便以后查看使用。如果爬取数据量比较大,我们可以用其做数据分析。我这里为了方便,就将数据保存到 csv 文件中。用 Python 将数据写到文件中,我们经常中文乱码问题所烦恼。如果单纯使用 csv 库,可能摆脱不了这烦恼。所以我们将 csv 和 codecs 结合一起使用。在写数据到 csv 文件的时候,我们可以通过指定文件编码。这样中文乱码问题就迎刃而解。具体代码如下:
fileName = 'PythonBook.csv'
# 指定编码为 utf-8, 避免写 csv 文件出现中文乱码
with codecs.open(fileName, 'w', 'utf-8') as csvfile:
filednames = ['书名', '页面地址', '图片地址']
writer = csv.DictWriter(csvfile, fieldnames=filednames)
writer.writeheader()
for book in books:
# print(book)
# print(book.attrs)
# 获取子节点
# (book.children)[0]
if len(list(book.children)[0].attrs) == 3:
img = list(book.children)[0].attrs['data-original']
else:
img = list(book.children)[0].attrs['src']
writer.writerow({'书名': book.attrs['title'], '页面地址': book.attrs['href'], '图片地址': img})
看到这里,你可能会问为什么不把编码指定为 gb2312 呢,这样用 ecxel 打开就不会乱码了?原因是当书名全部为英文单词时,使用 gb2312 编码,writer.writerow()会出现编码错误的问题。
如果你要用 excel 打开 PythonBook.csv文件, 你则需多执行下面几步:
打开 Excel
执行“数据”->“自文本”
选择 CSV 文件,出现文本导入向导
选择“分隔符号”,下一步
勾选“逗号”,去掉“ Tab 键”,下一步,完成
6)在“导入数据”对话框里,直接点确定
3 爬取结果
最后,我们将上面代码整合起来即可。这里就不把代码贴出来了,具体阅读原文即可查看源代码。我就把爬取结果截下图:
点击查看大图
4 写在最后
这次实战算是结束了,但是我们不能简单地满足,看下程序是否有优化的地方。我把该程序不足的地方写出来。
该程序是单线程,没有使用多线程,执行效率不够高。
没有应用面向对象编程思想,程序的可扩展性不高。
没有使用随机 User-Agent 和 代理,容易被封 IP。
在当当买了python怎么下载源代码-爬虫实战一:爬取当当网所有 Python 书籍相关推荐
- 在当当买了python怎么下载源代码-爬虫实战:爬取当当网所有 Python 书籍
来源:公众号-极客猴 出处: 本文主要讲解如何利用urllib.re.BeautifulSoup 这几个库去实战,爬取当当网所有 Python 书籍. 1 确定爬取目标 任何网站皆可爬取,就看你要不要 ...
- python -又一次爬虫练习(爬取LOL所有的英雄头像)
python -又一次爬虫练习(爬取LOL所有的英雄头像) 目标网站:https://lol.qq.com/data/info-heros.shtml#Navi 一开始我尝试用requests来get ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...
- python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息
python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...
- 爬虫初体验-- 爬取当当书籍
爬虫初体验-- 爬取当当书籍 这是我从学习Python 开始,第4天写的爬虫,所以有很多地方写的不太好,还希望各位多多包涵,欢迎指正,互相学习. 我学习python就是为了玩爬虫的.第一次听说爬虫这个 ...
- python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息
原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...
- python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现
这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...
- python爬虫什么书好_python爬虫入门06 | 爬取当当网 Top 500 本五星好评书籍
来啦,老弟 image 我们已经知道怎么使用 Requests 进行各种请求骚操作 也知道了对服务器返回的数据如何使用 正则表达式 来过滤我们想要的内容 - 那么接下来 我们就使用 requests ...
- 请用Python写一个爬虫程序,爬取当当网图书畅销榜数据
好的,下面是一个简单的 Python 爬虫代码,可以爬取当当网图书畅销榜数据: import requests from bs4 import BeautifulSoupurl = "htt ...
最新文章
- 推荐系统笔记(模型融合)
- iPhone 软件:xlate free 编码的好帮手!
- C++ STL中的Hashmap
- IT部门不应该是一个后勤部门
- ncverilog脚本_NC-Verilog仿真详解
- PHP敏感词过滤【整理实践版】
- UE4学习-阶段性总结1
- (编译适用于ARM的linux内核并进行QEMU仿真)Compile Linux kernel 3.2 for ARM and emulate with QEMU
- java包含_【Java】判断字符串是否包含子字符串
- Java中null和浮点数相乘_jvm规范之浮点数 - 你知道吗,有个数字它和自身不相等...
- dos命令怎样进入计算机,怎么进DOS命令的方法
- win10怎么安装ie11
- 文本框里面加删除按钮
- 走近棒球运动·中华职业棒球大联盟·MLB棒球创造营
- c语言是学电脑吗,c语言入门至精通这些天一直有人问我,c语言好学吗?我是个新手...
- 如何发送工资条通知短信
- Linuxserver沦陷为肉鸡的全过程实录
- 财会法规与职业道德【11】
- java基于springboot+vue的驾校学车报名预约管理系统 nodejs+element
- java 中结束程序方法
热门文章
- 显卡测试软件3d mark,显卡评测工具3DMark跑分结果变了:可以直接PK同等配置
- mockito mock void方法_一文让你快速上手 Mockito 单元测试框架(上)
- python中几种读取文件的方法_python 逐行读取文件的几种方法
- 网上服务器租借要多少钱_台湾租借日本服装多少钱-北京和益文化传媒有限公司...
- mongoose小试牛刀
- 集成开发环境(IDE)
- hiho 1483 区间计数问题+二分答案
- word2010忽然无法撤销
- cdn大全 jquery/jqueryUI/Dojo/MooTools/Prototype
- HTML5与jQuery实现渐变绚丽网页图片效果