java爬虫爬豆瓣图书_网络爬虫—

作者：徐浩来源：人工智能学习圈

3.2.1 目标

目标地址：https://book.douban.com/top250?start=0

任务：爬取豆瓣图书TOP250，及其‘书名’、‘出版信息’、‘评分’、‘评价人数’四个数据

3.2.2 分析URL

首先先打开目标地址对url进行分析

观察第一页豆瓣图书如下：

preview

第二页豆瓣图书如下：

最后一页豆瓣图书如下：

我们可以发现url的结构是如何变化的，每一次的翻页所对应改变的是start参数的值，那么我们就可以构造urls：

3.2.3 请求网页

我们看到其中有response.encoding = 'utf-8'，这个可以根据标签中的信息分析得到，还可以改为response.encoding=response.apparent_encoding

这个的意思是说，把响应的结果的 html 源码的编码格式设置成 utf-8，不这样做的话，我们提取到的数据中如果有中文的，那显示就会是乱码

3.2.4 分析数据

鼠标放在目标元素位置，右键-检查，我们看到第一本书的我们需要的详细信息都在

里面，

所以我们需要提取这一页的所有的标签：

infos = html.xpath('//tr[@class="item"]')

返回的是一个列表，再一次循环列表的每一个标签，从中提取出对应的数据，其实不用提取数据的 xpath 路径不需要去看路径张啥样在去手敲进去，可以复制得，但需要修改

我们以提取书名为例，在书名那里右键-检查，如下图，复制出 xpath 路径

粘贴代码为：//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a

我们观察我们已经提取的 tr 标签 '//tr[@class="item"]' ，在看上面找到 tr ，以它为断点(包含它)，前面的删掉改成如下：

name = info.xpath('./td[2]/div[1]/a/text()')[0]

因为我们已经提取了一大包含我们需要的数据的大标签 tr，是从中再提取数据，所以前面多余的删掉，包含 tr 也删掉，因为是从它的里面提取

另外数据同理，所以可写代码：

提取后，我们需要用 replace 把多余字符去掉，最后打印

到这里接就完成了提取数据

3.2.5 小结

完整代码如下：

运行结果如下：

欢迎大家加入人工智能圈参与交流

原文链接: https://zhuanlan.zhihu.com/p/140246883

java爬虫爬豆瓣图书_网络爬虫——爬取豆瓣图书相关推荐

python豆瓣影评_使用Python抓取豆瓣影评数据的方法
抓取豆瓣影评评分正常的抓取分析请求的url https://movie.douban.com/subject/26322642/comments?start=20&limit=20& ...
【python爬虫系列】1.理解网络爬虫
第一节:理解网络爬虫 1.1网络爬虫的定义网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.另外一些不常使用的名字还有 ...
网络爬虫python实例视频-Python网络爬虫实例教程视频讲解版
章网络爬虫概述1 1.1认识网络爬虫1 1.1.1网络爬虫的含义1 1.1.2网络爬虫的主要类型2 1.1.3简单网络爬虫的架构3 1.1.4网络爬虫的应用场景3 1.2Python网络爬虫技术概况4 ...
【spider】爬虫学习路线-精通Scrapy网络爬虫
博客已经搬家到"捕获完成": https://www.v2python.com 随着大数据时代的到来,人们对数据资源的需求越来越多,而爬虫是一种很好的自动采集数据的手段. 那么,如 ...
什么是网络爬虫，我们为什么要学习网络爬虫？
一.什么是网络爬虫网络爬虫又称网络蜘蛛.网络蚂蚁.网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法.使用Python可以很方 ...
Python爬虫总结——Scrapy+Gerapy部署网络爬虫
Python爬虫总结--从基础爬虫到Scrapy+Gerapy部署网络爬虫前言一.常用pip模块介绍 1.NumPy库 2.Pandas库 3.Requests库 4.BeautifulSoup库 ...
python网络爬虫技术-基于Python的网络爬虫技术综述
汪洋姜新通 [摘要]人类社会已经进入大数据时代,这正在改变着我们的工作和生活.随着互联网的兴起和发展,同时也产生了各种对人类有价值的数据.快速搜索数据和充分利用数据信息已成为一个巨大挑战.这样的需 ...
【python爬虫学习篇】初识网络爬虫以及了解Web前端
目录 1,初识爬虫 1.1,网络爬虫概述 1.2,爬虫的分类 1.3,网络爬虫的基本原理 1.4,搭建开发环境 2,了解web前端 2.1,HTTP基本原理 2.1.1HTTP协议 2.1.2,Web ...
爬虫基础（2）网络爬虫的实现原理与技术
文章目录一. 爬虫技术实现原理二. 发送请求 1. 请求行 2. 请求头 3. 空行 4. 请求体三. 获取响应内容 1. 响应行 2. 响应头 3. 空行 4. 响应体四. 解析网页内容 1 ...
python爬取地图地址_网络爬虫-python爬取高德地图地点
python爬取你想要的数据,近期由于业务需求,用python爬取了高德地图一些地点的数据,爬出来数据大致情况如下: image 下面是基本流程: 2.安装网络爬取第三方库,主要是下面三个(pip i ...

java爬虫爬豆瓣图书_网络爬虫——爬取豆瓣图书

java爬虫爬豆瓣图书_网络爬虫——爬取豆瓣图书相关推荐

最新文章

热门文章