简单爬虫——京东网图书爬取

先看源代码

import requests
from lxml import htmldef spider(sn,book_list = []):"""爬取京东图书数据"""url = 'https://search.jd.com/Search?keyword={0}'.format(sn) # 使用format方法获取图书sn号heard = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'}# 获取html文档resp = requests.get(url,headers=heard) # 取出头部resp.encoding = 'utf-8'html_doc = resp.text# 获取xpath对象selector = html.fromstring(html_doc)# 找到列表集合ul_list = selector.xpath('//div[@id="J_goodsList"]/ul/li')print(len(ul_list))# 解析对应的内容，标题，价格，链接for li in ul_list:# 标题title = li.xpath('div/div[@class="p-name"]/a/em/text()')print(title[0])# 购买链接link = li.xpath('div/div[@class="p-name"]/a/@href')print(link[0])# 价格price = li.xpath('div/div[@class="p-price"]/strong/i/text()')print(price[0])# 出版社shop = li.xpath('div/div[@class="p-shopnum"]/a/@title')print(shop[0])print('-----------------------------')book_list.append({'title' : title[0],'price' : price[0],'link' : link[0],'shop' : shop[0]})if __name__ == "__main__":spider('9787115428028')

我们从代码的开始来看，我们需要获取url，这里用了format方法保存图书的sn号。

 url = 'https://search.jd.com/Search?keyword={0}'.format(sn)

然后根据url获取html文档，爬取京东是需要将头部取出，设置字符编码为utf-8，否则会乱码。

    resp = requests.get(url,headers=heard) # 取出头部resp.encoding = 'utf-8'html_doc = resp.text

按F12k可以查看网页信息，从上图位置取出头部，格式如下：

  heard = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36'}

然后我们需要将html文档转换为xpath可以识别的对象

 selector = html.fromstring(html_doc)

这里主要的点就是使用xpath从html文档中获取图书列表，我们先在网页中找到图书列表的位置。

 ul_list = selector.xpath('//div[@id="J_goodsList"]/ul/li')

//表示从页面的任意位置匹配,然后我看到列表再div标签下，属性id为J_goodsList，div标签下面还有一个ul标签，下面的li标签就是我们需要的图书列表。
取出列表我们就可以对列表中的图书进行信息查找了，如查找标题。

 for li in ul_list:# 标题title = li.xpath('div/div[@class="p-name"]/a/em/text()')print(title[0])

使用for循环遍历列表，取出标题，同样使用xpath取出标题位置。

可以点击上面标注的小箭头，然后点击网页中图书的标题就会在右边的页面自动找到。那么怎么用xpath表示呢，这里就把li标签作为根目录，标题在em标签里，前面有一个a标签和两个div标签，使用class属性指定唯一的div标签。确定之后使用text()取出标签内容。
当然，要找其他信息也是一样的，就不一一举例了。

简单爬虫——京东网图书爬取相关推荐

京东爬虫——京东评论信息爬取及评论图片的下载
之前,我做了一个天猫评论信息的抓取,和评论图片的下载,不过那次是将信息全部存入数据库后再从数据库提取图片信息进行下载,这次我做了一个信息抓取和图片下载的二合一升级版. 本次以京东nike自营店为目标, ...
爬虫-东方财富网报表爬取（2020-03-25）
文章目录爬取网站疑难分析代码致谢爬取网站领导又让人爬数据了,其实爬虫对我来说也就兼职做做,下面要爬取就是这个网站的几张列表.这个网站其实之前写过代码的,只是后来吧,这个数据被加密反爬虫了. ...
在当当买了python怎么下载源代码-爬虫实战一：爬取当当网所有 Python 书籍
图片来自 unsplash 我们已经学习 urllib.re.BeautifulSoup 这三个库的用法.但只是停留在理论层面上,还需实践来检验学习成果.因此,本文主要讲解如何利用我们刚才的几个库去实 ...
python爬虫爬当当网_爬虫实战一：爬取当当网所有 Python 书籍
本文转载自微信公众号[ 极客猴 ],作者知乎主页此前错误标注来源导致侵权,在此表示歉意. 我们已经学习 urllib.re.BeautifulSoup 这三个库的用法.但只是停留在理论层面上,还需实 ...
python爬虫网络数据包_Python爬虫之多线程图虫网数据爬取（十六）
Python爬虫之多线程图虫网数据爬取(十六) 发布时间:2019-05-14 10:11, 浏览次数:289 , 标签: Python 原创不易,转载前请注明博主的链接地址:Blessy_Zhu h ...
给小白的python爬虫入门之批量爬取别样网的视频素材
网络爬虫,听起来很神秘,其实也不过如此,简单来说,只要网站开放了端口即用户能访问这个网站,那么无论这个网站的反爬机制做的有多么好,只要你的技术够,总会有机会破解它. 换句话说,不是你的网站很安全,而是 ...
Jsoup：用Java也可以爬虫，怎么使用Java进行爬虫，用Java爬取网页数据，使用Jsoup爬取数据，爬虫举例：京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索一.资源为什么接下来的代码中要使用el.getElementsByTa ...
java爬虫的2种爬取方式（HTTP||Socket）简单Demo(一)
转载自 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一) 最近在找java的小项目自己写着玩,但是找不到合适的,于是写开始学一点爬虫,自己也是感觉爬虫比较有趣.这里自己找了一个 ...
多线程爬虫实战--彼岸图网壁纸爬取
多线程爬虫实战–彼岸图网壁纸爬取普通方法爬取 import requests from lxml import etree import os from urllib import requesth ...

简单爬虫——京东网图书爬取

简单爬虫——京东网图书爬取相关推荐

最新文章

热门文章