python爬虫之利用pyquery爬取当当网图书信息

初学爬虫，根据课程学习python爬虫，老规矩，先不管三七二十几，先敲了再说。

需求：

爬取图书的图片链接、图书的title信息、当前定价、评论数和评价星数共五部分信息。

分析：

打开当当，搜索python书籍，然后右键，检查网页元素，找到network，然后刷新整个页面，就会返回请求的页面数据，找到左边的红框内的请求链接，然后打开右边的response模块，检查下面返回的内容是否有我们需要的信息，发现没问题，就可以继续往下进行。

寻找图片：

把鼠标放在网页的图片上直接右键，然后点击检查，可以直接定位到网页源码的图片所在位置，如下图：

此时发现每一条<li ddt-pit******>...</li>内的信息都是一条图书信息

而里面的这个链接就是我们要找的第一条数据信息，图片的链接

此时便可先获取图片的链接

import requests
from pyquery import PyQuery
import csv
import time# 找到浏览器的headers
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}
base_url = 'https://search.dangdang.com/?key=python&act=input'
# 获取页面
res = requests.get(base_url,headers=headers)
# 解析页面
html = res.content.decode('GBK')  # 获取页面返回信息后解码，一般使用utf-8，而此当当网使用的是GBK编码，在解码的时候我们就用GBK进行解码doc = PyQuery(html)
book_ul = doc('#component_59 li').items()  # 获取所有存放在li标签里的图书的信息，并存放在迭代器中
for one_li in book_ul:#print(one_li)# 获取图片链接，因为有的图片链接是放在src属性中，有的链接是放在data-original属性中，所以用一个if判断来选取if one_li('.pic img').attr('data-original'):img_url = one_li('.pic img').attr('data-original')else:img_url = one_li('.pic img').attr('src')print(img_url)# 标题title = one_li('.name a').attr('title')#print(title)# 价格price = one_li('.price .search_now_price').text()#print(price)# 获取评价数comments = one_li('.search_star_line .search_comment_num').text()#print(comments)# 获取星数，本身网页中的星星数是对应的数值，所以我们需要进行一个转换stars = float(one_li('.search_star_black span').attr('style').split(':')[-1].strip('%;'))/20#print(stars)

输出图片链接如下：

同样道理，获取标题、定价、评价数、评价星数，同样在刚才的循环代码添加：

最后加入翻页，整理完整代码如下：

import requests
from pyquery import PyQuery
import csv
import timeclass DDSpider(object):def __init__(self,key):self.key = key  # 当前搜索的图书名，搜索关键词self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'}self.base_url = 'https://search.dangdang.com/?key='+key+'&act=input&page_index={}'# 获取界面def get_pageInfo(self):num_page = 0while True:num_page += 1page_url = self.base_url.format(num_page)res = requests.get(page_url,headers=self.headers)
#             print(res.content.decode('GBK'))# 解析df = self.parse_pageInfo(res.content.decode('GBK'))return dftime.sleep(1)  # 为了防止请求过快，添加缓冲时间if num_page == 1: # 当前设置为爬取1页数据break# 解析界面def parse_pageInfo(self,html):doc = PyQuery(html)book_ul = doc('#component_59 li').items()img_list = []title_list = []price_list = []comments_list = []stars_list = []for one_li in book_ul:
#             print(one_li)# 获取图片链接if one_li('.pic img').attr('data-original'):img_url = one_li('.pic img').attr('data-original')else:img_url = one_li('.pic img').attr('src')img_list.append('http:'+img_url)# 标题title = one_li('.name a').attr('title')
#             print(title)title_list.append(title)# 价格price = one_li('.price .search_now_price').text()
#             print(price)price_list.append(price)# 获取评价数comments = one_li('.search_star_line .search_comment_num').text()
#             print(comments)comments_list.append(comments)# 获取星数stars = float(one_li('.search_star_black span').attr('style').split(':')[-1].strip('%;'))/20#stars = one_li('.search_star_black span').attr('style')#print(stars)stars_list.append(stars)data = {'img':img_list,'title':title_list,'price':price_list,'comments':comments_list,'stars':stars_list}return pd.DataFrame(data)if __name__ == '__main__':dd = DDSpider('python')df = dd.get_pageInfo()print(df)

python爬虫之利用pyquery爬取当当网图书信息相关推荐

Python爬虫实战+Scrapy框架爬取当当网图书信息
1.环境准备 1.在python虚拟环境终端使用 pip install scrapy下载scrapy依赖库 2.使用scrapy startproject book创建scrapy心目工程 3.使用 ...
scrapy框架的简单使用——爬取当当网图书信息
** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...
python 爬虫爬取当当网图书信息
初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...
python爬虫之通过pyquery爬取大众点评评论信息
写作缘由:朋友求助帮忙爬取一下大众点评天河商圈的商户名, 店铺收藏量, 评论数量, 好评数, 差评数, 口味评分, 环境评分,服务评分, 人均价格, 首页优质评论数. 思路: 1. 我们发现大众点评是 ...
爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
请用Python写一个爬虫程序，爬取当当网图书畅销榜数据
好的,下面是一个简单的 Python 爬虫代码,可以爬取当当网图书畅销榜数据: import requests from bs4 import BeautifulSoupurl = "htt ...
Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息
XPath 的安装以及使用 1 . XPath 的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事啊.其实我 ...
爬虫项目实战十一：爬取当当网商品信息
爬取当当网商品信息目标项目准备网站分析页码分析反爬分析代码实现效果显示目标批量爬取当当网商品信息,保存为csv文件到本地. 项目准备软件:Pycharm 第三方库:requests ...
使用selenium爬取当当网图书
1.目标利用Selenium抓取当当网图书并用正则表达式获取到得到商品的图片.名称.价格.评论人数信息. 2.开发环境 python2.7 +windows10 +pycharm 3.页面分析如图 ...
Scrapy爬取当当网图书销售前100
scrapy爬取当当网图书畅销榜一.采集任务爬取当当网图书畅销榜信息,获取热销图书前500相关数据. 二.网页解析 1. 打开当当网,按照图书榜>图书畅销榜进入当当网图书畅销榜[http: ...

python爬虫之利用pyquery爬取当当网图书信息

需求：

分析：

python爬虫之利用pyquery爬取当当网图书信息相关推荐

最新文章

热门文章