如何爬取当当网畅销书排行榜信息？ requests + pyquery

'''
爬取当当网的五星图书排行榜的信息
'''
Max_Page = 3  # 爬取前三页的排行榜信息
import requests
from pyquery import PyQuery as pq
import jsondef requests_dangdang(url, headers=None, retry=3):for _ in range(retry):try:response = requests.get(url=url, headers=headers)if response.status_code == 200:response.encoding = response.apparent_encodingreturn response.textexcept requests.RequestException as e:print(f'Requests Error:\n\t{url}\n\t{e.args}')return Nonedef parse_html(text):doc = pq(text)('ul[class="bang_list clearfix bang_list_mode"] li')for item in doc.items():yield {'排名': item('[class^="list_num"]').text().rstrip('.'),  ## 排名'书名': item('.name a').text(),  ## 书名'推荐指数': item('.star .tuijian').text(),  ## 推荐指数'作者': item('.publisher_info a').attr.title,  ## 作者'五星评分次数': item('.biaosheng span').text(),  ## 五星评分次数'价格': item('.price p:not([class]) .price_n').text(),  ## 价格'图书链接': item('.pic a').attr.href  ## 图书链接}returndef save_book_info(book):json_str = json.dumps(book, ensure_ascii=False, indent=4)with open('book.json', 'a', encoding='utf-8') as f:f.write(json_str)def run(max_page=Max_Page):for page in range(1, max_page+1):url = f'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-{str(page)}'text = requests_dangdang(url)if text == None:continuefor book in parse_html(text):save_book_info(book)if __name__ == '__main__':run()

执行结果：

{"排名": "1","书名": "谜案鉴赏","推荐指数": "100%推荐","作者": "[美]莉比・菲舍尔・赫尔曼 著，汪德均 /刘建洲/马遇乐 译","五星评分次数": "17669次","价格": "¥35.80","图书链接": "http://product.dangdang.com/28470981.html"
}{"排名": "2","书名": "朝圣者","推荐指数": "100%推荐","作者": "【澳】泰瑞・海耶斯 译尤传莉著；酷威文化 出品","五星评分次数": "19538次","价格": "¥45.20","图书链接": "http://product.dangdang.com/25141508.html"
}

如何爬取当当网畅销书排行榜信息？ requests + pyquery相关推荐

Python爬虫离线爬取当当网畅销书Top500的图书信息
本实例还有另外的在线爬虫实现,有兴趣可点击在线爬取当当网畅销书Top500的图书信息爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...
Python爬虫在线爬取当当网畅销书Top500的图书信息
本实例还有另外的离线爬虫实现,有兴趣可点击离线爬取当当网畅销书Top500的图书信息爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...
python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息一.环境搭建二.简介三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面书籍商品html页面解析其他商品html页面解析四.代码实现 ...
Scrapy爬取当当网的商品信息存到MySQL数据库
Scrapy爬取当当网的商品信息存到MySQL数据库 Scrapy 是一款十分强大的爬虫框架,能够快速简单地爬取网页,存到你想要的位置.经过两天的摸索,终于搞定了一个小任务,将当当网的商品信息爬下来存 ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
[Python]scrapy爬取当当网书籍相关信息
最近想买两本程序设计的书籍,也就在当当网上面看了下,发现真是太多的书了.所以想着利用爬虫知识爬取下程序设计相关书籍的一些信息. 00_1. 首先是今天所用到的东西 python 3.5 + scrap ...
爬取当当网的图书信息之导读
什么是爬虫爬虫是用来抓取互联网上信息的程序.程序员可以利用爬虫来干很多事,有些挺酷炫,这里贴出知乎相关问题的网址https://www.zhihu.com/question/29372574 爬虫的 ...
python爬虫之--爬取当当网商品信息
python爬虫之--爬取当当网图商品信息 ...
java爬取当当网所有分类的图书信息(ISBN,作者,出版社,价格,所属分类等)
java爬取当当网所有分类的图书信息(ISBN,作者,出版社,价格,所属分类等) 顺手写的,没有建立新项目,放我自己的项目的一个文件夹里了,有兴趣的朋友可以拉下来试试 https://gitee.co ...

如何爬取当当网畅销书排行榜信息？ requests + pyquery

如何爬取当当网畅销书排行榜信息？ requests + pyquery相关推荐

最新文章

热门文章