Python实战 | 爬取当当网 TOP500 畅销书

目标网页：当当网书籍畅销榜 http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1

爬取结果：

代码：

import requests,re,jsondef request_dangdang(url):try:response = requests.get(url)if response.status_code == 200:return response.textexcept requests.RequestException:return Nonedef parse_result(html):pattern = re.compile('<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span\sclass="price_n">&yen;(.*?)</span>.*?</li>',re.S)items = re.findall(pattern,html)for item in items:yield{                #写入为字典类型'range':item[0],'iamge':item[1],'title':item[2],'recommend':item[3],'author':item[4],'times':item[5],'price':item[6]}print(1)for item in items:print(item)def write_item_to_file(item):#print("写入数据===》" + str(item))with open('book.txt','a',encoding='utf-8') as f:f.write(json.dumps(item,ensure_ascii=False) + '\n') #将字典类型转化为字符串写入文件f.close()def main(page):url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-'+str(page)html = request_dangdang(url)items = parse_result(html)  #解析过滤想要的信息for item in items:write_item_to_file(item)if __name__ == "__main__":for i in range(1,26):main(i)

参考网址：https://blog.csdn.net/weixin_42469142/article/details/89856325

Python实战 | 爬取当当网 TOP500 畅销书相关推荐

爬虫百战（一）：爬取当当网Top500本五星好评书籍
爬取当当网Top500本五星好评书籍 ==实战前提:== 准备工作撸代码成果展示实战前提: 掌握requests库的使用熟悉re库,正则表达式的简单使用可参考我的另外两篇博客进行学习准备工 ...
在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息一.环境搭建二.简介三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面书籍商品html页面解析其他商品html页面解析四.代码实现 ...
爬虫小案例-爬取当当网TOP500的图书并将数据存入数据库
在这里分享一个刚刚学习爬虫时自己做的一个小案例,爬取了当当网TOP500的图书信息,包括图书名称.作者名称和出版社的名称. 1.分析网页 url:http://bang.dangdang.com/bo ...
python爬虫-爬取当当网书籍信息存到Excel中
文章目录一.任务二.分析 (一).单页面的信息分析源代码分析目标信息定位与分析代码设计 (二).所有目标页面链接分析目标链接分析代码设计三.注意要点四.完整代码五.参考一.任务 ...
python 爬虫爬取当当网图书信息
初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...
[Python]scrapy爬取当当网书籍相关信息
最近想买两本程序设计的书籍,也就在当当网上面看了下,发现真是太多的书了.所以想着利用爬虫知识爬取下程序设计相关书籍的一些信息. 00_1. 首先是今天所用到的东西 python 3.5 + scrap ...
Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息
XPath 的安装以及使用 1 . XPath 的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事啊.其实我 ...
Python爬虫离线爬取当当网畅销书Top500的图书信息
本实例还有另外的在线爬虫实现,有兴趣可点击在线爬取当当网畅销书Top500的图书信息爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...

Python实战 | 爬取当当网 TOP500 畅销书

Python实战 | 爬取当当网 TOP500 畅销书相关推荐

最新文章

热门文章