xpath提取当当网数学书前十页信息

'''
http://category.dangdang.com/cp01.03.51.00.00.00.htmlget这些书都在一个个的li标签里，先获取所有的li，再分别对每一个li进行xpath提取，可以避免要提取的字段是空最后数据错位的情况第二页  http://category.dangdang.com/pg2-cp01.03.51.00.00.00.html
第三页  http://category.dangdang.com/pg3-cp01.03.51.00.00.00.html
'''
import requests
from lxml import etree# 处理空数据
def get_result(mstr) -> str:if mstr:    # 不是空return  mstr[0] # xpath处理的是列表，返回字符串else:return None# 取前十页
for i in range(1,11):if i == 1:res = requests.get(f'http://category.dangdang.com/cp01.03.51.00.00.00.html')else:res = requests.get(f'http://category.dangdang.com/pg{i}-cp01.03.51.00.00.00.html')# 将字符串节点化html = etree.HTML(res.text)li_list = html.xpath('//ul[@class="bigimg"]/li')# 遍历每一个li，即每一本书for li in li_list:# 加 . 是当前li开始提取title = get_result(li.xpath('.//a[@name="itemlist-title"]/@title'))   # 标题price = get_result(li.xpath('.//span[@class="search_now_price"]/text()'))    # 售价e_price = get_result(li.xpath('.//a[@class="search_e_price"]/i/text()'))     # 电子书价格author = get_result(li.xpath('.//a[@name="itemlist-author"]/text()'))        # 作者publish_time = get_result(li.xpath('//p[@class="search_book_author"]/span[2]/text()'))  # 出版日期press = get_result(li.xpath('.//a[@name="P_cbs"]/text()'))   # 出版社evaluate = get_result(li.xpath('.//span[@class="search_star_black"]/span/@style'))   # 评价星级e_nums = get_result(li.xpath('.//a[@name="itemlist-review"]/text()'))    # 评论条数details = get_result(li.xpath('.//p[@class="detail"]/text()'))   # 详情img_url = get_result(li.xpath('.//a[@name="itemlist-picture"]/img/@data-original | .//a[@name="itemlist-picture"]/img/@src'))    # 图片链接with open('当当网历史书前十页.txt', 'a', encoding='utf-8') as fw:fw.write(f'''
书名：{title}
纸质价格：{price}
电子书价格：{e_price}
作者：{author}
出版时间：{publish_time}
出版社:{press}
评价星级:{evaluate}
评论条数:{e_nums}
详情:{details}
图片链接:{img_url}
{'=' * 100}''')

xpath提取当当网数学书前十页信息相关推荐

python一键获取豆瓣租房小组前十页信息，并导入EXCEL（Xpath法）
#encoding=utf-8 模块导入 import requests from lxml import etree import xlwt import urllib.request 主程序 de ...
selenium获取当当网python书籍前三页
1.配置好selenium环境,selenium环境配置地址如下: https://blog.csdn.net/liaoqingjian/article/details/116785445?spm=1 ...
豆瓣图书短评爬取（其中一本书的短评＜前十页＞）
目标图书是"流浪地球"(只是一个图书编号不同) 爬取前十页,包括评论人员的名称.评论日期.评论等级.被赞个数.评论内容. 先看运行结果: (由于输出比较多直截首尾的图): 直接上代 ...
Scrapy爬取当当网图书销售前100
scrapy爬取当当网图书畅销榜一.采集任务爬取当当网图书畅销榜信息,获取热销图书前500相关数据. 二.网页解析 1. 打开当当网,按照图书榜>图书畅销榜进入当当网图书畅销榜[http: ...
当当网买书薅羊毛攻略（附大数据学习用书）
开学季当当网计算机图书大促 >> 每满100减50 << 满200减100 满300减150 满400减200 不止如此!秉持绝不让大家多花一分钱的精神机械工业出版社华章 ...
【练习】爬取当当网中的好评榜图书信息，显示并保存为excel文件
声明: 1. 学生刚开始学习爬虫,代码会有很多不严谨,也较为粗糙,单纯用于广大网友参考,希望能起到一定的帮助 2. 如果要转载,请标记出来源 3.本文纯粹用于技术练习,请勿用作非法途径做题途中所遇问 ...
使用Xpath提取猫眼电影标题，演员及剧情信息
from lxml import etree import requests from time import sleep import os from fake_useragent import U ...
爬取豆瓣电影前十页的好评一般差评
分析一波爬取的地址:https://movie.douban.com/subject/26588308/comments 分别找出好评.一般.差评的评论: 通过地址栏分析,评论的类型和percent ...
针对当当网畅销书籍榜单前500的研究分析
目录第一章项目介绍第二章项目组织与项目计划第三章数据采集. 3.1 数据采集目标. 3.2 数据采集工具与方法. 3.3 数据采集流程 3.4 数据采集保存 3.5 本章小结第四章数据 ...

xpath提取当当网数学书前十页信息

xpath提取当当网数学书前十页信息相关推荐

最新文章

热门文章