使用Xpath爬虫库下载诗词名句网的史书典籍类所有文章。
# 需要的库
from lxml import etree
import requests
# 请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
}
# 保存文本的地址
pathname=r'E:\爬虫\诗词名句网\\'
# 获取书籍名称的函数
def get_book(url):response = requests.get(url,headers)etrees = etree.HTML(response.text)url_infos = etrees.xpath('//div[@class="bookmark-list"]/ul/li')for i in url_infos:url_info = i.xpath('./h2/a/@href')book_name = i.xpath('./h2/a/text()')[0]print('开始下载.'+book_name)# print('http://www.shicimingju.com'+url_info[0])get_index('http://www.shicimingju.com'+url_info[0])
# 获取书籍目录的函数
def get_index(url):response = requests.get(url, headers)etrees = etree.HTML(response.text)url_infos = etrees.xpath('//div[@class="book-mulu"]/ul/li')for i in url_infos:url_info = i.xpath('./a/@href')# print('http://www.shicimingju.com' + url_info[0])get_content('http://www.shicimingju.com' + url_info[0])
# 获取书籍内容并写入.txt文件
def get_content(url):response = requests.get(url, headers)etrees = etree.HTML(response.text)title = etrees.xpath('//div[@class="www-main-container www-shadow-card "]/h1/text()')[0]content = etrees.xpath('//div[@class="chapter_content"]/p/text()')content = ''.join(content)book_name=etrees.xpath('//div[@class="nav-top"]/a[3]/text()')[0]with open(pathname+book_name+'.txt','a+',encoding='utf-8') as f:f.write(title+'\n\n'+content+'\n\n\n')print(title+'..下载完成')# 程序入口
if __name__ == '__main__':url = 'http://www.shicimingju.com/book/'get_book(url)
控制台查看下载过程;
打开文件夹查看是否下载成功;
使用Xpath爬虫库下载诗词名句网的史书典籍类所有文章。相关推荐
- 使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
- python爬虫 爬取诗词名句网
使用requests库,xpath库 import requests import time from lxml import etree# 去请求页面的函数 def request_Header(u ...
- 每日爬虫练习:bs4库爬取诗词名句网的四大名著
一.前言 2020-04-2日爬虫练习 爬取网站:诗词名句网的四大名著 需求:将四大名著的每一个章节存储到本地 技术路线: 1.requests 2.BeautifulSoup 3.os 二.代码解释 ...
- 爬取诗词名句网的三国演义小说
爬取诗词名句网的三国演义小说 诗词名句网,有很多的诗词和一些课本上古诗的,是一个很好的文学网站,但是我们就来爬取诗词名句网的三国演义小说 第一步我们还是导入要导入的库: import requests ...
- 爬虫学习(12):爬取诗词名句网并且下载保存
用BeautifulSoup爬取并且下载.仅仅用作学习用途哈,不然又侵权了. 效果: 由于我是正在自学爬虫,不是很能找到非常优化的办法,是一名计算机大二学生,代码可能不是很好,还请大神指点,这是我扣扣 ...
- Python爬虫诗词名句网教程
爬取的基本步骤 一.明确需求 爬取网站内的小说名 小说内容 二.代码讲解 下面根据代码,从浅入深给大家讲解分析一遍 -- codeing = utf-8 --,开头的这个是设置编码为utf-8 ,写在 ...
- 雪球python爬虫炒股_《雪》_罗隐的诗词_诗词名句网
作品赏析 [注释]: [1]若何:怎么样. 有一类诗,刚接触时感到质木无文,平淡无奇,反复涵咏,却发现它自有一种发人深省的艺术力量.罗隐的<雪>就是这样的作品. 题目是"雪&qu ...
- 用HTML写一首绝句古诗,《绝句二首》_杜甫的诗词_诗词名句网
作品赏析 迟日江山丽,春风花草香. 泥融飞燕子,沙暖睡鸳鸯. 清代的诗论家陶虞开在<说杜>一书中指出,杜集中有不少"以诗为画"的作品.这一首写于成都草堂的五言绝句,就是 ...
- 因子分析python代码_关于「因」的诗词(649首)_诗词名句网
全吴临巨溟,百里到沪渎.海物竞骈罗,水怪争渗漉. 狂蜃吐其气,千寻勃然蹙.一刷半天墨,架为欹危屋. 展开全文 怒鲸瞪相向,吹浪山毂毂.倏忽腥杳冥,须臾坼崖谷. 帝命有严程,慈物敢潜伏.嘘之为玄云,弥亘 ...
最新文章
- 怎么将对象里面部分的属性放到一个空的对象里面去
- vue.js开发环境搭建
- Python-WSGI协议如何实现?
- apache部署多个项目
- 模拟便于直接存取的索引文件结构_07016.2.0使用Solr7对结构化csv文件建立全文索引...
- 百度,在模仿和创新中成长
- 利用自定义事件实现不同窗体间的通讯 -- C#篇
- 【转】Printf()输出格式控制
- 常用服务和开放端口对照表
- 图片转换成文字并导出的方法
- 批量文件转码工具(支持GBK,UTF-8转换)
- 【推荐】700套高端简历模板合集
- Python实现计算机的自动化控制!
- 怎么理解产品经理职位?
- 对我的学科方向软件工程开发技术方向的认识
- Win10 年度最重大更新:代码、理想与爱
- 谈谈温度、压力、同位素设定对量子化学计算结果产生的影响
- 对于区块链的曲解和误会,多半停留在人们对于其呈现方式的狭隘的认识上
- 达梦数据库查看登录失败IP地址
- 彩虹显IP软件即使合法也不合理
热门文章
- InfluxData【付诸实践 01】SpringBoot 集成时序数据库 InfluxDB 应用分享(InfluxDB实例+Feign接口调用InfluxDB API)源码分享
- 计算机验证型数学实验报告,精心设计论文,关于精心设计数学实验培养学生数学能力相关参考文献资料-免费论文范文...
- es查询大文本效率_es中terms查询速度能否优化
- 量子叠加态系数_1.2 量子比特
- LeetCode 20 有效的括号
- 《编译原理》实验报告——TINY语言的词法分析
- 报文交换与分组交换例题
- Google Chrome —— 离线安装/安装包下载解决方案
- Applese 的QQ群
- git remote add Mycat https://github.com/MyCATApache/Mycat-Server.git