# 需要的库
from lxml import etree
import requests
# 请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
}
# 保存文本的地址
pathname=r'E:\爬虫\诗词名句网\\'
# 获取书籍名称的函数
def get_book(url):response = requests.get(url,headers)etrees = etree.HTML(response.text)url_infos = etrees.xpath('//div[@class="bookmark-list"]/ul/li')for i in url_infos:url_info = i.xpath('./h2/a/@href')book_name = i.xpath('./h2/a/text()')[0]print('开始下载.'+book_name)# print('http://www.shicimingju.com'+url_info[0])get_index('http://www.shicimingju.com'+url_info[0])
# 获取书籍目录的函数
def get_index(url):response = requests.get(url, headers)etrees = etree.HTML(response.text)url_infos = etrees.xpath('//div[@class="book-mulu"]/ul/li')for i in url_infos:url_info = i.xpath('./a/@href')# print('http://www.shicimingju.com' + url_info[0])get_content('http://www.shicimingju.com' + url_info[0])
# 获取书籍内容并写入.txt文件
def get_content(url):response = requests.get(url, headers)etrees = etree.HTML(response.text)title = etrees.xpath('//div[@class="www-main-container www-shadow-card "]/h1/text()')[0]content = etrees.xpath('//div[@class="chapter_content"]/p/text()')content = ''.join(content)book_name=etrees.xpath('//div[@class="nav-top"]/a[3]/text()')[0]with open(pathname+book_name+'.txt','a+',encoding='utf-8') as f:f.write(title+'\n\n'+content+'\n\n\n')print(title+'..下载完成')# 程序入口
if __name__ == '__main__':url = 'http://www.shicimingju.com/book/'get_book(url)

控制台查看下载过程;
打开文件夹查看是否下载成功;

使用Xpath爬虫库下载诗词名句网的史书典籍类所有文章。相关推荐

  1. 使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~

    上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...

  2. python爬虫 爬取诗词名句网

    使用requests库,xpath库 import requests import time from lxml import etree# 去请求页面的函数 def request_Header(u ...

  3. 每日爬虫练习:bs4库爬取诗词名句网的四大名著

    一.前言 2020-04-2日爬虫练习 爬取网站:诗词名句网的四大名著 需求:将四大名著的每一个章节存储到本地 技术路线: 1.requests 2.BeautifulSoup 3.os 二.代码解释 ...

  4. 爬取诗词名句网的三国演义小说

    爬取诗词名句网的三国演义小说 诗词名句网,有很多的诗词和一些课本上古诗的,是一个很好的文学网站,但是我们就来爬取诗词名句网的三国演义小说 第一步我们还是导入要导入的库: import requests ...

  5. 爬虫学习(12):爬取诗词名句网并且下载保存

    用BeautifulSoup爬取并且下载.仅仅用作学习用途哈,不然又侵权了. 效果: 由于我是正在自学爬虫,不是很能找到非常优化的办法,是一名计算机大二学生,代码可能不是很好,还请大神指点,这是我扣扣 ...

  6. Python爬虫诗词名句网教程

    爬取的基本步骤 一.明确需求 爬取网站内的小说名 小说内容 二.代码讲解 下面根据代码,从浅入深给大家讲解分析一遍 -- codeing = utf-8 --,开头的这个是设置编码为utf-8 ,写在 ...

  7. 雪球python爬虫炒股_《雪》_罗隐的诗词_诗词名句网

    作品赏析 [注释]: [1]若何:怎么样. 有一类诗,刚接触时感到质木无文,平淡无奇,反复涵咏,却发现它自有一种发人深省的艺术力量.罗隐的<雪>就是这样的作品. 题目是"雪&qu ...

  8. 用HTML写一首绝句古诗,《绝句二首》_杜甫的诗词_诗词名句网

    作品赏析 迟日江山丽,春风花草香. 泥融飞燕子,沙暖睡鸳鸯. 清代的诗论家陶虞开在<说杜>一书中指出,杜集中有不少"以诗为画"的作品.这一首写于成都草堂的五言绝句,就是 ...

  9. 因子分析python代码_关于「因」的诗词(649首)_诗词名句网

    全吴临巨溟,百里到沪渎.海物竞骈罗,水怪争渗漉. 狂蜃吐其气,千寻勃然蹙.一刷半天墨,架为欹危屋. 展开全文 怒鲸瞪相向,吹浪山毂毂.倏忽腥杳冥,须臾坼崖谷. 帝命有严程,慈物敢潜伏.嘘之为玄云,弥亘 ...

最新文章

  1. 怎么将对象里面部分的属性放到一个空的对象里面去
  2. vue.js开发环境搭建
  3. Python-WSGI协议如何实现?
  4. apache部署多个项目
  5. 模拟便于直接存取的索引文件结构_07016.2.0使用Solr7对结构化csv文件建立全文索引...
  6. 百度,在模仿和创新中成长
  7. 利用自定义事件实现不同窗体间的通讯 -- C#篇
  8. 【转】Printf()输出格式控制
  9. 常用服务和开放端口对照表
  10. 图片转换成文字并导出的方法
  11. 批量文件转码工具(支持GBK,UTF-8转换)
  12. 【推荐】700套高端简历模板合集
  13. Python实现计算机的自动化控制!
  14. 怎么理解产品经理职位?
  15. 对我的学科方向软件工程开发技术方向的认识
  16. Win10 年度最重大更新:代码、理想与爱
  17. 谈谈温度、压力、同位素设定对量子化学计算结果产生的影响
  18. 对于区块链的曲解和误会,多半停留在人们对于其呈现方式的狭隘的认识上
  19. 达梦数据库查看登录失败IP地址
  20. 彩虹显IP软件即使合法也不合理

热门文章

  1. InfluxData【付诸实践 01】SpringBoot 集成时序数据库 InfluxDB 应用分享(InfluxDB实例+Feign接口调用InfluxDB API)源码分享
  2. 计算机验证型数学实验报告,精心设计论文,关于精心设计数学实验培养学生数学能力相关参考文献资料-免费论文范文...
  3. es查询大文本效率_es中terms查询速度能否优化
  4. 量子叠加态系数_1.2 量子比特
  5. LeetCode 20 有效的括号
  6. 《编译原理》实验报告——TINY语言的词法分析
  7. 报文交换与分组交换例题
  8. Google Chrome —— 离线安装/安装包下载解决方案
  9. Applese 的QQ群
  10. git remote add Mycat https://github.com/MyCATApache/Mycat-Server.git