import requests
import reheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}
#爬取章节内容
def textPaqu(url):bigUrl = 'http://www.shicimingju.com'new_url = bigUrl+urlresponse = requests.get(url=new_url, headers=headers)content = response.content.decode('utf-8')pat_t = re.compile('<h1>(.*?)</h1>')pat_content = re.compile('<p>(.*?)</p>')title = pat_t.findall(content)text = pat_content.findall(content)fr = open(r'text\三国演义.txt', 'a+')fr.write(title[0]+'\n\n')for i in text:fr.write(i.strip().replace('&nbsp;',' ')+'\n')fr.write('\n\n')fr.close()#爬取简介和章节名
def paqu():url = 'http://www.shicimingju.com/book/sanguoyanyi.html'response = requests.get(url=url,headers=headers)content = response.content.decode('utf-8')pat_T = re.compile('<h1>(.*?)</h1>')pat_jianjie = re.compile('<p>(.*?)</p>')pat_t = re.compile('<li><a href="(/book/sanguoyanyi/.*?)">.*?</a></li>')title = pat_T.findall(content)jianjie = pat_jianjie.findall(content)zhangjie = pat_t.findall(content)fr = open(r'text\三国演义.txt','a+')fr.write(title[0]+'\n')for i in jianjie:fr.write(i+'\n')fr.write('\n\n')fr.close()for i in range(len(zhangjie)):print('正在爬取第%d章'%(i+1))textPaqu(zhangjie[i])print('第%d章爬去完成'%(i+1))paqu()

python诗词名句网爬取《三国演义》相关推荐

  1. python彼岸图网爬取1200像素预览图

    文章目录 写在前面: 目标 网页分析 代码编辑 源码 写在后面 写在前面: 算算学习爬虫断断续续的大概有两个月左右了, 从开始的一无所知 ,到后面能爬点简单的网站,真的是满满的一把辛酸泪. 如今马上期 ...

  2. Python爬虫——片库网 爬取 视频

    片库url:http://tv.cnco.me/ 一.进入网站 二.输入关键字跳转界面 格式: url = "http://tv.cnco.me/" search_keyword ...

  3. 爬取诗词名句网的三国演义小说

    爬取诗词名句网的三国演义小说 诗词名句网,有很多的诗词和一些课本上古诗的,是一个很好的文学网站,但是我们就来爬取诗词名句网的三国演义小说 第一步我们还是导入要导入的库: import requests ...

  4. 每日爬虫练习:bs4库爬取诗词名句网的四大名著

    一.前言 2020-04-2日爬虫练习 爬取网站:诗词名句网的四大名著 需求:将四大名著的每一个章节存储到本地 技术路线: 1.requests 2.BeautifulSoup 3.os 二.代码解释 ...

  5. 使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~

    上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...

  6. python三国演义人物出场统计_python爬取三国演义文本

    1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题:哪个人物在三国演义中出现的次数最多?,我们希望通过数据分析来获得答案 ...

  7. python爬取三国演义文本,统计三国演义中出场次数前30的人物,并生成词云、图表

    目录 1.目标 2.码前须知 3.操作流程 4.完整代码 5.总结 1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题: ...

  8. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  9. 使用python爬取三国演义

    此篇使用的是python进行数据爬虫 爬取工具使用的是:bs4,requests 爬取的网站:https://www.shicimingju.com/book/sanguoyanyi.html 爬取的 ...

最新文章

  1. 2022-2028年中国农副产品行业市场供需规模及未来前景分析报告
  2. div模拟textarea文本域轻松实现高度自适应
  3. 2016年全球芯片市场或衰退2.13%
  4. 【zepto学习笔记01】核心方法$()
  5. QOS仍然很有价值-Vecloud
  6. access开发精要(4)-参考与查阅
  7. [Prism]Composite Application Guidance for WPF(10)——系列目录导航
  8. 用NuGet掌管你的Vi“.NET研究”sual Studio扩展
  9. NLP语言资源 | 汽车、金融等9大领域预训练词向量与依存、拼音等4类特殊向量开放...
  10. 648 页全彩 + 395张插图 的机器翻译传奇巨作 -- 送几本~
  11. 数据科学包15-matplotlib详细介绍
  12. Excel导入SQL datetime的处理
  13. windows下的dig 命令和nslookup的用法及详例
  14. IPv6下一代互联网现在就出发!
  15. 计算机毕业设计ssm毕业论文管理系统b909r系统+程序+源码+lw+远程部署
  16. Error:java.lang.RuntimeException: Some file crunching failed, see logs for detail
  17. MOOC北京理工《C语言程序设计(上)》第4周第2题:确定母亲节
  18. java计算器取负数_JAVA-复数计算器
  19. 声音以模拟信号的形式存储在计算机中,08计算机1-2班《计算机基础》自学资料(5)...
  20. 心率检测实现报告(一)

热门文章

  1. cad打印透明图像背景是白色的
  2. 每次审查 OKR时,团队要讨论的12个启发性问题
  3. WIN2008安装及设置优化图解
  4. Log、Rlog和Slog的区别
  5. C++有哪些常用的库文件
  6. 对话刘鑫:建筑可视化“奥斯卡”学生组冠军如何玩转视觉艺术,探寻虚实边界
  7. 电脑反应慢 出现黑屏
  8. python copy用法_Python 列表 copy() 使用方法及示例
  9. 协同过滤算法智能推荐原理与实践
  10. 十分钟看懂道德经道德经