python诗词名句网爬取《三国演义》
import requests
import reheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}
#爬取章节内容
def textPaqu(url):bigUrl = 'http://www.shicimingju.com'new_url = bigUrl+urlresponse = requests.get(url=new_url, headers=headers)content = response.content.decode('utf-8')pat_t = re.compile('<h1>(.*?)</h1>')pat_content = re.compile('<p>(.*?)</p>')title = pat_t.findall(content)text = pat_content.findall(content)fr = open(r'text\三国演义.txt', 'a+')fr.write(title[0]+'\n\n')for i in text:fr.write(i.strip().replace(' ',' ')+'\n')fr.write('\n\n')fr.close()#爬取简介和章节名
def paqu():url = 'http://www.shicimingju.com/book/sanguoyanyi.html'response = requests.get(url=url,headers=headers)content = response.content.decode('utf-8')pat_T = re.compile('<h1>(.*?)</h1>')pat_jianjie = re.compile('<p>(.*?)</p>')pat_t = re.compile('<li><a href="(/book/sanguoyanyi/.*?)">.*?</a></li>')title = pat_T.findall(content)jianjie = pat_jianjie.findall(content)zhangjie = pat_t.findall(content)fr = open(r'text\三国演义.txt','a+')fr.write(title[0]+'\n')for i in jianjie:fr.write(i+'\n')fr.write('\n\n')fr.close()for i in range(len(zhangjie)):print('正在爬取第%d章'%(i+1))textPaqu(zhangjie[i])print('第%d章爬去完成'%(i+1))paqu()
python诗词名句网爬取《三国演义》相关推荐
- python彼岸图网爬取1200像素预览图
文章目录 写在前面: 目标 网页分析 代码编辑 源码 写在后面 写在前面: 算算学习爬虫断断续续的大概有两个月左右了, 从开始的一无所知 ,到后面能爬点简单的网站,真的是满满的一把辛酸泪. 如今马上期 ...
- Python爬虫——片库网 爬取 视频
片库url:http://tv.cnco.me/ 一.进入网站 二.输入关键字跳转界面 格式: url = "http://tv.cnco.me/" search_keyword ...
- 爬取诗词名句网的三国演义小说
爬取诗词名句网的三国演义小说 诗词名句网,有很多的诗词和一些课本上古诗的,是一个很好的文学网站,但是我们就来爬取诗词名句网的三国演义小说 第一步我们还是导入要导入的库: import requests ...
- 每日爬虫练习:bs4库爬取诗词名句网的四大名著
一.前言 2020-04-2日爬虫练习 爬取网站:诗词名句网的四大名著 需求:将四大名著的每一个章节存储到本地 技术路线: 1.requests 2.BeautifulSoup 3.os 二.代码解释 ...
- 使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
- python三国演义人物出场统计_python爬取三国演义文本
1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题:哪个人物在三国演义中出现的次数最多?,我们希望通过数据分析来获得答案 ...
- python爬取三国演义文本,统计三国演义中出场次数前30的人物,并生成词云、图表
目录 1.目标 2.码前须知 3.操作流程 4.完整代码 5.总结 1.目标 python爬取三国演义,生成词云.图表 2.码前须知 项目目标:三国人物名称及出现次数-----数据统计分析 提出问题: ...
- Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...
- 使用python爬取三国演义
此篇使用的是python进行数据爬虫 爬取工具使用的是:bs4,requests 爬取的网站:https://www.shicimingju.com/book/sanguoyanyi.html 爬取的 ...
最新文章
- 2022-2028年中国农副产品行业市场供需规模及未来前景分析报告
- div模拟textarea文本域轻松实现高度自适应
- 2016年全球芯片市场或衰退2.13%
- 【zepto学习笔记01】核心方法$()
- QOS仍然很有价值-Vecloud
- access开发精要(4)-参考与查阅
- [Prism]Composite Application Guidance for WPF(10)——系列目录导航
- 用NuGet掌管你的Vi“.NET研究”sual Studio扩展
- NLP语言资源 | 汽车、金融等9大领域预训练词向量与依存、拼音等4类特殊向量开放...
- 648 页全彩 + 395张插图 的机器翻译传奇巨作 -- 送几本~
- 数据科学包15-matplotlib详细介绍
- Excel导入SQL datetime的处理
- windows下的dig 命令和nslookup的用法及详例
- IPv6下一代互联网现在就出发!
- 计算机毕业设计ssm毕业论文管理系统b909r系统+程序+源码+lw+远程部署
- Error:java.lang.RuntimeException: Some file crunching failed, see logs for detail
- MOOC北京理工《C语言程序设计(上)》第4周第2题:确定母亲节
- java计算器取负数_JAVA-复数计算器
- 声音以模拟信号的形式存储在计算机中,08计算机1-2班《计算机基础》自学资料(5)...
- 心率检测实现报告(一)