python诗词名句网爬取《三国演义》

import requests
import reheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}
#爬取章节内容
def textPaqu(url):bigUrl = 'http://www.shicimingju.com'new_url = bigUrl+urlresponse = requests.get(url=new_url, headers=headers)content = response.content.decode('utf-8')pat_t = re.compile('<h1>(.*?)</h1>')pat_content = re.compile('<p>(.*?)</p>')title = pat_t.findall(content)text = pat_content.findall(content)fr = open(r'text\三国演义.txt', 'a+')fr.write(title[0]+'\n\n')for i in text:fr.write(i.strip().replace('&nbsp;',' ')+'\n')fr.write('\n\n')fr.close()#爬取简介和章节名
def paqu():url = 'http://www.shicimingju.com/book/sanguoyanyi.html'response = requests.get(url=url,headers=headers)content = response.content.decode('utf-8')pat_T = re.compile('<h1>(.*?)</h1>')pat_jianjie = re.compile('<p>(.*?)</p>')pat_t = re.compile('<li><a href="(/book/sanguoyanyi/.*?)">.*?</a></li>')title = pat_T.findall(content)jianjie = pat_jianjie.findall(content)zhangjie = pat_t.findall(content)fr = open(r'text\三国演义.txt','a+')fr.write(title[0]+'\n')for i in jianjie:fr.write(i+'\n')fr.write('\n\n')fr.close()for i in range(len(zhangjie)):print('正在爬取第%d章'%(i+1))textPaqu(zhangjie[i])print('第%d章爬去完成'%(i+1))paqu()

python诗词名句网爬取《三国演义》相关推荐

python彼岸图网爬取1200像素预览图
文章目录写在前面: 目标网页分析代码编辑源码写在后面写在前面: 算算学习爬虫断断续续的大概有两个月左右了, 从开始的一无所知 ,到后面能爬点简单的网站,真的是满满的一把辛酸泪. 如今马上期 ...
Python爬虫——片库网爬取视频
片库url:http://tv.cnco.me/ 一.进入网站二.输入关键字跳转界面格式: url = "http://tv.cnco.me/" search_keyword ...
爬取诗词名句网的三国演义小说
爬取诗词名句网的三国演义小说诗词名句网,有很多的诗词和一些课本上古诗的,是一个很好的文学网站,但是我们就来爬取诗词名句网的三国演义小说第一步我们还是导入要导入的库: import requests ...
每日爬虫练习：bs4库爬取诗词名句网的四大名著
一.前言 2020-04-2日爬虫练习爬取网站:诗词名句网的四大名著需求:将四大名著的每一个章节存储到本地技术路线: 1.requests 2.BeautifulSoup 3.os 二.代码解释 ...
使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
python三国演义人物出场统计_python爬取三国演义文本
1.目标 python爬取三国演义,生成词云.图表 2.码前须知项目目标:三国人物名称及出现次数-----数据统计分析提出问题:哪个人物在三国演义中出现的次数最多?,我们希望通过数据分析来获得答案 ...
python爬取三国演义文本，统计三国演义中出场次数前30的人物，并生成词云、图表
目录 1.目标 2.码前须知 3.操作流程 4.完整代码 5.总结 1.目标 python爬取三国演义,生成词云.图表 2.码前须知项目目标:三国人物名称及出现次数-----数据统计分析提出问题: ...
Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下创建项目 sc ...
使用python爬取三国演义
此篇使用的是python进行数据爬虫爬取工具使用的是:bs4,requests 爬取的网站:https://www.shicimingju.com/book/sanguoyanyi.html 爬取的 ...

python诗词名句网爬取《三国演义》

python诗词名句网爬取《三国演义》相关推荐

最新文章

热门文章