python按章节分割txt_python爬虫,爬取小说
功能:爬取并下载小说中非vip部分的内容。
对于一个有八九年书龄的老书虫而言,遇到想看的小说,却没有找到下载的窗口,每次阅读都需要网上搜索,特别是网不好的地方,是十分不方便的。因此利用python写了爬取小说的代码。
以爬取笔趣阁中的求魔小说为例。
- 首先,打开笔趣阁网站,找到求魔这本小说,网址为:https://www.biquge.info/10_10142/。
- 打开vs code软件(本人采用vs coede写python),导入数据包。
import requests
import parsel
from lxml import etree
import os
- 获得所有章节的网址。
利用request获得网页内容。
response = requests.get('https://www.biquge.info/10_10142/')
response.encoding = response.apparent_encoding #对网页进行解析,防止网页乱码
利用xpath获得每一个章节的地址。
html = etree.HTML(response.text)
url_s = html.xpath('//*[@id="list"]/dl/dd') #url_s里存放所有章节地址
- 爬取每一个章节内容。
获得要爬取章节的地址。
for url in url_s:url_one = url.xpath('./a/@href')print('https://www.booktxt.net/5_5871/' +url_one[0])download_one_chapter('https://www.booktxt.net/5_5871/' +url_one[0])
对单个章节内容进行爬取。
def download_one_chapter(url):#爬取一章response = requests.get(url) #请求网页,获取网页数据response.encoding = response.apparent_encoding #解决乱码问题 万能解码sel = parsel.Selector(response.text) #将字符串变成网页#########爬取文章标题###############h1 = sel.css('h1::text') #css选择器 'h1::text'将对象变为字符串title = h1.get()if os.path.exists('txt/' +title +'.txt'):return print(title)#########爬取文章内容content = sel.css('#content::text')title = h1.get()lines = content.getall()text = ''for line in lines:text += line.strip() + 'n'
- 对每一章的内容进行保存。
建立txt文件夹,每一章内容保存在该文件夹中。
with open('txt/' +title +'.txt','w',encoding = 'utf-8') as f:f.write(title)f.write(text)
代码:https://github.com/kj267123-wu/python-
python按章节分割txt_python爬虫,爬取小说相关推荐
- python爬取小说写入txt_Python爬虫爬取小说,并保存至本地文本文件中
运行环境:Python3.6.Pycharm2017.3.Windows10 RS3.requests2.18.4.BeautifulSoup4.6.0 简介 运行效果展示 ① book136_sin ...
- node爬虫爬取小说
node爬虫爬取小说 node爬虫爬取小说 直接上代码 node爬虫爬取小说 最近发现自己喜欢的一个小说无法下载,网页版广告太多,操作太难受,只能自己写个爬虫把内容爬下来放在阅读器里面看 项目下载地址 ...
- Python爬虫—爬取小说名著
周末闲来无事,本来想看一看书的,结果也没看进去(RNG输的我真是糟心...) 于是就用python写了一个爬虫,来爬取小说来看,防止下次还要去网上找书看. 我们先找一个看名著的小说网 我们打开http ...
- python爬取晋江小说简介_python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇...
知识就像碎布,记得"缝一缝",你才能华丽丽地亮相. 1.Beautiful Soup 1.Beautifulsoup 简介 此次实战从网上爬取小说,需要使用到Beautiful S ...
- python 爬虫爬取小说信息
1.进入小说主页(以下示例是我在网上随便找的一片小说),获取该小说的名称.作者以及相关描述信息 2.获取该小说的所有章节列表信息(最重要的是每个章节的链接地址href) 3.根据每个章节的地址信息下载 ...
- python爬虫爬取小说网站并转换为语音文件
前言 作为一个技术宅,本着为眼睛着想的角度考虑,能少看屏幕就尽量少看屏幕,可是又是一个小说迷,那就开动脑筋爬一下小说转换成语音来听书吧 第一章:爬取小说文件 把目标定在小说存储量比较大的网站:起点中文 ...
- Python爬虫爬取小说
近来闲的无聊,天天逛CSDN看到python多火热多火热,就自己根据教程学习爬虫,参考了好几个博文,忘了地址是啥就不贴出来了 开发工具:PcCharm 开发环境:Python3.8 这次爬取的小说网站 ...
- python解析网页数据_python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...
- 关于python爬虫爬取小说
写了一个下载小说的爬虫,具体代码如下: 现在就是有一个问题,如何在不打乱章节顺序的情况下提高爬取的速度呢??? from urllib.parse import quote import reques ...
最新文章
- 通过Scroller.js制作上拉加载和下拉刷新
- input子系统分析(转)
- 【转】数据库设计:物理结构设计
- echarts grid的样式位置_vue使用Echarts vue使用Echarts滚动条
- Java中高级核心知识全面解析——常用框架(SpringMVC-工作原理详解)
- mac 下chrome 和 微信web开发工具跨域配置
- SQLServer IP不能登录问题解决
- 取得数组最大值与最小值
- Python 中的map和reduce学习笔记
- 如何实现BootStrapTable的动态表格
- Ionic3与Angular4新特性
- 大数据项目实训总结_最详细大数据项目落地路线图实践总结
- 解决VST插件无法加载之sam音架的配置
- 档案管理制度计算机管理制度,档案管理制度保密制度
- Android之使用自定义华为扫描SDK扫描二维码和识别本地图片
- html5流媒体多浏览器,PearPlayer流媒体播放器 v2.5.6(开源HTML5流媒体播放框架)
- 在wget中指定代理服务器
- javascript音乐播放器
- 插件系统分析及Discuz插件实现
- comsol移动网格_[转载]COMSOL动网格调试
热门文章
- C++ 对二维数组排序 升序 降序
- 【Python】如何在文件夹里批量分割图片?
- [云炬创业基础笔记]第十一章创业计划书测试1
- [云炬创业基础笔记] 第四章测试3
- 台湾大学林轩田机器学习基石课程学习笔记7 -- The VC Dimension
- python numpy 子数组_Python快速转换numpy数组中Nan和Inf的方法实例说明
- Python类与对象技巧(2):拓展子类属性
- 普211标准三维EE零基础转CS申
- 三个很有用的sqlserver中的处理多个以分隔符分隔的参数的函数
- ffmpeg本地编译没有ffplay解决方案