python按章节分割txt_python爬虫，爬取小说

功能：爬取并下载小说中非vip部分的内容。

对于一个有八九年书龄的老书虫而言，遇到想看的小说，却没有找到下载的窗口，每次阅读都需要网上搜索，特别是网不好的地方，是十分不方便的。因此利用python写了爬取小说的代码。

以爬取笔趣阁中的求魔小说为例。

首先，打开笔趣阁网站，找到求魔这本小说，网址为：https://www.biquge.info/10_10142/。

打开vs code软件（本人采用vs coede写python），导入数据包。

import requests
import parsel
from lxml import etree
import os

获得所有章节的网址。

利用request获得网页内容。

response = requests.get('https://www.biquge.info/10_10142/')
response.encoding = response.apparent_encoding             #对网页进行解析，防止网页乱码

利用xpath获得每一个章节的地址。

html = etree.HTML(response.text)
url_s = html.xpath('//*[@id="list"]/dl/dd')    #url_s里存放所有章节地址

爬取每一个章节内容。

获得要爬取章节的地址。

for url in url_s:url_one = url.xpath('./a/@href')print('https://www.booktxt.net/5_5871/' +url_one[0])download_one_chapter('https://www.booktxt.net/5_5871/' +url_one[0])

对单个章节内容进行爬取。

def download_one_chapter(url):#爬取一章response = requests.get(url)                              #请求网页，获取网页数据response.encoding = response.apparent_encoding            #解决乱码问题 万能解码sel = parsel.Selector(response.text)                      #将字符串变成网页#########爬取文章标题###############h1 = sel.css('h1::text')                         #css选择器  'h1::text'将对象变为字符串title = h1.get()if os.path.exists('txt/' +title +'.txt'):return print(title)#########爬取文章内容content = sel.css('#content::text')title = h1.get()lines = content.getall()text = ''for line in lines:text += line.strip() + 'n'

对每一章的内容进行保存。

建立txt文件夹，每一章内容保存在该文件夹中。

 with open('txt/' +title +'.txt','w',encoding = 'utf-8') as f:f.write(title)f.write(text)

代码：https://github.com/kj267123-wu/python-

python按章节分割txt_python爬虫，爬取小说相关推荐

python爬取小说写入txt_Python爬虫爬取小说，并保存至本地文本文件中
运行环境:Python3.6.Pycharm2017.3.Windows10 RS3.requests2.18.4.BeautifulSoup4.6.0 简介运行效果展示 ① book136_sin ...
node爬虫爬取小说
node爬虫爬取小说 node爬虫爬取小说直接上代码 node爬虫爬取小说最近发现自己喜欢的一个小说无法下载,网页版广告太多,操作太难受,只能自己写个爬虫把内容爬下来放在阅读器里面看项目下载地址 ...
Python爬虫—爬取小说名著
周末闲来无事,本来想看一看书的,结果也没看进去(RNG输的我真是糟心...) 于是就用python写了一个爬虫,来爬取小说来看,防止下次还要去网上找书看. 我们先找一个看名著的小说网我们打开http ...
python爬取晋江小说简介_python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇...
知识就像碎布,记得"缝一缝",你才能华丽丽地亮相. 1.Beautiful Soup 1.Beautifulsoup 简介此次实战从网上爬取小说,需要使用到Beautiful S ...
python 爬虫爬取小说信息
1.进入小说主页(以下示例是我在网上随便找的一片小说),获取该小说的名称.作者以及相关描述信息 2.获取该小说的所有章节列表信息(最重要的是每个章节的链接地址href) 3.根据每个章节的地址信息下载 ...
python爬虫爬取小说网站并转换为语音文件
前言作为一个技术宅,本着为眼睛着想的角度考虑,能少看屏幕就尽量少看屏幕,可是又是一个小说迷,那就开动脑筋爬一下小说转换成语音来听书吧第一章:爬取小说文件把目标定在小说存储量比较大的网站:起点中文 ...
Python爬虫爬取小说
近来闲的无聊,天天逛CSDN看到python多火热多火热,就自己根据教程学习爬虫,参考了好几个博文,忘了地址是啥就不贴出来了开发工具:PcCharm 开发环境:Python3.8 这次爬取的小说网站 ...
python解析网页数据_python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...
关于python爬虫爬取小说
写了一个下载小说的爬虫,具体代码如下: 现在就是有一个问题,如何在不打乱章节顺序的情况下提高爬取的速度呢??? from urllib.parse import quote import reques ...

python按章节分割txt_python爬虫，爬取小说

python按章节分割txt_python爬虫，爬取小说相关推荐

最新文章

热门文章