requests爬取小说

首先先选择一个小说网站，随便选择一章内容，url为http://www.biqukan.com/3_3039/1351331.html

点击鼠标右键，选择审查元素，查看网页结构

查看之后就可以用BeautifulSoup来提取网页中的内容了

import requests
from bs4 import BeautifulSoup
import re
headers = {'User-Agent':'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)',}
url = 'http://www.biqukan.com/3_3039/1351331.html'
html = requests.get(url,headers=headers)
# 获取到网页的文本格式
html = html.text
soup = BeautifulSoup(html,'lxml')
# 选择器得到的是一个列表，只有一个元素，要选取第一个
zhangjie = soup.select('div.content h1')[0]
# 得到章节的文本内容
zhangjie = zhangjie.text
print(zhangjie)
# 查找属性是id为'content'且class为'showtxt'的标签
text = soup.find(id='content', class_='showtxt')
# 得到文本内容
text=text.text
# 将得到的文本存入文件中
with open('xiaoshuo.txt','w',encoding='utf-8') as f:f.write(zhangjie)f.write(text)

运行程序，得到一下结果

然后得到一个名为xiaoshuo.txt的文件，点开该文件就可看到内容，格式有点不美观，但能看就行，意思到了就可以了

这只是爬取了一章网页的内容，接下来我就要将本小说爬取下来了

url=http://www.biqukan.com/3_3039/

鼠标点击右键查看

我们只需爬取正文卷就好了，选取dd标签的时候如果使用find_all的话有点麻烦，本人又是个最不喜欢麻烦的人，直接简单粗暴就用下标截取，能达到目的就行了，虽然代码健壮性差，但能出结果就行。

import requests
from bs4 import BeautifulSoup# 解析url
def main(url):html = requests.get(url, headers=headers)html = html.textsoup = BeautifulSoup(html, 'lxml')# 得到神墓正文的dd标签，跳过最新章节nr = soup.select('div.listmain dd')[12:]# 分别读取其中的dd标签for i in nr:# 分别取出每个标签的内容和链接title = i.texturl = i.a.get('href')# 得到的url不完整，所以做进一步的拼接url = 'http://www.biqukan.com' + url# 调用解析网页内容的小说正文next_page(title,url)# 解析得到网页的正文
def next_page(title,url):txt = requests.get(url)html = txt.text# 进一步解析每一张url的网页内容soup = BeautifulSoup(html, 'lxml')# 查找属性是id为'content'且class为'showtxt'的标签text = soup.find(id='content', class_='showtxt')# 获取到小说正文text = text.text# 下载该章节小说downlode(title,text,url)# 下载小说
def downlode(title,text,url):with open('shengmu.txt', 'a+', encoding='utf-8') as f:f.write(title)f.write(text+'\n')print('{} 下载完成  链接地址为 {}'.format(title,url))if __name__ == '__main__':headers = {'User-Agent': 'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)', }url = 'http://www.biqukan.com/3_3039/'main(url)

运行代码，就会看到逐步在下载小说了

然后看一下我们保存小说的文件

然后就看到我们的数据了，有兴趣的可以把格式装换下，这样看起来就美观多了

requests爬取小说相关推荐

Python爬虫实战，requests+openpyxl模块，爬取小说数据并保存txt文档（附源码）
前言今天给大家介绍的是Python爬取小说数据并保存txt文档,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样 ...
爬取小说2--协程间通信Python
通过Python进行协程间通信,大大加速爬取效率. 前言是这样的,在之前的爬虫版本中,我们通过并发技术(python协程只是并发).实现快速爬取小说的效果. 将速度提高为原来的几百倍了.但是却由于之 ...
多进程爬虫（爬取小说）Python实现
区别于之前用多协程写的爬虫版本多协程爬取小说这个版本,开销会比较大.效率上也不一定有之前的高不过,总体上还是很不错的~ 问题分析这个版本,还有之前的版本都一样,还存在问题,就是在下载好了文件之 ...
python多线程爬虫数据顺序_多线程爬取小说时如何保证章节的顺序
前言爬取小说时,以每一个章节为一个线程进行爬取,如果不加以控制的话,保存的时候各个章节之间的顺序会乱掉. 当然,这里说的是一本小说保存为单个txt文件,如果以每个章节为一个txt文件,自然不会存在这 ...
还不知道要看什么小说嘛？爬取小说网站前10页的小说数据分析一波
爬取小说数据效果网页分析网页网址分析书内容位置分析不同书内容位置分析将内容存到Excel 完整代码效果网页分析网页网址分析对比我们可以发现,不同的网页只有后边的数字不一样. 得到前 ...
看小说有广告？不可能的，分分钟教你爬取小说
爬取小说效果分析网页正则表达式分析请求头分析完整代码可能出现的错误效果分析网页我们可以看到小说的章节的标题与对应的链接是在<dd></dd>这个节点中的. ...
python按章节分割txt_python爬虫，爬取小说
功能:爬取并下载小说中非vip部分的内容. 对于一个有八九年书龄的老书虫而言,遇到想看的小说,却没有找到下载的窗口,每次阅读都需要网上搜索,特别是网不好的地方,是十分不方便的.因此利用python写了 ...
python 爬虫爬取小说信息
1.进入小说主页(以下示例是我在网上随便找的一片小说),获取该小说的名称.作者以及相关描述信息 2.获取该小说的所有章节列表信息(最重要的是每个章节的链接地址href) 3.根据每个章节的地址信息下载 ...
python 小说爬虫_Python实现的爬取小说爬虫功能示例
本文实例讲述了Python实现的爬取小说爬虫功能.分享给大家供大家参考,具体如下: 想把顶点小说网上的一篇持续更新的小说下下来,就写了一个简单的爬虫,可以爬取爬取各个章节的内容,保存到txt文档中,支 ...

requests爬取小说

requests爬取小说相关推荐

最新文章

热门文章