利用Python爬取小说(附源码)
用30行代码爬取某小说网站上的一篇小说
一、导入模块
import requests
from lxml import etree
import time
二、获取网站的响应信息,并以text打印
url = 'https://www.biquge365.net/newbook/33411/'
head = {'Referer': 'https://www.biquge365.net/book/33411/','users-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.39'
}
response = requests.get(url,headers = head,verify = False)
# print(response.text)
html = etree.HTML(response.text)
三、获取小说的标题及小说目录的href
#[0]列表的第0位
novel_name = html.xpath('/html/body/div[1]/div[3]/div[1]/h1/text()')[0]
# print(novel_name)
novel_directory = html.xpath('/html/body/div[1]/div[4]/ul/li[*]/a/@href')
# print(novel_directory)
#访问太快易报错,设置休眠时间
time.sleep(5)
四、用for循环遍列小说目录,并获取小说正文
for i in novel_directory:com_url = 'https://www.biquge365.net'+i# print(com_url)response2 = requests.get(com_url,headers=head)html2 = etree.HTML(response2.text)novel_chapter = html2.xpath('//*[@id="neirong"]/h1/text()')[0]# print(novel_chapter)novel_content = '\n'.join(html2.xpath('//*[@id="txt"]/text()'))# print(novel_content)
五、保存小说
# 'w'每次写入文件时会把上一次文件中内容清空,'a'追加内容,不会覆盖前面的内容with open('D:\\小说\\'+novel_chapter+'.txt','w',encoding='utf-8') as file:file.write(novel_chapter+'\n'+novel_content+'\n')file.close()print("下载成功"+novel_chapter)
六、下载成功展示
七、保存在电脑上的形式
八、效果展示
文章对你有帮助的话,麻烦点个赞吧!
利用Python爬取小说(附源码)相关推荐
- 利用python爬取小说诡秘之主
import requests,re,os dir_name='guimi' if not os.path.exists('guimi'):os.makedirs('guimi') response= ...
- 利用 Python 爬取了近 3000 条单身女生的数据,究竟她们理想的择偶标准是什么?
灵感来源与学习:利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论? 本文原创作者:壹加柒 本文来源链接:https://blog.csdn.net/yu1300000363/a ...
- cvtcolor python opencv_13行代码实现:Python实时视频采集(附源码)
程序逻辑 Python实时视频采集程序主要流程共分为10个步骤,具体如下图所示: 流程描述: 库文件导入:导入程序依赖的python安装包: 摄像头管理对象创建和初始化:是对opencv VideoC ...
- 利用python爬取58同城简历数据
利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...
- 利用python爬取58同城简历数据_利用python爬取58同城简历数据-Go语言中文社区
利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...
- 利用Python爬取散文网的文章实例
这篇文章主要跟大家介绍了利用python爬取散文网文章的相关资料,文中介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面来一起看看吧. 本文主要给大家介绍的是关于python爬取散文网文章 ...
- python 怎么爬桌软件数据_如何利用Python爬取并分析红岭创投的数据?
第一步:爬取数据 通过 selenium + Firefox 的无头模式将需要的数据爬取出来,代码实现不在赘述,详细步骤可查看我的上一篇图文(如何利用Python爬取网易新闻), 由于 seleniu ...
- python 翻译库本地库_利用python爬取并翻译GEO数据库
原标题:利用python爬取并翻译GEO数据库 GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这 ...
- 利用python爬取东方财富网股吧评论并进行情感分析(一)
利用python爬取东方财富网股吧评论(一) python-东方财富网贴吧文本数据爬取 分享一下写论文时爬数据用到的代码,有什么问题或者改善的建议的话小伙伴们一起评论区讨论.涉及内容在前人的研究基础之 ...
最新文章
- 浅谈STM32的DMA模块的使用
- 枚举类型enum用法_Java枚举深度解读,看这篇就够了
- getElementByClassName()不兼容的解决办法
- java中的并发类_java中并发常用工具类
- URL报错: unknown protocol
- As-Conformal-As-Possible Surface Registration
- java正则卡号4位一空格_银行卡号每隔4位插入空格
- mssql2000跟mssql2005共享问题
- 条形码是什么,主要有什么区别
- Android SDK Platform Tools下载(包括adb 、 fastboot 和 systrace)
- 东莞潇洒老师:分享PROE产品设计塑胶产品结构基本设计
- 2021年起重机械指挥新版试题及起重机械指挥模拟考试
- 暑假集训 ---- 字符串2 (SAM专题)
- unity 关于使用Rigidbody的Addforce但不起作用的一些可能原因以及解决方法
- Linux计划任务与日志管理
- 问题 F: 超超的自闭意思
- 意大利法院认可GPL开源协议的法律效力
- 万圣节H5的经典案例,速收藏!
- 国开电大-成本管理-形考任务1-4
- SNMP MIB Browser