用30行代码爬取某小说网站上的一篇小说

一、导入模块

import requests
from lxml import etree
import time

二、获取网站的响应信息,并以text打印

url = 'https://www.biquge365.net/newbook/33411/'
head = {'Referer': 'https://www.biquge365.net/book/33411/','users-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.39'
}
response = requests.get(url,headers = head,verify = False)
# print(response.text)
html = etree.HTML(response.text)

三、获取小说的标题及小说目录的href

#[0]列表的第0位
novel_name = html.xpath('/html/body/div[1]/div[3]/div[1]/h1/text()')[0]
# print(novel_name)
novel_directory = html.xpath('/html/body/div[1]/div[4]/ul/li[*]/a/@href')
# print(novel_directory)
#访问太快易报错,设置休眠时间
time.sleep(5)

四、用for循环遍列小说目录,并获取小说正文

for i in novel_directory:com_url = 'https://www.biquge365.net'+i# print(com_url)response2 = requests.get(com_url,headers=head)html2 = etree.HTML(response2.text)novel_chapter = html2.xpath('//*[@id="neirong"]/h1/text()')[0]# print(novel_chapter)novel_content = '\n'.join(html2.xpath('//*[@id="txt"]/text()'))# print(novel_content)

五、保存小说

    # 'w'每次写入文件时会把上一次文件中内容清空,'a'追加内容,不会覆盖前面的内容with open('D:\\小说\\'+novel_chapter+'.txt','w',encoding='utf-8') as file:file.write(novel_chapter+'\n'+novel_content+'\n')file.close()print("下载成功"+novel_chapter)

六、下载成功展示

七、保存在电脑上的形式

八、效果展示

文章对你有帮助的话,麻烦点个赞吧!

利用Python爬取小说(附源码)相关推荐

  1. 利用python爬取小说诡秘之主

    import requests,re,os dir_name='guimi' if not os.path.exists('guimi'):os.makedirs('guimi') response= ...

  2. 利用 Python 爬取了近 3000 条单身女生的数据,究竟她们理想的择偶标准是什么?

    灵感来源与学习:利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论? 本文原创作者:壹加柒 本文来源链接:https://blog.csdn.net/yu1300000363/a ...

  3. cvtcolor python opencv_13行代码实现:Python实时视频采集(附源码)

    程序逻辑 Python实时视频采集程序主要流程共分为10个步骤,具体如下图所示: 流程描述: 库文件导入:导入程序依赖的python安装包: 摄像头管理对象创建和初始化:是对opencv VideoC ...

  4. 利用python爬取58同城简历数据

    利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...

  5. 利用python爬取58同城简历数据_利用python爬取58同城简历数据-Go语言中文社区

    利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...

  6. 利用Python爬取散文网的文章实例

    这篇文章主要跟大家介绍了利用python爬取散文网文章的相关资料,文中介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面来一起看看吧. 本文主要给大家介绍的是关于python爬取散文网文章 ...

  7. python 怎么爬桌软件数据_如何利用Python爬取并分析红岭创投的数据?

    第一步:爬取数据 通过 selenium + Firefox 的无头模式将需要的数据爬取出来,代码实现不在赘述,详细步骤可查看我的上一篇图文(如何利用Python爬取网易新闻), 由于 seleniu ...

  8. python 翻译库本地库_利用python爬取并翻译GEO数据库

    原标题:利用python爬取并翻译GEO数据库 GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这 ...

  9. 利用python爬取东方财富网股吧评论并进行情感分析(一)

    利用python爬取东方财富网股吧评论(一) python-东方财富网贴吧文本数据爬取 分享一下写论文时爬数据用到的代码,有什么问题或者改善的建议的话小伙伴们一起评论区讨论.涉及内容在前人的研究基础之 ...

最新文章

  1. 浅谈STM32的DMA模块的使用
  2. 枚举类型enum用法_Java枚举深度解读,看这篇就够了
  3. getElementByClassName()不兼容的解决办法
  4. java中的并发类_java中并发常用工具类
  5. URL报错: unknown protocol
  6. As-Conformal-As-Possible Surface Registration
  7. java正则卡号4位一空格_银行卡号每隔4位插入空格
  8. mssql2000跟mssql2005共享问题
  9. 条形码是什么,主要有什么区别
  10. Android SDK Platform Tools下载(包括adb 、 fastboot 和 systrace)
  11. 东莞潇洒老师:分享PROE产品设计塑胶产品结构基本设计
  12. 2021年起重机械指挥新版试题及起重机械指挥模拟考试
  13. 暑假集训 ---- 字符串2 (SAM专题)
  14. unity 关于使用Rigidbody的Addforce但不起作用的一些可能原因以及解决方法
  15. Linux计划任务与日志管理
  16. 问题 F: 超超的自闭意思
  17. 意大利法院认可GPL开源协议的法律效力
  18. 万圣节H5的经典案例,速收藏!
  19. 国开电大-成本管理-形考任务1-4
  20. SNMP MIB Browser

热门文章

  1. 【网络安全】文件包含漏洞总结
  2. 水晶报表10的下载地址及注册码
  3. 散列表,(拉链法,平方探测法,线性探测法)
  4. Arcgis API For js 的离线部署
  5. 微信卡券领用中的问题
  6. 会员卡券领取 小程序_新增卡券功能在哪 微信小程序内直接领取卡券方法
  7. “狗屁不通文章生成器”项目登顶GitHub热榜~
  8. win7开机卡在正在启动_电脑重装了系统,却卡在图标截面
  9. poj 1324 Astar
  10. A. Equalize Prices Again