Python爬虫实战——下载小说

  • 前言
  • 第三方库的安装
  • 示例代码
  • 效果演示
  • 结尾

前言

使用requests库下载开源网站的小说

注意:本文仅用于学习交流,禁止用于盈利或侵权行为。

操作系统:windows10 家庭版
开发环境:Pycharm Conmunity 2022.3
解释器版本:Python3.8
第三方库:requests、bs4

第三方库的安装

需要安装 bs4requests
你可以参考我的以下文章获取些许帮助:

Python第三方库安装——使用vscode、pycharm安装Python第三方库
Python中requests库使用方法详解

示例代码

import requests
from bs4 import BeautifulSoup# 伪装浏览器头
header={"User-agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Mobile Safari/537.36 Edg/112.0.1722.48"}# 53851740 是第一章的位置
# 746 - 740 = 6, 即爬取6章
for i in range(740,746):# 选定URLurl= ("https://www.bbiquge.net/book/476/53851{}.html".format(i))# 请求页面,返回response对象resp=requests.get(url=url,headers=header)#解析页面html=BeautifulSoup(resp.text,"html.parser")# 获取标题title=html.find("h1")# 获取正文content=html.find("div",id="content")# 写入文件with open("{}.txt".format(title.text),"w+",encoding="utf-8") as f:f.write((content.text).replace(" ","\n") )f.close()

效果演示


结尾

代码尚不完善,代码风格不符合标准,还有值得更改的地方,如:可以去除小说中的广告,合并到同一个txt文件中等

与爬取电影影评一样,也可以通过更改以下界面的值来达到爬取不同的小说的效果

Python爬虫实战——下载小说相关推荐

  1. python 爬虫:下载小说

    最近在水滴阅读看英文原著<绿野仙踪>,在PP作文中下载中文版本. 下载到第12章的时候,好像是html网页出错,拿不到下一章的url. 跳过12章,将首页地址更新为第13章,可以继续下 # ...

  2. Python爬虫实战 下载原力创付费文档---全屏阅览式

    下载原力创付费文档-全屏阅览式 一.项目需求: 从目标网址下载付费文档,并保存为word形式 网址点这里 二.思路 1.利用selenium实现异步加载,获取图片url 2.爬取图片 3.将图片写进w ...

  3. Python爬虫实战 下载原力创付费文档---滑动式

    下载原力创付费文档-滑动式 一.项目需求: 从目标网址下载付费文档,并保存为PDF形式 网址点这里 二.思路 1.利用selenium实现异步加载,获取图片url 2.爬取图片 3.将图片写进word ...

  4. python爬虫图片实例-【图文详解】python爬虫实战——5分钟做个图片自动下载器...

    我想要(下)的,我现在就要 python爬虫实战--图片自动下载器 之前介绍了那么多基本知识[Python爬虫]入门知识(没看的赶紧去看)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk ...

  5. Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3)

    Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3) 1. 异步加载爬虫 对于静态页面爬虫很容易获取到站点的数据内容,然而静态页面需要全量加载站点的所有数据,对于网站的访问 ...

  6. 【爬虫实战项目】Python爬虫批量下载音乐飙升榜并保存本地(附源码)

    前言 今天给大家介绍的是Python爬虫批量下载音乐飙升榜并保存本地,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是 ...

  7. 【图文详解】python爬虫实战——5分钟做个图片自动下载器

    python爬虫实战--图片自动下载器 之前介绍了那么多基本知识[Python爬虫]入门知识,大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap show me the c ...

  8. python爬虫实战-爬取视频网站下载视频至本地(selenium)

    #python爬虫实战-爬取视频网站下载视频至本地(selenium) import requests from lxml import etree import json from selenium ...

  9. Python爬虫实战 — — Wallhaven壁纸高清原图下载

    Python爬虫实战 - - Wallhaven壁纸高清原图下载 一.网站分析 二.可行性分析 三.代码分析 1.所需第三方库与请求头 2.获取当前页的所有壁纸图像链接 3.根据图像链接存储本地 4. ...

最新文章

  1. java calendar去掉时分秒_java 8:只取年月日的java.util.Date(时分秒清零)对象
  2. Hadoop 之Pig的安装的与配置之遇到的问题---待解决
  3. 伟大的人为什么伟大呢?
  4. Python批量提取docx格式Word文档中所有文本框内的文本
  5. 生产环境一次诡异的空指针问题,反转了4次
  6. 读书笔记——实时渲染(一)
  7. STM32编程语言介绍
  8. 使用邮件合并批量制作工资条并进行发送邮件
  9. (四十七)情景分析与压力测试——Stressed VaR
  10. C专家编程 模块化与有限机编写cdecl声明程序
  11. AFM技术原理及相关测试模式
  12. Asp.Net Core 2.1 取消HTTPS配置
  13. 【精选实践】爱奇艺实用数据库选型树:不同场景如何快速选择数据库?
  14. 在linux下运行英雄,在 Linux 下玩《英雄无敌 3》游戏
  15. 收银系统源码演示-适合超市便利店零售等行业
  16. 数学建模part (4):综合评价
  17. 高斯分布(正态分布)(高斯函数)(Gaussian)(高斯噪声)
  18. 软件测评师--第四小时 测试过程与管理
  19. 最新计算机是哪种,pc机属于什么类型计算机
  20. 新媒体音乐,不适合闭目欣赏的前卫艺术

热门文章

  1. 推荐几个Python爬虫接单渠道
  2. 网站被黑了该如何解决?网站被黑了怎么办
  3. ftp服务器备份手机文件,ftp服务器文件自动备份
  4. 湖南省政务云灾备_全省唯一的省级政务云灾备基地在内江正式启动
  5. 苹果全球开发者大会推出智能音箱网友吐槽Siri“掉链子”
  6. pl sql 和if loop结构
  7. CCNA理论学习笔记整理(一)
  8. WIN10电脑桌面整理及其壁纸应用推荐
  9. K210学习笔记(三) K210与STM32进行串口通信,K210发STM收
  10. 英文电影经典台词整理(原创)