用python爬取笔趣阁小说并分章节保存到本地
在宿舍无聊时想做点小程序,刚好又看到笔趣阁的广告,就想着爬一下小说看看,通过网上的爬取教程整理的
使用beautifulsoup解析request获取的HTML http://beautifulsoup.readthedocs.io/zh_CN/latest/
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
import osif __name__=='__main__':#所要爬取的小说主页,每次使用时,修改该网址即可,同时保证本地保存根路径存在即可target="https://www.biqubao.com/book/17570/"# 本地保存爬取的文本根路径save_path = 'D:/pythontest/read'#笔趣阁网站根路径index_path='https://www.biqubao.com'req=requests.get(url=target)#查看request默认的编码,发现与网站response不符,改为网站使用的gdkprint(req.encoding)req.encoding = 'gbk'#解析htmlsoup=BeautifulSoup(req.text,"html.parser")list_tag=soup.div(id="list")print('list_tag:',list_tag)#获取小说名称story_title=list_tag[0].dl.dt.string# 根据小说名称创建一个文件夹,如果不存在就新建dir_path=save_path+'/'+story_titleif not os.path.exists(dir_path):os.path.join(save_path,story_title)os.mkdir(dir_path)#开始循环每一个章节,获取章节名称,与章节对应的网址for dd_tag in list_tag[0].dl.find_all('dd'):#章节名称chapter_name=dd_tag.string#章节网址chapter_url=index_path+dd_tag.a.get('href')#访问该章节详情网址,爬取该章节正文chapter_req = requests.get(url=chapter_url)chapter_req.encoding = 'gbk'chapter_soup = BeautifulSoup(chapter_req.text, "html.parser")#解析出来正文所在的标签content_tag = chapter_soup.div.find(id="content")#获取正文文本,并将空格替换为换行符content_text = str(content_tag.text.replace('\xa0','\n'))#将当前章节,写入以章节名字命名的txt文件with open(dir_path+'/'+chapter_name+'.txt', 'w') as f:f.write('本文网址:'+chapter_url)f.write(content_text)
用python爬取笔趣阁小说并分章节保存到本地相关推荐
- 通过python爬取笔趣阁小说,获取图片保存本地,数据保存mysql
通过python爬取小说图片.小说名称.作者.章节.内容.直接上代码 import requests import time from bs4 import BeautifulSoup from qu ...
- python爬取笔趣阁小说(附源码)
python爬取笔趣阁小说 文章目录 python爬取笔趣阁小说 前言 一.获取小说目录结构 获取目录连接 请求代码 解析目录 XPath tqdm 解析 二.获取小说章节结构 请求代码 解析章节 代 ...
- python爬取小说爬取_用python爬取笔趣阁小说
原标题:用python爬取笔趣阁小说 首先打开笔趣阁网址,链接,搜索自己想要的小说. 在网站内单击右键,点击检查,会出现如下界面! 我们需要的章节信息就在我划的这块, 可以将每个标签点一下,它对应的内 ...
- 1.python爬取笔趣阁小说
前一阵无聊想学习python,就有了以下代码,选取了笔趣阁这个大众化的网站,百度发现以笔趣阁为名的小说网站很多,本段代码只在百度结果里选取前五条,并选取了三个叫笔趣阁的网站,前五条里包含笔趣阁的任意一 ...
- Python爬取笔趣阁小说,有趣又实用!
上班想摸鱼?为了摸鱼方便,今天自己写了个爬取笔阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 1. 首先导入相关的模块 import os import requests from ...
- Python爬取笔趣阁小说2.0版
之前的爬虫文章中,我们只可以爬取某本特定的小说,小波大叔一般喜欢看玄幻和修真类的,那么想把这一类小说全部爬下来该怎么操作呢,2.0版本来了,依然还是笔趣阁网站,初学者而言,这个没有反扒机制,比较方便. ...
- 1-4 python爬取笔趣阁小说(附带完整代码)
笔趣看是一个盗版小说网站,这里有很多起点中文网的小说,该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度.并且该网站只支持在线浏览,不支持小说打包下载.所以可以通过python爬取文本信息保存, ...
- python爬取笔趣阁小说的代码微小调整修改
原文来自: https://blog.csdn.net/u012717715/article/details/92811743 本人说明:其实严格地这不是转载,实际上更应该算是原创!原文代码不能正常 ...
- python 爬取笔趣阁小说(TK可视化)
import requests from lxml import etree from pyquery import PyQuery as pq import re import time from ...
最新文章
- C++ multimap 的使用
- linux scull 的内存使用
- 野人与传教士过河java_传教士和野人过河(经典MC问题)
- (并查集)The Suspects
- 小程序支付完整过程。足够详细!
- R语言实战 R语言读取不同文件类型中数据的4种方法
- ffmpeg添加到环境变量_Windows 10系统下安装FFmpeg教程详解
- windows2003r2下载
- 指数加权移动平均(Exponential Weighted Moving Average)
- 在Vue2中使用百度脑图kityminder-core
- android10颜色,首款采用10bit屏幕即将发布,你了解色深吗?
- 60个平移过渡预设PR合集
- 小爱同学控制灯 局域网
- python | 尝试爬虫 xpath
- 计算机的收获初一作文,初一开学一个月的收获和感受作文
- c4droid编译java_Windows下的java控制台已经完成,Linux相信很简单了
- 给TextView加边框
- CF1019B:交互题+二分
- ESP32 microPython开发入门
- 2020下半年新机最新消息_2020年12月新手机发布会、上市时间表