在宿舍无聊时想做点小程序,刚好又看到笔趣阁的广告,就想着爬一下小说看看,通过网上的爬取教程整理的

使用beautifulsoup解析request获取的HTML http://beautifulsoup.readthedocs.io/zh_CN/latest/

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
import osif __name__=='__main__':#所要爬取的小说主页,每次使用时,修改该网址即可,同时保证本地保存根路径存在即可target="https://www.biqubao.com/book/17570/"# 本地保存爬取的文本根路径save_path = 'D:/pythontest/read'#笔趣阁网站根路径index_path='https://www.biqubao.com'req=requests.get(url=target)#查看request默认的编码,发现与网站response不符,改为网站使用的gdkprint(req.encoding)req.encoding = 'gbk'#解析htmlsoup=BeautifulSoup(req.text,"html.parser")list_tag=soup.div(id="list")print('list_tag:',list_tag)#获取小说名称story_title=list_tag[0].dl.dt.string# 根据小说名称创建一个文件夹,如果不存在就新建dir_path=save_path+'/'+story_titleif not os.path.exists(dir_path):os.path.join(save_path,story_title)os.mkdir(dir_path)#开始循环每一个章节,获取章节名称,与章节对应的网址for dd_tag in list_tag[0].dl.find_all('dd'):#章节名称chapter_name=dd_tag.string#章节网址chapter_url=index_path+dd_tag.a.get('href')#访问该章节详情网址,爬取该章节正文chapter_req = requests.get(url=chapter_url)chapter_req.encoding = 'gbk'chapter_soup = BeautifulSoup(chapter_req.text, "html.parser")#解析出来正文所在的标签content_tag = chapter_soup.div.find(id="content")#获取正文文本,并将空格替换为换行符content_text = str(content_tag.text.replace('\xa0','\n'))#将当前章节,写入以章节名字命名的txt文件with open(dir_path+'/'+chapter_name+'.txt', 'w') as f:f.write('本文网址:'+chapter_url)f.write(content_text) 

用python爬取笔趣阁小说并分章节保存到本地相关推荐

  1. 通过python爬取笔趣阁小说,获取图片保存本地,数据保存mysql

    通过python爬取小说图片.小说名称.作者.章节.内容.直接上代码 import requests import time from bs4 import BeautifulSoup from qu ...

  2. python爬取笔趣阁小说(附源码)

    python爬取笔趣阁小说 文章目录 python爬取笔趣阁小说 前言 一.获取小说目录结构 获取目录连接 请求代码 解析目录 XPath tqdm 解析 二.获取小说章节结构 请求代码 解析章节 代 ...

  3. python爬取小说爬取_用python爬取笔趣阁小说

    原标题:用python爬取笔趣阁小说 首先打开笔趣阁网址,链接,搜索自己想要的小说. 在网站内单击右键,点击检查,会出现如下界面! 我们需要的章节信息就在我划的这块, 可以将每个标签点一下,它对应的内 ...

  4. 1.python爬取笔趣阁小说

    前一阵无聊想学习python,就有了以下代码,选取了笔趣阁这个大众化的网站,百度发现以笔趣阁为名的小说网站很多,本段代码只在百度结果里选取前五条,并选取了三个叫笔趣阁的网站,前五条里包含笔趣阁的任意一 ...

  5. Python爬取笔趣阁小说,有趣又实用!

    上班想摸鱼?为了摸鱼方便,今天自己写了个爬取笔阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 1. 首先导入相关的模块 import os import requests from ...

  6. Python爬取笔趣阁小说2.0版

    之前的爬虫文章中,我们只可以爬取某本特定的小说,小波大叔一般喜欢看玄幻和修真类的,那么想把这一类小说全部爬下来该怎么操作呢,2.0版本来了,依然还是笔趣阁网站,初学者而言,这个没有反扒机制,比较方便. ...

  7. 1-4 python爬取笔趣阁小说(附带完整代码)

    笔趣看是一个盗版小说网站,这里有很多起点中文网的小说,该网站小说的更新速度稍滞后于起点中文网正版小说的更新速度.并且该网站只支持在线浏览,不支持小说打包下载.所以可以通过python爬取文本信息保存, ...

  8. python爬取笔趣阁小说的代码微小调整修改

    原文来自:  https://blog.csdn.net/u012717715/article/details/92811743 本人说明:其实严格地这不是转载,实际上更应该算是原创!原文代码不能正常 ...

  9. python 爬取笔趣阁小说(TK可视化)

    import requests from lxml import etree from pyquery import PyQuery as pq import re import time from ...

最新文章

  1. C++ multimap 的使用
  2. linux scull 的内存使用
  3. 野人与传教士过河java_传教士和野人过河(经典MC问题)
  4. (并查集)The Suspects
  5. 小程序支付完整过程。足够详细!
  6. R语言实战 R语言读取不同文件类型中数据的4种方法
  7. ffmpeg添加到环境变量_Windows 10系统下安装FFmpeg教程详解
  8. windows2003r2下载
  9. 指数加权移动平均(Exponential Weighted Moving Average)
  10. 在Vue2中使用百度脑图kityminder-core
  11. android10颜色,首款采用10bit屏幕即将发布,你了解色深吗?
  12. 60个平移过渡预设PR合集
  13. 小爱同学控制灯 局域网
  14. python | 尝试爬虫 xpath
  15. 计算机的收获初一作文,初一开学一个月的收获和感受作文
  16. c4droid编译java_Windows下的java控制台已经完成,Linux相信很简单了
  17. 给TextView加边框
  18. CF1019B:交互题+二分
  19. ESP32 microPython开发入门
  20. 2020下半年新机最新消息_2020年12月新手机发布会、上市时间表

热门文章

  1. 网易云信短信接口java_网易云短信接口测试
  2. 斗地主Java课程设计_Java斗地主发牌课程设计
  3. 安卓运营商定制手机锁卡方式研究
  4. 《概率与数理统计》知识点【更新中】
  5. C++ 判断文件文件夹是否存在
  6. 乔春洋:网上品牌承诺和设计
  7. 西安理工大学计算机视觉与应用,关于举办计算机视觉与图像处理应用最新进展报告会的通知...
  8. Linux删除文件夹和文件的命令
  9. Java数据结构之图
  10. 系统接口对接:(1)