import re
import requests
from bs4 import BeautifulSoupurl = 'http://www.biquge6.com/19_19336/'
r = requests.get(url)
b = BeautifulSoup(r.content.decode('gbk'))
h = b.find_all(href = re.compile('/19_19336/'))       # 正则匹配属性值带有/104_104216/的href标签,并返回正则模式对象hlist_len = len(h)      # 剔除掉最新12章节
print('开始下载:')
i = 1
for each in h:print('正在下载第' + str(i) + '章,共' + str(list_len) + '章')url1 = url + each.get('href')[10:]                  # ,获取其中一个超链接地址第12位后的链接地址re = requests.get(url1)                             # 每章节完整链接地址bs = BeautifulSoup(re.content.decode('gbk'))        # 获取章节数据t = bs.find_all('h1')[0].text[1:]            # find_all获取章节文章标题,[0].text[1:]截取标题内容content = bs.find_all(id = 'content')[0].text         # 数据清洗,清除html的多余标签content = content.replace('\xa0'*8,' ').replace('    ', '').replace('\n\r', '\n')content = t + '\n\n' + content +'\n\n\n'          # 将标题和内容整合with open('C:\\Users\DELL\Desktop\大数据应用开发\圣墟.doc', 'a', encoding='utf-8') as f:f.write(content)i += 1
print('下载完成!')

-----------------------------------------------------最后的倔强:转载需备注博主名和原创网址!!!-----------------------------------------------------

笔趣阁小说-圣墟-爬虫源代码相关推荐

  1. 笔趣阁小说站的爬虫小程序

    从笔趣阁(www.biquge.com.tw)爬取整本小说的内容,写入txt文件. 再也不用到处找地方下载了,省的遭遇各种不靠谱. 代码如下: import urllib.request from b ...

  2. Python爬虫--笔趣阁小说爬取

    Python爬虫–笔趣阁小说爬取 爬虫用到的插件 import requests from lxml import etree 小说目录页 以小说"我有百万技能点"为例,在笔趣阁搜 ...

  3. 爬虫练习-爬取笔趣阁小说

    练习一下爬虫,将笔趣阁的小说根据需求目标再爬取下来,本文仅仅学习爬虫技术,大家还是要支持一下正版网站的 思路: Created with Raphaël 2.2.0开始输入书名查询小说是否存在跳转页面 ...

  4. python3+正则(re)增量爬虫爬取笔趣阁小说( 斗罗大陆IV终极斗罗)

    python3+re 爬虫爬取笔趣阁小说 斗罗大陆IV终极斗罗 爬取前准备 导入的模块 分析 正则的贪婪与非贪婪 附完整代码示例 爬取前准备 导入的模块 import redis #redis数据库 ...

  5. java爬虫爬取笔趣阁小说

    java爬虫爬取笔趣阁小说 package novelCrawler;import org.jsoup.Connection; import org.jsoup.HttpStatusException ...

  6. Python爬虫之爬取笔趣阁小说下载到本地文件并且存储到数据库

    学习了python之后,接触到了爬虫,加上我又喜欢看小说,所以就做了一个爬虫的小程序,爬取笔趣阁小说. 程序中一共引入了以下几个库: import requests import mysql.conn ...

  7. Python爬虫:笔趣阁小说搜索和爬取

    目录 0x00 写在前面 0x01 搜索页面 0x02 章节获取 0x03 章节内容获取 0x04 完整代码 0x00 写在前面 最近开始学习Python的爬虫,就试着写了写笔趣阁小说的爬虫,由于是初 ...

  8. Python爬虫练习(一) 爬取新笔趣阁小说(搜索+爬取)

    爬取笔趣阁小说(搜索+爬取) 首先看看最终效果(gif): 实现步骤: 1.探查网站"http://www.xbiquge.la/",看看网站的实现原理. 2.编写搜索功能(获取每 ...

  9. python爬取小说写入txt_对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力...

    原标题:对新笔趣阁小说进行爬取,保存和下载!这就是Python的魅力 以前挺爱在笔趣阁看小说的(老白嫖怪了) 现在学了一点爬虫技术,就自然而然的想到了爬取笔趣阁的小说 也算锻炼一下自己的技术,就以新笔 ...

最新文章

  1. vue 数组赋值_如何给Vue的data中的数组赋值?
  2. linux tomcat 进程杀掉_Linux下Tomcat的启动、关闭、杀死进程
  3. 李彦宏透露百度真正的护城河
  4. 面向连接的套接字通信工作流程
  5. 拿什么保护你,我的区块链
  6. c++单链表【构造函数、运算符重载、析构函数、增删查改等】
  7. c++读取文件–结束条件的判断
  8. matlab概率及数理统计学习-T检验、卡方检验、直方图分布检验
  9. 解锁新的“维权方式”?车主放花圈维权!特斯拉大怒:低俗方法滋事
  10. js中“||”和“”的高级用法
  11. 关于_beginthreadex、_beginthread和CreateThread
  12. Baumer相机BGAPI_ImageHeader Member List
  13. boid模型的Matlab程序,基于Boid模型以及吸引—排斥模型的沙丁鱼集群运动行为模拟...
  14. mysql二进制安装shell脚本,一分钟就搞好linux上的mysql
  15. C#复习笔记(3)--C#2:解决C#1的问题(泛型)
  16. Lyapunov稳定性分析3(离散时间系统)
  17. 计算机的编译原理pdf,计算机编译原理DK.pdf
  18. 基于html+css的音乐网站网页设计
  19. 公共数据库介绍~OECD经合组织数据库
  20. 发送到谷歌邮箱的邮件在哪找_如何让Google表格为您发送个性化电子邮件

热门文章

  1. 我是如何通过系统架构设计师考试的(2017年软考)-转载
  2. 记一次开发环境redis出现key丢失排查
  3. 中国环保乳胶漆市场供需调研及竞争策略分析报告2022-2028年
  4. R语言气泡图 bubble chart
  5. oa 服务器 微信,微信OA:一种新的办公方式
  6. ios 检测是否联网_iOS 设备打开触动精灵提示“您的网络不给力哦,请检查您的设备是否联网”怎么解决?...
  7. 使用Google地图的测距功能
  8. 一加3t刷机后还卡_一加3T通用刷机教程
  9. PCB电路板去耦电容配置原则有哪些?
  10. 常见的VC Link错误