有时候在手机APP软件上看的一部小说到某一章看不了了,是vip章节,我在电脑浏览器上搜了下发现网页上是有全本的,都能看。但是网页广告多,啥都有,一不小心就点进去了,很是麻烦。我想,爬下来吧。。。

很简单的小爬虫,网站也没有啥反爬,加个头就好了。主要记录的是怎么能在手机上看这个坑。

我刚开始是把每一章作为一个txt文件存储的

但是发现这样虽然看起来很清楚,但是传到手机上之后,用看书软件打开,只能一章一章的读。也就是第一章读完了就算结束了,不会跳转第二章。后面我就把它们全部放到一个TXT中。

但是打开后发现看书软件识别不了标题啊,虽然是可以一直看完,但是我没法选直接看第几章


后来又试了很多办法,这里就不一一介绍了,直接说解决的办法。
我是在存标题的时候,在标题前面加了 ‘第几章’,后面加了回车换行符。好像读书软件可以识别这种格式的作为标题。
这样一来,用读书软件打开就可以看了。我用的掌阅作为看书软件。完整代码在这里:

import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36',}
url='https://www.xianqihaotianmi.com/book/8979.html'
rq=requests.get(url,headers=headers)
rq.encoding='utf8'
content=rq.text
soup=BeautifulSoup(content,'lxml')
con_list=soup.find('ul',class_='list-group list-charts').findAll('li')
# print(con_list)
num=0
for x in con_list:num+=1link_1=x.find('a')['href']link='https://www.xianqihaotianmi.com'+link_1print(link)rq1=requests.get(link,headers=headers)rq1.encoding='utf8'data=rq1.textsoup=BeautifulSoup(data,'lxml')# print(soup)title1=soup.find('li',class_='active').get_text()+'\n'title='第{}章'.format(str(num))+title1# print(title)count=soup.find('div',class_='panel-body content-body content-ext').get_text()# print(count)with open("傅少的哑巴新妻.txt", "a+", encoding="utf-8") as f:f.write(title+count+ "\n")print(title,'已下载')

接下来老规矩,看下效果:

目录清楚的识别了出来,我们直接点第九章看:

可以看到也是直接能看的,到这里就可以看出来,效果就跟直接从读书软件的书城下载下来的一般无二了。

爬取小说并在手机上看相关推荐

  1. 还不知道要看什么小说嘛?爬取小说网站前10页的小说数据分析一波

    爬取小说数据 效果 网页分析 网页网址分析 书内容位置分析 不同书内容位置分析 将内容存到Excel 完整代码 效果 网页分析 网页网址分析 对比我们可以发现,不同的网页只有后边的数字不一样. 得到前 ...

  2. 看小说有广告?不可能的,分分钟教你爬取小说

    爬取小说 效果 分析网页 正则表达式分析 请求头分析 完整代码 可能出现的错误 效果 分析网页 我们可以看到 小说的章节的标题与对应的链接是在<dd></dd>这个节点中的. ...

  3. python按章节分割txt_python爬虫,爬取小说

    功能:爬取并下载小说中非vip部分的内容. 对于一个有八九年书龄的老书虫而言,遇到想看的小说,却没有找到下载的窗口,每次阅读都需要网上搜索,特别是网不好的地方,是十分不方便的.因此利用python写了 ...

  4. python爬取小说项目概述_Python实战项目网络爬虫 之 爬取小说吧小说正文

    本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...

  5. Python爬虫—爬取小说名著

    周末闲来无事,本来想看一看书的,结果也没看进去(RNG输的我真是糟心...) 于是就用python写了一个爬虫,来爬取小说来看,防止下次还要去网上找书看. 我们先找一个看名著的小说网 我们打开http ...

  6. Scrapy爬虫框架,爬取小说网的所有小说

    Scrapy入门教程请看 目录 1.思路清理 2.创建爬虫项目 3. 爬虫架构构思 4.爬虫程序具体分析 5.效果展示 6.待优化的地方 1.思路清理 我们的目的是把某个小说网的所有小说给拿下,这就涉 ...

  7. 用python爬小说_今天分享一个用Python来爬取小说的小脚本!(附源码)

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章天气预报数据分析与统计之美 ,作者:❦大头雪糕❦ Python GUI制作小说下载器教学讲 ...

  8. Python爬取小说网站

    感觉好像蛮久没用更新博客了,这不准备成人高考了嘛,作为中专毕业的我来说,觉得大专证还是会有一点用处滴,所以花了点时间看书,可惜每次看书,看着看着就找周先生聊天去了,哎,不知有没有大佬教下我怎么提高看书 ...

  9. python爬虫爬取小说网站并转换为语音文件

    前言 作为一个技术宅,本着为眼睛着想的角度考虑,能少看屏幕就尽量少看屏幕,可是又是一个小说迷,那就开动脑筋爬一下小说转换成语音来听书吧 第一章:爬取小说文件 把目标定在小说存储量比较大的网站:起点中文 ...

最新文章

  1. C语言---二分法搜索
  2. java显示服务器端ip,Java服务器获取客户端的ip
  3. java-String StringBuffer
  4. 想学python编程-【经验分享】新手如何快速学好Python?
  5. 简单API接口签名验证
  6. Balanced Ternary String
  7. ssm(Spring+Spring mvc+mybatis)Spring配置文件——applicationContext.xml
  8. List的三种遍历方式
  9. Java证书工具keytool用法总结
  10. 《海洋湍流导论》-Thorpe-2007读书笔记-第一章
  11. dhcp服务器里的dns怎么修改,dhcp服务器的dns设置方法
  12. PageOffice——动态填充Word模板并在线编辑
  13. 模拟客服自动回复代码
  14. 【C语言蓝桥杯每日一题】—— 单词分析
  15. 算法篇:神奇的卡塔兰数Catalan
  16. Codeforces Round #694 (Div. 1) 部分简要题解
  17. 小程序云开发报出Error: errCode: -404011 cloud function execution error | errMsg: clou……错误
  18. html设置word页边距,word怎样设置页边距的两种方法
  19. linux下yum源配置
  20. 此计算机未配置为允许委派用户凭据,Kerberos 协议转换和受限委派

热门文章

  1. 使用Serializable接口来自定义PHP中类的序列化
  2. IPIC2020物界科技田民:Physical Internet物流和供应链领域的颠覆性创新
  3. 口腔ct重建服务器原理,基于口腔CT重建数据的牙齿分割与可视化研究
  4. 窥探“大数据”全貌(技术篇、产业篇、企业转型篇)
  5. 《Universal Language Model Fine-tuning for Text Classification》论文笔记
  6. 软件问题定位的方法(一)
  7. ubuntu 创建 es 集群报错 These can be adjusted by modifying /etc/security/limits.conf
  8. 商标除了可以商标转让,还能商标质押和商标授权使用
  9. Vitis指南 | Xilinx Vitis 系列(四)
  10. c4d怎么制作病毒、细菌模型溶解动画