爬取小说并在手机上看
有时候在手机APP软件上看的一部小说到某一章看不了了,是vip章节,我在电脑浏览器上搜了下发现网页上是有全本的,都能看。但是网页广告多,啥都有,一不小心就点进去了,很是麻烦。我想,爬下来吧。。。
很简单的小爬虫,网站也没有啥反爬,加个头就好了。主要记录的是怎么能在手机上看这个坑。
我刚开始是把每一章作为一个txt文件存储的
但是发现这样虽然看起来很清楚,但是传到手机上之后,用看书软件打开,只能一章一章的读。也就是第一章读完了就算结束了,不会跳转第二章。后面我就把它们全部放到一个TXT中。
但是打开后发现看书软件识别不了标题啊,虽然是可以一直看完,但是我没法选直接看第几章
后来又试了很多办法,这里就不一一介绍了,直接说解决的办法。
我是在存标题的时候,在标题前面加了 ‘第几章’,后面加了回车换行符。好像读书软件可以识别这种格式的作为标题。
这样一来,用读书软件打开就可以看了。我用的掌阅作为看书软件。完整代码在这里:
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36',}
url='https://www.xianqihaotianmi.com/book/8979.html'
rq=requests.get(url,headers=headers)
rq.encoding='utf8'
content=rq.text
soup=BeautifulSoup(content,'lxml')
con_list=soup.find('ul',class_='list-group list-charts').findAll('li')
# print(con_list)
num=0
for x in con_list:num+=1link_1=x.find('a')['href']link='https://www.xianqihaotianmi.com'+link_1print(link)rq1=requests.get(link,headers=headers)rq1.encoding='utf8'data=rq1.textsoup=BeautifulSoup(data,'lxml')# print(soup)title1=soup.find('li',class_='active').get_text()+'\n'title='第{}章'.format(str(num))+title1# print(title)count=soup.find('div',class_='panel-body content-body content-ext').get_text()# print(count)with open("傅少的哑巴新妻.txt", "a+", encoding="utf-8") as f:f.write(title+count+ "\n")print(title,'已下载')
接下来老规矩,看下效果:
目录清楚的识别了出来,我们直接点第九章看:
可以看到也是直接能看的,到这里就可以看出来,效果就跟直接从读书软件的书城下载下来的一般无二了。
爬取小说并在手机上看相关推荐
- 还不知道要看什么小说嘛?爬取小说网站前10页的小说数据分析一波
爬取小说数据 效果 网页分析 网页网址分析 书内容位置分析 不同书内容位置分析 将内容存到Excel 完整代码 效果 网页分析 网页网址分析 对比我们可以发现,不同的网页只有后边的数字不一样. 得到前 ...
- 看小说有广告?不可能的,分分钟教你爬取小说
爬取小说 效果 分析网页 正则表达式分析 请求头分析 完整代码 可能出现的错误 效果 分析网页 我们可以看到 小说的章节的标题与对应的链接是在<dd></dd>这个节点中的. ...
- python按章节分割txt_python爬虫,爬取小说
功能:爬取并下载小说中非vip部分的内容. 对于一个有八九年书龄的老书虫而言,遇到想看的小说,却没有找到下载的窗口,每次阅读都需要网上搜索,特别是网不好的地方,是十分不方便的.因此利用python写了 ...
- python爬取小说项目概述_Python实战项目网络爬虫 之 爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
- Python爬虫—爬取小说名著
周末闲来无事,本来想看一看书的,结果也没看进去(RNG输的我真是糟心...) 于是就用python写了一个爬虫,来爬取小说来看,防止下次还要去网上找书看. 我们先找一个看名著的小说网 我们打开http ...
- Scrapy爬虫框架,爬取小说网的所有小说
Scrapy入门教程请看 目录 1.思路清理 2.创建爬虫项目 3. 爬虫架构构思 4.爬虫程序具体分析 5.效果展示 6.待优化的地方 1.思路清理 我们的目的是把某个小说网的所有小说给拿下,这就涉 ...
- 用python爬小说_今天分享一个用Python来爬取小说的小脚本!(附源码)
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章天气预报数据分析与统计之美 ,作者:❦大头雪糕❦ Python GUI制作小说下载器教学讲 ...
- Python爬取小说网站
感觉好像蛮久没用更新博客了,这不准备成人高考了嘛,作为中专毕业的我来说,觉得大专证还是会有一点用处滴,所以花了点时间看书,可惜每次看书,看着看着就找周先生聊天去了,哎,不知有没有大佬教下我怎么提高看书 ...
- python爬虫爬取小说网站并转换为语音文件
前言 作为一个技术宅,本着为眼睛着想的角度考虑,能少看屏幕就尽量少看屏幕,可是又是一个小说迷,那就开动脑筋爬一下小说转换成语音来听书吧 第一章:爬取小说文件 把目标定在小说存储量比较大的网站:起点中文 ...
最新文章
- C语言---二分法搜索
- java显示服务器端ip,Java服务器获取客户端的ip
- java-String StringBuffer
- 想学python编程-【经验分享】新手如何快速学好Python?
- 简单API接口签名验证
- Balanced Ternary String
- ssm(Spring+Spring mvc+mybatis)Spring配置文件——applicationContext.xml
- List的三种遍历方式
- Java证书工具keytool用法总结
- 《海洋湍流导论》-Thorpe-2007读书笔记-第一章
- dhcp服务器里的dns怎么修改,dhcp服务器的dns设置方法
- PageOffice——动态填充Word模板并在线编辑
- 模拟客服自动回复代码
- 【C语言蓝桥杯每日一题】—— 单词分析
- 算法篇:神奇的卡塔兰数Catalan
- Codeforces Round #694 (Div. 1) 部分简要题解
- 小程序云开发报出Error: errCode: -404011 cloud function execution error | errMsg: clou……错误
- html设置word页边距,word怎样设置页边距的两种方法
- linux下yum源配置
- 此计算机未配置为允许委派用户凭据,Kerberos 协议转换和受限委派
热门文章
- 使用Serializable接口来自定义PHP中类的序列化
- IPIC2020物界科技田民:Physical Internet物流和供应链领域的颠覆性创新
- 口腔ct重建服务器原理,基于口腔CT重建数据的牙齿分割与可视化研究
- 窥探“大数据”全貌(技术篇、产业篇、企业转型篇)
- 《Universal Language Model Fine-tuning for Text Classification》论文笔记
- 软件问题定位的方法(一)
- ubuntu 创建 es 集群报错 These can be adjusted by modifying /etc/security/limits.conf
- 商标除了可以商标转让,还能商标质押和商标授权使用
- Vitis指南 | Xilinx Vitis 系列(四)
- c4d怎么制作病毒、细菌模型溶解动画