网络字体反爬之pyspider爬取起点中文小说
这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所以今天就给大家带来这篇---起点中文网小说爬取。可视化我们放到下一集。
加vx:tanzhouyiwan或qq群813622576和大家免费分享Python学习资料哦!
安装使用
安装和基本使用请查看pyspider中文文档,我们这篇主要不是介绍pyspider哦。Mac安装的过程中出现了一些问题,请看Mac安装pycurl失败,装好以后使用pyspider all启动。然后打开浏览器输入:http://localhost:5000/
创建以后,我们就开始分析并编写起点爬虫了。
爬虫编写
打开起点中文网(https://www.qidian.com/),选择全部作品并按照字数排序
右键检查元素,因为是静态网页,所以我们就直接解析网页元素就行了,可以使用BeautifulSoup、PyQuery、xpath或者正在表达式。我习惯用xpath,所以就采这个坑了。
Chrome可自动生成xpath
但是生成的大部分情况下都不是很合适,比如/html/body/div[2]/div[5]/div[2]/div[2]/div/ul/li[1]/div[2]/h4/a,你看这有多长,还是自己写吧,chrome浏览器可以帮我们验证xpath这个是很方便的,有的人是按照xpathhelper插件,我觉得原生就很好用了, CTRL+F
按照此方式我们匹配到小说名、作者、更新状态、更新时间、字数信息然后存储到数据库。
pyspider这个可视化调试的功能确实非常方便,但是我们看到了什么?框框?字数竟然是框框?我就懵逼了
网页元素里看到的竟然也是这个???我不死心,再看看网页源码
好像有些什么编码,但是为什么xpath查出来的是框框的,我百思不得骑姐,试了各种方式发现确实是方框,肿么办捏?我考虑可以把获取到的元素的html源码打印出来,然后再提取一下,是不是可以呢?
OK,得到我们需要的数据了,但是这也不是小说字数呀,这就是我写这篇文章的原因了,我们看到上面元素查看截图中的font-face了,里面有一些.ttf、.woff,这些我们应该知道是字体文件,下载下来看一下
这到底是什么鬼?不明白,那就问谷哥和度姐吧,然后我就知道了字体反爬这个概念,涨姿势呀!我明白了一个道理,要想涨姿势,就得多尝试,不然你怎么能知道还有这种姿势呢?我的意思大家都懂吧,然后我就找到了fonttools这个python库,但是还是走了很多弯路,里面提供的命令行识别不了,最后还是通过源码调试找到了getBestCmap这个接口
下载woff字体文件,然后通过BytesIO转化为内存文件,使用TTFont处理
看到打印的结果了吗?只不过对应的数字变成了英文,我们自己定义一个字典对应一下就行了
字体搞定了,那最初我们需要的数据都有了
调试成功了,启动我们的工程抓取吧
接下来是pyspider的坑(主要还是不熟悉)
首先要存储数据,我们把detail_page函数最后的print换成return就行了,在pyspider的爬虫回调函数中,return的数据将会记录在默认数据库中,默认数据库在哪里?pyspider会创建一个data目录,以Mac为例在~/data/result.db
我们在界面上看到的数据都记录在这里,我在调试的过程中发现想要删除已创建的工程非常麻烦,网上搜到的都是把group改成delete,status改成stop,然后24个小时候会删除,可以通过修改配置时间来删除,但是很麻烦,我们直接在数据库里删除岂不是更方便
还有一个task.db和result.db,result的就是我们return以后里面会写入数据
result字段里面就是我们return的值,task.db里面是我们每次访问的时候记录的url信息,为什么嘞?pyspider中有一个很方便的功能,就是过滤已爬取的网页
这个age配置的意思就是10天内再遇到这个任务就会忽略掉,所以我们在上面一个网页中获取其他的网页链接进行访问的时候,不用担心会循环访问。但是,这里又出现了另外一个问题
我们最后是通过先访问字体链接,然后解析字数,再进行存储,我本来以为起点的文字字体是每次请求的时候随机生成的,每次都不一样,结果后来发现总共也就生成了五种,这就出现了一个问题,同样的请求不会被访问,也就是当第二次出现这个字体文件的时候,我们的请求不会被处理,那么就没法解析存储了,我在网上查了怎么去除这个请求的过滤限制,没找到,可能是我没检索到有效信息吧。但是发现一个有用的信息,pyspider是通过taskid来判断重复的,就是我们在task.db中看到的taskid
这个taskid是怎么来的呢?我们在crawl函数源码中看到
taskid是url的md5码,而且在crawl的参数中如果传递了taskid,那么它就不会自动生成taskid了,那就到我灵机一动的时候了
在crawl中传入taskid参数,这个参数可以搞一个整型每次都加1,这样taskid就不会重复了,这样我们访问起点每页小说数据的时候可以过滤重复的,访问我们的字体信息时就不会过滤了,满足了需求,beautiful!!!
那么本次爬取就结束了,数据有了下次我们再搞可视化。
加vx:tanzhouyiwan或qq群813622576免费分享Python学习资料哦!
网络字体反爬之pyspider爬取起点中文小说相关推荐
- pythonttf字体反爬虫_利用Python采集起点中文网小说,并解决字体反爬的问题
个人比较喜欢看小说,于是乎想利用Python爬取小说网站--起点中文网,在Python编程爬取定位过程中遇到了Python反爬虫,咨询了我旁边的前端大神,说下方法 当前页面接口返回的html源码 当前 ...
- 一周搞定scrapy之第一天--爬取起点中文小说网
快速安装scrapy pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy 安装完成之后在cmd里面输入scrapy 如果出现以 ...
- 爬get接口_网络字体反爬之起点中文小说
前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看.这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所 ...
- python爬虫之爬取起点中文原创小说排行榜
学习python有段时间了,最近做了一个网上爬虫工具爬取起点中文原创小说排行榜数据,作为最近学习python的一个阶段性成果. 工具 对于做网络爬虫工具经常用到的就是chrome浏览器,主要用于抓取网 ...
- python爬取起点vip小说章节_python 爬取起点小说vip章节(失败)
今天心血来潮,想爬取起点vip小说章节,花费了足足0.27大洋后,悟出来一个人生道理,这个应该是爬不下来.但是这0.27大洋也教会了我两个知识点. 1.服务器只会响应客户端的请求,不会主动给客户端发送 ...
- python爬虫之爬取起点中文网小说
python爬虫之爬取起点中文网小说 hello大家好,这篇文章带大家来制作一个python爬虫爬取阅文集团旗下产品起点中文网的程序,这篇文章的灵感来源于本人制作的一个项目:电脑助手 启帆助手 ⬆是项 ...
- Python 爬取起点的小说(非vip)
Python 爬取起点的小说(非vip) 起点小说网是一个小说种类比较全面的网站,当然,作为收费类网站,VIP类的小说也很多,章节是VIP的话,有一个动态加载,也就 ...
- python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...
前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中 环境:Python3.7 PyCharm Chrome浏览器 主要模块:xlwt ...
- 爬取起点中文网站原创风云榜小说排行
一.查看网页 爬取数据的网页:https://m.qidian.com/rank/yuepiao/male?gender=male&catId=-1&yearmonth=201910 ...
最新文章
- ulimit -SHn 65535 含义
- iphone-common-codes-ccteam源代码 CCGraphics.m
- kafka和storm集成_Storm和Kafka集成的重要生产错误和修复
- WGCNA分析,简单全面的最新教程(可以在线做了)
- JavaScript 中数组 sort() 方法的基本使用
- Trie树---前缀最相似匹配
- (转)对冲基金不信中国经济数据,转用卫星监控6000块工业用地
- 深度学习 和 技术开锁
- Java开发实战经典【Java基础】
- 百度云无限速下载工具:JDownloader 2 for Mac
- 机器学习-DBSCAN聚类算法
- 小米路由器和TP-Link做wifi无线桥接
- Process finished with exit code -1073740791 (0xC0000409)定位错误原因
- 计算机专业有必要数学竞赛吗,高中数学竞赛必要吗
- 我的世界服务器总是显示错误,win 10 进mc服务器总是错误 怎么办
- 【幻灯片动画效果制作】Focusky教程 | 设置录音和动画同步
- 推荐一款USB维护系统:杏雨梨云USB维护系统
- Android加载用户头像的功能实现
- 计算机电力英语翻译,电力名词中文英语对照翻译术语词汇
- Adobe Acrobat 官方升级包下载地址