1、在抓取起点中文网的小说信息时,发现网站把一些数字都转换成 其他的东西,如《圣墟》。

查看网页源代码,发现如点击、推荐、总字数等的信息全是类似这样的,是一组十进制数据:


2、思路

方式一:
1、需要获取字体文件所在的url,通过抓包获取所有字体文件,然后和网页源代码中展示的字体(@font-face: src:url(xxx.woff))进行对比,确认当前页面是同的是哪一个字体文件。
2、将字体文件.woff转化成.xml文件(pip install fontTools 这个包可以静.woff转化成.xml文件)
3、分析xml文件中内容,找到数字0-9分别对应什么内容:发现网页源代码中的十进制数据和xml文件中的中name的值是对应的,先获取十进制,在转化为十六进制,再根据十六进制的name的值"one"转换为1即可。
方式二:
起点中文网中字体的文件名是变化的,但是从源代码里面获取的数字和真实数字的关系是不变的。直接用字典将位置数字和真实数字表示出来。

3、具体思路:

①先定义表示英文单词的数字和阿拉伯数字之间的对应关系。
②请求网页源代码,提取出字体文件的url(即http://xxx.woff),以及所有表示小说字数的十进制数据(& #100064;)
③将data这个十进制数据组成的字符串(& #100444;& #100444;& #100437;& #100438;& #100439;& #100445;)中的每一个十进制都转换成为十六进制。
④请求字体文件的url,获取字体文件的内容。 ⑤将本地保存的qd.woff转化为qd.xml文件
⑥根据十六进制的列表,从xml文件中根据code的值获取map标签。解析xml标签结构。

不附上代码的分析都是耍流氓,代码附上:

# 1.先定义表示英文单词的数字和阿拉伯数字之间的对应关系
convert_dict = {'one': '1','two': '2','three': '3','four': '4','five': '5','six': '6','seven': '7','eight': '8','nine': '9','period': '.','zero': '0'
}# 2、请求网页源代码,提取出字体文件的url(http://xxx.woff),以及所有表示小说字数的十进制数据(												

爬虫字体替换(二)起点相关推荐

  1. [585]爬虫|字体反爬

    文章目录 1.目标网站 2.反爬虫机制 3.解决 4.上代码 字体解密相关资源 总结 目前已知的几个字体反爬的网站是猫眼,汽车之家,天眼查,起点中文网等等. 本文用到的第三方库:fontTools 安 ...

  2. 计算机文档字体替换,word2007进行字体替换的两种方法

    用户在当前计算机中打开在其他计算机中创建的Word文档时,常常会遇到当前计算机缺少预先设置的字体的情况.用户可以使用Word2007提供的"字体替换"功能替换缺少的字体,那么下面就 ...

  3. 字体在ppt中可以整体替换吗_PPT字体替换其实很简单

    原标题:PPT字体替换其实很简单 每次制作 PPT 的时候都需要选择字体,一旦想要更换字体,长达几十页的 PPT都需要改变,普通人选择了一个个文本框选择后再改成想要的字体-- 于是接下来的一两个小时, ...

  4. Unity技能工厂——字体替换工具功能的实现!

    在平常我们做任何项目的时候,工具类对于我们来说是必不可少的组成部分,因为工具类可以解决实际问题或者是优化我们已经实现的功能. 当你在做项目的时候,搭建完场景后,前场景中你所创建的UI组件中的Text的 ...

  5. 16.网络爬虫—字体反爬(实战演示)

    网络爬虫-字体反爬 一·字体反爬原理 二·字体反爬模块Fonttools TTF文件 三·FontCreator 14.0.0.2790 FontCreatorPortable下载与安装 四·实战演示 ...

  6. Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价

    Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...

  7. pythonrequest得替代_Python爬虫通过替换http request header来欺骗浏览器实现登录功能...

    以豆瓣为例,访问https://www.douban.com/contacts/list 来查看自己关注的人,要登录才能查看. 如果用requests.get()方法获取这个http,没登录只能抓取回 ...

  8. 字体样式字体分类字体样式二

    字体样式&字体分类&字体样式二 字体样式 <!DOCTYPE html> <html lang="en"><head><m ...

  9. 计算机文档字体替换,在word中巧妙使用字体替换

    不知您是否遇到过这样的情况,当您使用Word文档时,很喜欢使用同一种字体来编辑文字,可如果是另外一台电脑没有你喜欢用的字体,希望把其中的某一种字体全部改为另一种字体,怎么解决呢?你会如何去完成这项工作 ...

最新文章

  1. 第14章 结构和其他数据形式 14.12 typedef 简介
  2. How to Map Distinct Value Types Using Java Generics--reference
  3. SAP号码段表及相关操作T-CODE
  4. public 函数_Chapter18:友元函数和友元类
  5. java socket通信demo_Java Socket通信示例
  6. bdbus_lxb下载
  7. mysql启动错误1.69,MySQL无法启动例一
  8. Python编程基础05:运算符与表达式
  9. php 字符 index,php函数之字符串篇String
  10. 计算机视觉空间域(spatial)注意力机制——CBAM
  11. 计算机的社会应用PPT,《电子计算机的发展与应用》ppt说课稿信息技术七上.ppt...
  12. c语言微信挑一挑编程,100行python代码实现微信跳一跳辅助程序
  13. 编程中怎么理解抽象的概念
  14. 水木周平:就业难?招人更难!
  15. 如何给电脑安装双系统
  16. Android音频AAC硬编码
  17. 给本本换硬盘,直接克隆旧盘!
  18. Ansys ncode Designlife19.0疲劳与裂纹扩展分析资料教程
  19. DB2 UDB V8.1 管理 学习笔记
  20. [DEP_WEBPACK_COMPILATION_ASSETS] DeprecationWarning: Compilation.assets will be frozen in future

热门文章

  1. CRMEB知识付费V2.1.4免授权版本更新发布
  2. 音频交流项目测试(测试用例与总结)
  3. 在前互联网时代,宜家就有这些“互联网思维”
  4. maven 打的jar包很小
  5. 程序在计算机中是如何运行起来的
  6. 程序员的日常|秃头?不存在的,这辈子都不可能秃头!
  7. ERP之替代料的使用
  8. ubuntu10.04下安装fcitx小企鹅输入法,配置,美化及删除多余码表
  9. java mathematica_java与mathematica
  10. 产品经理学习手册(一)产品经理:挖掘发现用户需求、满足用户需求;让世界变得更美好