现在的网站,处处都是反爬,我们这些爬虫的经常需要和他们斗智斗勇,就看谁更厉害。这不,就连字体也弄成了反爬,而且还不止一个网站,常见的就有猫眼和汽车之家。不过,字体反爬也没有用,毕竟我们会破!哈哈。

抖音的字体反爬是在一个分享个人主页的链接中,别的链接暂时没有测试,不过破了一个其他的也就破了。

分享主页可以这样获得:

1). 点击迪丽热巴个人主页

2).点击左上角

3).再点击左上角分享以链接方式复制

做完之后你就可以获得这样一条链接:http://v.douyin.com/NT5Nck/

在浏览器打开可以看到:

链接编程了这样:https://www.iesdouyin.com/share/user/88445518961?timestamp=1548046967

根据经验很容易知道前面的参数就是用户的 id 号,后面的就是时间戳,可以去掉的。

有了这个页面之后怎么将个人主页的名称、粉丝、点赞量等爬下来呢?接下来就是教你这个,请继续往下看!

1. 分析破解反爬字体

打开开发者调试工具,很容易就可以看到数据所在的请求的链接

点击我们需要获取的粉丝数,你可以看到:

可以看到,字体都变成了正方形,很明显这个做了反爬。那我们再看看请求返回来的 html 信息。

可以看到一堆编码,而且都是数字变成了这样,所有抖音将这些数字的数据都做了字体进行映射,用了他们自己的字体,那我们可以看看开发者工具的 network 查看他所用的字体,一般都是 wolf 或者 ttf 结尾的,可以看到:

https://s3.bytecdn.cn/ies/resource/falcon/douyin_falcon/static/font/iconfont_9eb9a50.woff

在浏览器输入上面地址就可以下载该字体了。

下载完之后我们可以用 Python 的一个工具包 fontTools 来查看字体映射。

如果你没有这个包的话,可在命令行输入下面代码进行下载工具包:

pip install fontTools

使用 fontTools 将字体文件转为 XML 文件,下面为代码:

转换之后查看文件,你就可以看到之间的映射了,如下:

code 为我们在请求中显示的编码,name为映射,到我们需要找的是数字,num_ 代表的又是哪些数字呢?,如果你再找找,你会发现这个:

是不是感觉已经找到了,恭喜你,你被坑了,这个并不是,如果你第一次遇到的话,估计都会被它坑一次,这个并不是刚才的什么数字映射,只是一些 id 名字罢了。

这时就需要我们另借助一个字体软件了:FontCreator, 软件百度官网下载安装即可。

用这个软件打开字体,可以看到新大陆:

这个就是我们需要找的映射,配合上面在 XML 文件中找的映射,一起用,这个就破解了。

2.代码实现

用 Python 代码只需要把它们之间的映射搞清楚就行了,所以我们可以使用字典来保存这些数据。

这个就是在软件上看到的映射关系,再来弄弄在 XML 中的编码对应关系

通过一行一行地读取 XML 文件的内容,找出映射并存储在相应的字典中,这就可以了,大功告成。

3.其他数据的获取

我打算爬的是抖音的用户数据,先找了 1000 个抖音大号来爬取,接着会通过他们的粉丝列表再来爬取别的用户,这样就差不多能够把抖音的大多数用户获取了,具体怎样爬取粉丝列表,下篇文章告诉你!期待的就点个「好看」支持下?

下面是 1000 个抖音大号的部分爬取代码:

上面的就是我需要存储的内容。

由于篇幅问题,其他的就不放出来了,想要源码的关注公众号进行获取

「以下内容,本人仅供学习交流,切勿用于商业用途」

小白也可以看会的破解抖音字体反爬相关推荐

  1. python爬虫反爬策略_抖音字体反爬,爬虫字体反爬策略——每周一个爬虫小教程系列...

    在B站上看到一个关于抖音字体反爬的视频,看完之后,精神抖擞,不禁感觉,我又行了,于是在模拟器上下载了一个抖音,打开了我尘封已久的抖音号. 可以看见显示的数字是正常的,但是查看源码就是错误的. 既然是字 ...

  2. python爬虫: 使用knn算法破解猫眼动态字体反爬

    猫眼字体反爬 动态变化的字形使用阈值判断误差率较大,甚至看到有的老哥使用ocr去搞-,大概两个月前,第一次看到有大佬使用knn算法搞字体反爬(源码地址),听说效果不错,一直没有时间去尝试,不仅仅是没有 ...

  3. 破解58同城字体反爬

    1. 前言 最近接了一个私活,破解58同城的css反爬.(被鸽了)现在决定把它开源出来,以便大家参考学习. 2. 主题 首先,打开页面,了解到这部分信息是有字体加密的.如下图: 这部分信息包含 性别 ...

  4. vs 选定内容没有属性页_【产品分析】从搜索功能看产品定位:抖音VS快手

    本文由 @秃头少女 (这是在人人的名字)原创发布于人人都是产品经理.未经许可,禁止转载. 从搜索功能看产品定位:抖音VS快手 | 人人都是产品经理​www.woshipm.com 短视频应用中搜索功能 ...

  5. 看好友抖音显示服务器,抖音怎么看访客记录 抖音7天访客记录查看方法入口

    [惠美优普]数码资讯 抖音最新版里有访客记录啦,不过这个显示也只能看7天的,超过这个天数的话就看不了了,而且这个功能是可以关闭的,下面一起来看看具体的操作流程. 2021新版抖音可以看访客记录吗? 可 ...

  6. 对方看我抖音显示服务器异常,别人看了我的抖音会有提示吗

    抖音捏泡泡游戏v1.3.5 安卓版 类型:休闲益智大小:7.5M语言:中文 评分:10.0 标签: 立即下载 抖音中用户可以制作各种有意思的短视频,短视频公开是可以给大家看的,有小伙伴问别人看了我的抖 ...

  7. python爬取b站搜索结果_Python爬虫实例:爬取猫眼电影——破解字体反爬,Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取,Python爬虫实例:爬取豆瓣Top250...

    字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

  8. python 破解字体反爬 (二)

    上一篇我介绍了破解58同城的字体反爬 https://blog.csdn.net/BigBoy_Coder/article/details/103239672 中间遗漏了几个细节,在这边文章我做一下补 ...

  9. 如何破解字体反爬机制

    这几天爬取58租房信息的时候意外发现了它是一个字体反爬的网站,所谓的字体反爬就是网站将一些关键字替换为网站自己的字体,这样在网页上字体会正常显示,但是当爬取下来的时候,经过字体加密的字符都是乱码的,根 ...

最新文章

  1. 登陆窗体显示动态效果
  2. 3.4 改进集束搜索-深度学习第五课《序列模型》-Stanford吴恩达教授
  3. 方式程0day MS17-010远程溢出漏洞测试
  4. SpringBoot自动配置【源码分析】-初始加载自动配置类
  5. 币安Binance.client can‘t find the module client 解决办法
  6. 一个让我很不爽的外包项目——奔驰Smart2015新官网
  7. mariadb使用mysql驱动_MariaDB安装与使用
  8. Set实现类性能对比
  9. 【蓝桥杯嵌入式】【STM32】10_InputCaputer之输入捕获
  10. CCF201312--模拟练习试题参考答案(C++)
  11. ps提示“脚本错误-50出现一般Photoshop错误的解决方法
  12. python 正则表达式学习-group
  13. Javaの网络数据传输之Socket
  14. 转HashMap Hashtable区别
  15. 前台系统(内容管理)
  16. 网站歌曲播放器php,推荐漂亮的flash网页MP3音乐播放器
  17. Windows找回磁盘被病毒感染后隐藏的文件
  18. 了解掌握Java的循环语句、条件语句、分支语句(Java 从自学到就业 第3天)
  19. UVa 10019 - Funny Encryption Method
  20. 简明扼要说浏览器环境

热门文章

  1. java是什么数据结构_什么是数据结构?
  2. java整合快手小程序(登陆,支付,结算,退款,手机号授权登陆)
  3. wps右下角老是弹出更新提醒的问题
  4. 《Python》Python教程
  5. ipad pro能用python编程吗_用ipad pro+apple pencil+notability自学Python
  6. cpu的外频,内频,超频
  7. 有趣的 HTTP 头信息
  8. windows共享文件夹(目录)(SMB服务)
  9. 【翻译】生物集成可穿戴系统:综合回顾
  10. PUBG,绝地求生,黑屏小作文