Python复健练习:爬取58同城房产月租及户型加密字体
Request URL: https://maoyan.com/
任务:获取正确的信息
[考虑网页渲染性能,通常网页开发者会把自定义的文体编码成base64的方式]
考虑网页渲染性能,通常网页开发者会把自定义的文体编码成base64的方式
[若没有使用base64则可能把字体文件放在了服务器上,然后前端通过@font-face中的url进行加载,如上图]
本文讨论使用base64的常见情况(58同城房产)
Request URL: https://heyuan.58.com/chuzu/?PGTID=0d100000-028e-35df-5fbf-7d9bbdf05780&ClickID=2
1.寻找自定义字体
2.解析加密字体
[此情况为写入的自定义字体中存在非法字符]
正确提取效果
[注:应使用二进制写入文件且需要单引号包括]
展示在网页之中的是code[code与name的对应关系可能会随机变化]
我们可以通过name找到对应的font shape(不变)再逆推出code与font shape的对应关系,eg:
code:
name:
font shape:
[初学者建议使用 fontTools库在python中读取后缀为.ttf的文件,然后将字体保存于xml文件,理解font的内部结构]
若出现此报错则说明解析器解析错误,需自行寻找规律,方法如下
若出现此报错则说明解析器解析错误,需自行寻找规律,方法如下
所以6的name为glyph00007
操作如下:
3.反向解析
[最后再对html进行常规操作即可爬取加密信息]
附代码链接:https://paste.ubuntu.com/p/rnbvYRD36w/(含详细注解)
Python复健练习:爬取58同城房产月租及户型加密字体相关推荐
- python可以爬取58同城代码_【Python爬虫】:爬取58同城二手房的全部房地产标题...
北街家园七区 双阳台大两居 看楼有锁匙 相邻卖场,小区业主真诚售卖,房屋十分整洁,刚性需求 (新上!急卖)百环家园高层住宅观景平台大两居 次序分离出来 双入户花园 海淀区幸福里~北清路旁边~ 智能化精 ...
- 用scrapy 大规模 无登陆 爬取 58同城 房产信息
快过年了,早上没什么事情就把之前自己写的一个小demo 拿出来记录在博客上 import scrapyclass CourseItem(scrapy.Item):title = scrapy.Fiel ...
- python爬取58同城的兼职信息
标题python爬取58同城的兼职信息 刚刚开始学习爬虫,一些 自己研究的小东西,爬取58同城上面的兼职信息放入Excel表格里,具体代码解释在代码里给出注释,下面给出完整代码: #首先是导包 imp ...
- python实战|python爬取58同城租房数据并以Excel文件格式保存到本地
python实战|python爬取58同城租房数据并以Excel文件格式保存到本地 一.分析目标网站url 目标网站:https://cq.58.com/minsuduanzu/ 让我们看看网站长啥样 ...
- python:爬取58同城全部二手商品信息(转转网)
python_58ershou python+beautifulsoup多线程爬取58同城二手全部商品信息,并在jupyter上将数据可视化 项目主程序在58_index中: 建立mango数据库表 ...
- python爬虫爬取58网站数据_python实战学习笔记:爬取58同城平板电脑数据
学习爬虫一周后独立完成的第一个作业项目:爬取58同城平板电脑数据. 1.首先确定URL,并抓取详情页中需要的信息 首先我们确定好需要爬取的网页URL是:http://zhuanzhuan.58.com ...
- python爬虫爬取58同城租房信息(使用动态IP)输出Excel文件
python爬虫爬取58同城信息(使用动态IP) 新手,为了做一个数据分析,搞了几天,终于搞出来了,大家可以给点意见啊. # coding=utf-8 import sys import csv im ...
- python爬取58同城房子发布的手机号码_爬虫(成都58同城所有房价,Python实现)
Python实现爬虫(爬取58同城所有房价) 程序发布日期2018-9-25(如果以后不能使用了,就需要更改解析方式.) github博客传送门 csdn博客传送门 爬虫文件(Python实现)-爬取 ...
- Python爬取58同城广州房源+可视化分析
感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习, ...
最新文章
- zabbix添加自定义监控项目-配置邮件告警-测试告警
- Unicode utf8等编码类型的原理
- Linux 内核通知链和例程代码
- 一起玩转SQL Server 2012 下的分析服务
- (224)FPGA数字信号处理入门指导
- 文件操作命令(replace)
- Codevs 1794 修剪花卉
- 微信小程序获取手机号 前台+php后台
- paip.java 开发中web server的选择jboss resin tomcat比较..
- UEFI除标准应用程序工程模块外的其他工程模块--随记
- matlab找零钱,自动售货系统
- 初中计算机卡片的制作教案,【我的拼音卡片教案】制作拼音卡片
- 讲解双手白嫩光滑的几点小常识
- 安装brat的jquery错误
- 怎么关闭Windows7显示器校准?
- POSTGRESQL 高可用 Patroni VS Repmgr 到底哪家强(1)
- 360网站卫士的IP段添加进服务器的白名单中
- 使用ESP32CAM读取视频流
- 【小白入门】用Python增加文章阅读量
- Zircon传奇3服务器修改,最详细的传奇3GM命令