字体加密-58同城简历信息爬取

加密文件通过base64加密，先拿到加密字符串，通过base64解密，保存成woff文件
利用fonttool把woff文件保存成xml文件，再开始分析真实数据与加密数据的动态映射关系

映射关系如下：
源码数据:&#x…; === 解密后的数据:uni…
解密后的数据会根据网页的刷新不停的变化，所以要找到一个不变的映射关系
寻找不变的映射关系如果自己找的话可能会浪费很长时间，这里直接告诉大家结果
源码数据:&#x…; === 解密后的数据:uni… === xml文件中的前两个x,y坐标差值。

源码如下，如果还看不懂的同学可以到我的B站教学视频，过程非常详细。
B站up主：一只会唱歌的程序狗里面有的一期视频：字体加密-58同城简历信息爬取

import requests
import re
import base64
from lxml import etree
from fontTools.ttLib import TTFont
from io import BytesIO

data_map = {(0, 1549): ‘B’, (1588, 0): ‘男’, (868, 0): ‘王’, (825, 367): ‘大’, (265, -118): ‘专’, (0, 1026): ‘M’,
(-110, -150): ‘女’, (1460, 0): ‘吴’, (230, 390): ‘硕’, (156, 262): ‘赵’, (660, 0): ‘黄’, (924, 0): ‘李’,
(0, 1325): ‘1’, (0, 134): ‘8’, (0, 144): ‘经’, (0, 125): ‘2’, (1944, 0): ‘下’, (-52, -52): ‘本’, (582, 0): ‘届’,
(0, -227): ‘5’, (146, 78): ‘应’, (228, 306): ‘科’, (-244, -426): ‘7’, (770, 0): ‘中’, (928, 0): ‘生’,
(-121, 62): ‘6’, (-833, 0): ‘E’, (299, 0): ‘陈’, (159, -123): ‘3’, (164, 0): ‘以’, (-764, 0): ‘杨’,
(-221, 0): ‘A’, (238, 0): ‘张’, (0, -1023): ‘4’, (784, 0): ‘无’, (0, 410): ‘0’, (128, -74): ‘9’,
(-46, -550): ‘验’, (0, 110): ‘博’, (0, 132): ‘技’, (746, 0): ‘士’, (210, 358): ‘校’, (1298, 0): ‘高’,
(-74, -366): ‘刘’, (0, -508): ‘周’}

def get_font_map(content):
font_map = {}
result = re.search(r"base64,(.*?))", content, flags=re.S).group(1)
b = base64.b64decode(result)
tf = TTFont(BytesIO(b))
# print(tf.getGlyphNames())
# 运行三遍分别保存字体库01、02、03用来做分析
with open(“ztku01.woff”, “wb”)as f:
f.write(b)

fonts = TTFont("ztku01.woff")
fonts.saveXML("ztku01.xml")
for index, i in enumerate(tf.getGlyphNames()[1:-1]):temp = tf["glyf"][i].coordinatesprint(temp)x1, y1 = temp[0]x2, y2 = temp[1]new = (x2 - x1, y2 - y1)key = i.replace("uni", "&#x").lower()# key = key.encode('utf-8').decode('unicode_escape')font_map[key] = data_map[new]
print(font_map)
return font_map

def parse_html():
url = “https://sz.58.com/searchjob/”
header = {
‘accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3’,
‘accept-encoding’: ‘gzip, deflate, br’,
‘accept-language’: ‘zh-CN,zh;q=0.9,en;q=0.8’,
‘cache-control’: ‘max-age=0’,
‘upgrade-insecure-requests’: ‘1’,
‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36’,
}
response = requests.get(url, headers=header)
html = response.text
font_map = get_font_map(html)
for i in font_map:
print(i+";")
html = html.replace(i + “;”, font_map[i])
print(html)
data = etree.HTML(html)
personal_information = data.xpath(’//div[@id=“infolist”]/ul/li//dl[@class=“infocardMessage clearfix”]’)
for info in personal_information:
# 姓名
name = info.xpath(’./dd//span[@class=“infocardName fl stonefont resumeName”]/text()’)[0]
# 性别
gender = info.xpath(’./dd//div[@ class=“infocardBasic fl”]/div/em[1]/text()’)[0]
# 年龄
age = info.xpath(’./dd//div[@ class=“infocardBasic fl”]/div/em[2]/text()’)[0]
# 工作经验
work_experience = info.xpath(’./dd//div[@ class=“infocardBasic fl”]/div/em[3]/text()’)[0]
# 学历
education = info.xpath(’./dd//div[@ class=“infocardBasic fl”]/div/em[4]/text()’)[0]
print(name, gender, age, work_experience, education)

if name == “main”:
parse_html()

字体加密-58同城简历信息爬取相关推荐

python可以爬取58同城代码_爬取58同城—字体反爬
我爬取的是58同城北京租房的索引页. url:https://bj.58.com/chuzu/?PGTID=0d100000-0000-1e00-4039-99b26a4fedeb&Click ...
python爬取58同城二手房_爬取厦门58同城二手房数据进行数据分析（二）
一.前言书接上文: Zachary:爬取厦门58同城二手房数据进行数据分析(一)zhuanlan.zhihu.com 这一篇主要对上一篇文章爬取下来的数据进行一些探索性分析和可视化,并且建立一个简 ...
python爬取58同城租房信息_分页爬取58同城租房信息.py
import requests,re,openpyxl,os headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleW ...
简历爬取系列（二）——破解58同城简历中的加密字符
直接目的:针对58同城简历数据中的加密字符,进行破解,以还原其对应的真实文字. 根本目的:爬取58同城网站上的个人简历,进行信息储备. 现有环境:安装python3.6的五服务器. 下面就开始吧. 如 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...
利用python爬取58同城简历数据_利用python爬取58同城简历数据-Go语言中文社区
利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...
（64）-- 爬取58同城网页信息
# 爬取58同城租房信息 from lxml import etree import requestsbase_url = 'http://bj.58.com/chuzu/?utm_source=ma ...
多线程爬取58同城二手车信息
多线程爬取58同城二手车信息目录多线程的介绍数据的爬取数据的解析多线程简介:线程是轻量级的进程,是程序执行流的最小单元,它不拥有系统的资源,运行占用独立的资源且资源小,且多个线程共享一个单 ...
超星系统登录，信息爬取
超星系统登录,信息爬取经历过上一年的疫情的大学生,一部分大学生可能对超星有一个深刻的认识,而我写这个项目的想法来自我的导师,做一个可以爬取超星课程学生成绩,可以随机组卷(前提是自己题库里有题),该项 ...

字体加密-58同城简历信息爬取

字体加密-58同城简历信息爬取相关推荐

最新文章

热门文章