【Python网络蜘蛛 · 6】:明文和密文的转换、json模块的使用、jsonpath模块的使用(附源代码)
目录
一、明文和密文的转换
1、什么是明文密文?
2、明文和密文之间的转换
代码演示如下
二、json模块的使用
1、什么是json?
2、json字符串和字典的转换
代码演示:
三、jsonpath模块的使用
1、jsonpath的介绍
2、jsonpath和xpath语法对比
3、代码演示获取节点信息
示例:获取Json数据并写到Json文件中
一、明文和密文的转换
1、什么是明文密文?
- 例如浏览器搜索,将查找的网址复制下来
- 然后粘贴到pycharm,会看到搜索的文字被加密了
2、明文和密文之间的转换
导入的模块:from urllib.parse import quote, unquote
- quote():将明文转为密文,将字符串编码转换成%xx%xx的形式
- unquote():将密文转为明文
代码演示如下
二、json模块的使用
1、什么是json?
json本质是字符串
2、json字符串和字典的转换
json.loads():把字符串转换成字典(将json数据转换成python数据)
json.dumps():把字典转换成字符串(将python数据转换成json数据)
代码演示:
三、jsonpath模块的使用
1、jsonpath的介绍
用来解析多层检讨的json数据,jsonpath是一种信息抽取类的库,是从JSON文档中抽取指定信息的工具,提供多种语言实现版本,包括:Javascript, Python, PHP 和 Java。
- 安装方法:pip install jsonpath
- 导入的模块:from jsonpath import jsonpath
- 使用方法:jsonpath(a, 'jsonpath语法规则字符串')
2、jsonpath和xpath语法对比
JSONPath | 描述 |
---|---|
$ | 根节点 |
@ | 现行节点 |
. or [] | 取子节点 |
n/a | 取父节点,Jsonpath未支持 |
.. | 就是不管位置,选择所有符合条件的条件 |
* | 匹配所有元素节点 |
n/a | 根据属性访问,Json不支持,因为Json是个Key-value递归结构,不需要属性访问 |
[] | 迭代器标示(可以在里边做简单的迭代操作,如数组下标,根据内容选值等) |
[ , ] | 支持迭代器中做多选 |
?() | 支持过滤操作 |
() | 支持表达式计算 |
n/a | 分组,JsonPath不支持 |
3、代码演示获取节点信息
from jsonpath import jsonpath
json_data = { "store": {"book": [{ "category": "reference","author": "Nigel Rees","title": "Sayings of the Century","price": 8.95},{ "category": "fiction","author": "Evelyn Waugh","title": "Sword of Honour","price": 12.99},{ "category": "fiction","author": "Herman Melville","title": "Moby Dick","isbn": "0-553-21311-3","price": 8.99},{ "category": "fiction","author": "J. R. R. Tolkien","title": "The Lord of the Rings","isbn": "0-395-19395-8","price": 22.99}],"bicycle": {"color": "red","price": 19.95}}}
authors = jsonpath(json_data, '$.store.book[*].author')
print(authors)
JSONPath | Result |
---|---|
$.store.book[*].author | store中的所有book的作者 |
$..author | 所有的作者 |
$.store.* | store下的所有元素 |
$.store..price | store中的所有的内容的价格 |
$..book[2] | 第三本书 |
$..[(@.length-1)] | $..book[-1:] | 最后一本书 |
$..book[0,1] | $..book[2] | 前两本书 |
$..book[?(@.isbn)] | 获取有isbn的所有数 |
$..book[?(@.price<10)] | 获取价格大于10的所有的书 |
$..* | 获取所有的数据 |
示例:获取Json数据并写到Json文件中
import requests
from jsonpath import jsonpath
import json
url = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json'
headers = {"User-Agent": '', # 用自己的用户代理'Cookie': 'user_trace_token=20220302110548-338d098e-48b4-4074-a7b2-b0f95b17dae6; _ga=GA1.2.703880885.1646190350; LGUID=20220302110549-3e4d19be-2e23-47ce-806e-5472c387a614; gate_login_token=3aaf853c2a4614fb225e1cfa5ae5aabf0e40c5d95450de28407db6e9ee0338c7; LG_HAS_LOGIN=1; hasDeliver=0; privacyPolicyPopup=false; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2217f4898527bd44-0cfe89f24613da-576153e-1327104-17f4898527cf27%22%2C%22first_id%22%3A%22%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24os%22%3A%22Windows%22%2C%22%24browser%22%3A%22Chrome%22%2C%22%24browser_version%22%3A%2298.0.4758.82%22%7D%2C%22%24device_id%22%3A%2217f4898527bd44-0cfe89f24613da-576153e-1327104-17f4898527cf27%22%7D; JSESSIONID=ABAAAECABIEACCA9E3705A7B26198DCA05569D9A87A6FB4; X_HTTP_TOKEN=530d3411b134c39f92061364611eb3d44ebbbf6d46; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1646190349,1646316030; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1646316030; _gat=1; LGSID=20220303220030-b12e3c3a-168b-4215-84ed-cbaf1fafacfe; PRE_UTM=m_cf_cpt_baidu_pcbt; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Fother.php%3Fsc.0f0000jkQbdl5or9r9UPgjsEmfBHB8OhCeGOYbFNJM7h-xooDC%5FbOJmotBqOI2AOFo6DSqo%5F31tmAol8eDvpZJgp-S6IfjMALevAgY2bnlL63szi4ncryzw%5F-fr9OU6t3LsuDddkn2U%5FDBy77IxSw5sNaRegTT8G-Gm4zNh1Ba44GIVRS0zuU39cQJJQETAxDnishZ4F%5FO49TfbzD4nHlzwwq9k6.7Y%5FNR2Ar5Od663rj6tJQrGvKD77h24SU5WudF6ksswGuh9J4qt7jHzk8sHfGmYt%5FrE-9kYryqM764TTPqKi%5FnYQZHuukL0.TLFWgv-b5HDkrfK1ThPGujYknHb0THY0IAYqs2v4VnL30ZN1ugFxIZ-suHYs0A7bgLw4TARqnsKLULFb5TaV8UHPS0KzmLmqnfKdThkxpyfqnHR1n1mYPjc3r0KVINqGujYkPjmzPWnknfKVgv-b5HDkn1c1nj6d0AdYTAkxpyfqnHczP1n0TZuxpyfqn0KGuAnqiD4K0ZKGujYkn6KWpyfqn0KWThnqPjfvrHT%26dt%3D1646316021%26wd%3D%25E6%258B%2589%25E5%258B%25BE%25E7%25BD%2591%26tpl%3Dtpl%5F12273%5F25897%5F22126%26l%3D1533644288; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Flanding-page%2Fpc%2Fsearch.html%3Futm%5Fsource%3Dm%5Fcf%5Fcpt%5Fbaidu%5Fpcbt; LGRID=20220303220030-77e25e7e-ec71-4d1e-bc4a-7b9b005a924c'
}
response =requests.get(url, headers=headers)
html_str = response.content.decode()# 把json格式字符串转换成python对象
jsonobj = json.loads(html_str)
# 从根节点开始,匹配name节点
citylist = jsonpath(jsonobj,'$..name')fp = open('city.json','wb')content = json.dumps(citylist, ensure_ascii=False)fp.write(content.encode('utf-8'))
fp.close()
【Python网络蜘蛛 · 6】:明文和密文的转换、json模块的使用、jsonpath模块的使用(附源代码)相关推荐
- python的json中方法以及jsonpath模块
什么是json JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写.同时也方便了机器进行解析和生成.适用于进行数据交互的场景 ...
- 【Python网络蜘蛛】:基础 - HTTP基本原理
文章目录 1.1 HTTP基本原理 1. URI和URL 2. HTTP和HTTPS 3. HTTP请求过程 4. 请求 5. 响应 1.1 HTTP基本原理 1. URI和URL URI为统一资源标 ...
- 【Python网络蜘蛛】:基础 - 爬虫的基本原理
文章目录 爬虫概述 能爬的数据 JavaScript渲染的页面 爬虫概述 获取网页 在HTTP基本原理中讲了请求和响应的概念,向网站的服务器发送一个请求,服务器返回的响应体便是网页源码.关键部分即构造 ...
- 【Python网络蜘蛛】基础 - 多线程和多进程的基本原理
文章目录 多线程和多进程的基本原理 多线程的含义 并发和并行 Python中的多线程和多进程 多线程和多进程的基本原理 在编写爬虫程序的时候,为了提高爬取效率,我们可能会同时运行多个爬虫任务,其中同样 ...
- 【Python网络蜘蛛 · 3】:post请求、模拟金山翻译(附源代码)
目录 一.post请求 1.post请求出现的场景 2.如何发送post请求 3.get和post的区别 二.模拟金山翻译 1.实现思路 2.具体实现步骤 3.实现源代码 一.post请求 1.pos ...
- 【Python网络蜘蛛 · 4】:代理ip的了解和基本使用、查看代理ip的有效性(附源代码)
目录 一.代理IP的了解和基本使用 1.代理IP 正向代理 反向代理 2.代理IP的分类 3.代理IP的基本使用 第一种用法:https 第二种用法:http 二.查看代理IP的有效性 1.查看自己的 ...
- Java网络编程从入门到精通(24):实现HTTP断点续传下载工具(附源代码)
源代码下载:download.rar 在前面的文章曾讨论了HTTP消息头的三个和断点继传有关的字段.一个是请求消息的字段Range,另两个是响应消息字段Accept-Ranges和Content-Ra ...
- python 谷歌地图api_《Python网络编程》学习笔记--使用谷歌地理编码API获取一个JSON文档...
Foundations of Python Network Programing,Third Edition <python网络编程>,本书中的代码可在Github上搜索fopnp下载 本 ...
- python网络爬虫系列(五)——数据提取 jsonpath模块
一.数据提取概述 知识点 了解 响应内容的分类 了解 xml和html的区别 1. 响应内容的分类 在发送请求获取响应之后,可能存在多种不同类型的响应内容:而且很多时候,我们只需要响应内容中的一部分数 ...
最新文章
- 「镁客·请讲」深睿医疗乔昕:AI医疗才起步,说变革尚早
- 一个IEEE论文LaTeX模板,可能较旧
- 动态规划经典算法--最大子段和
- python 多分类情感词典_基于情感词典的文本情感分类
- 2014年上半年工作随记
- javax.servlet.http.HttpServletResponse.setContentLengthLong(J)V,maven项目报错!!无法访问webapp下的文件,完美解决方案
- 基于pyqt5的Demo软件开发
- 新疆计算机二级vb 试题,2020年9月新疆维吾尔自治区计算机二级易考套餐:二级VB考试题库+教材...
- 互动大屏,unity透明视频的实现方法:
- waves服务器系统盘,Waves Soundgrid服务器(DIY)
- “贴吧之父”俞军20年的方法论:顶级与平庸的差距有多大?
- OpenLayers 6 代码绘制/draw交互组件绘制两种方式绘制椭圆过程详解
- DanmuPlayer插件获取数据库弹幕——ssm弹幕应用
- SpringBoot 项目实现 Excel 导入导出功能
- 【排队助手】投屏模式-使用指南
- Unix/Linux下的Curses库开发指南——第一章 Curses库开发简介
- 解决安装pycrypto时的各种问题/安装失败
- 正则表达 包含 英文、数字、特殊字符
- 读卡购票c语言程序,基于51单片机的c语言韦根卡读卡程序 门禁系统
- mysql锁描述正确的是_MySQL表锁详解
热门文章
- JQuery 拖拽元素,并移动其他元素位置
- 一个软件项目如何做成本预估
- 看完20部电影,你可以去任何一家公司做董事长或总经理
- MinIO: Console endpoint is listening on a dynamic port , please use --console-address
- javaweb之c3p0连接池(c3p0-config.xml的写法)
- python爬取pdf教程_#如何利用Python抓取PDF中的某些内容#python爬取pdf教程
- html用来注释的标记,互联网常识:html的注释标记是什么
- 医院预约挂号mysql_医院预约挂号系统代码 mysql+myeclipse
- 为啥Java程序员工资高,却很多人想转行,这4点原很现实
- 如何写一个Vue自定义指令