使用 Python 读取 json 格式文件并查重

场景如下：

格式为 json 的文件中存在多行测试数据，需要判断文件中 “esbsn” 字段的值是否存在重复数据

{"time":"2022-08-09 10:00:31:947","esbsn":"000000175059","status":"S"}
{"time":"2022-08-09 10:01:46:466","esbsn":"000000175060","status":"S"}
{"time":"2022-08-09 09:59:07:089","esbsn":"000000175058","status":"S"}
{"time":"2022-08-09 10:03:31:887","esbsn":"000000175061","status":"S"}
{"time":"2022-08-09 10:01:46:466","esbsn":"000000175060","status":"S"}
{"time":"2022-08-09 09:15:57:134","esbsn":"000000175037","status":"S"}
{"time":"2022-08-09 09:13:54:331","esbsn":"000000175036","status":"S"}
{"time":"2022-08-09 10:01:46:466","esbsn":"000000175060","status":"S"}

数据较少时可以通过肉眼观察较快得出结论，假如数据较多时，想通过肉眼观察得出结论将花费大量的时间且结果的正确性也难以保证，由此引入 python 脚本的方法去对 json 文件进行解析并针对特定字段进行字段值查重。

设计思路：
1、先逐行读取json文件，将每行读取的字符串解析为python字典

with open(file_path, 'r', encoding="utf-8") as f:#   逐行读取文件内容for line in f.readlines():#  将每行读取的内容解析为字典json_data = json.loads(line)print(json_data)

结果显示：

{"time":"2022-08-09 10:00:31:947","esbsn":"000000175059","status":"S"}
{"time":"2022-08-09 10:01:46:466","esbsn":"000000175060","status":"S"}
{"time":"2022-08-09 09:59:07:089","esbsn":"000000175058","status":"S"}
{"time":"2022-08-09 10:03:31:887","esbsn":"000000175061","status":"S"}
{"time":"2022-08-09 10:01:46:466","esbsn":"000000175060","status":"S"}
{"time":"2022-08-09 09:15:57:134","esbsn":"000000175037","status":"S"}
{"time":"2022-08-09 09:13:54:331","esbsn":"000000175036","status":"S"}
{"time":"2022-08-09 10:01:46:466","esbsn":"000000175060","status":"S"}

这样我们就可以得到json文件内数据内容了，方便后续我们对这些数据内容进行处理。

2、取出字典中要判重字段的值，并将值添加到列表中方便后面判重

dict1={'time': '2022-08-09 10:00:31:947', 'esbsn': '000000175059',, 'status': 'S'}
dict2={'time': '2022-08-09 10:01:46:466', 'esbsn': '000000175060', 'status': 'S'}
dict3={'time': '2022-08-09 09:59:07:089', 'esbsn': '000000175059', 'status': 'S'}
#  先构建一个空列表
a = []
#  再将每个字典中trace_id的值取出放在列表内
a.append(dict1["trace_id"])
a.append(dict2["trace_id"])
a.append(dict3["trace_id"])
print(a)

结果显示：

['000000175059', '000000175060', '000000175059']

把要判重的数据值添加到字典内，方便后续对字典内的元素进行判重。

3、得到判重字段值的列表数据后，可以使用Count函数跟踪字段值出现的次数

a = ['000000175059', '000000175060', '000000175059']
#  跟踪列表 a 中字段值出现的次数，并转化为字典形式，如{字段值:次数}
b = dict(Counter(a))
print(b)
#  只展示重复元素（出现次数大于1的元素）
print([key for key, value in b.items() if value > 1])
#  展现重复元素和重复次数
print({key: value for key, value in b.items() if value > 1})

结果显示：

{'000000175059': 2, '000000175060': 1}
['000000175059']
{'000000175059': 2}

这样就可以看出字典内每个元素出现的次数了，元素次数大于1的就是重复数据拉。

4、完整代码如下：

import json
import os
from collections import Counter  # 引入Counter#  获取要解析Json文件的绝对路径
file_path = os.path.abspath("../conf/test.json")class read_Json():def __init__(self , param):#  设置需要判重的字段self.param = paramdef read_json(self):#  开始json文件with open(file_path, 'r' ,encoding="utf-8") as f:#  先构建一个空的列表，方便后续导入要判重的字段a = []#  逐行读取文件内容for line in f.readlines():#  将每行读取的内容解析为字典json_data = json.loads(line)#  取出字典数据中需要判重的数据值x = json_data[self.param]#  将需要判重的值添加值原来构建的列表 a 中a.append(x)#  跟踪列表 a 中字段值出现的次数，并转化为字典形式，如{字段值:次数}b = dict(Counter(a))#  只展示重复元素（出现次数大于1的元素）print([key for key, value in b.items() if value > 1])#  展现重复元素和重复次数print({key: value for key, value in b.items() if value > 1})#  测试验证
if __name__ == "__main__":print(read_Json("esbsn").read_json())

使用 Python 读取 json 格式文件并查重相关推荐

python读取json格式文件大量数据，以及python字典和列表嵌套用法详解
1.Python读取JSON报错:JSONDecodeError:Extra data:line 2 column 1 错误原因: JSON数据中数据存在多行,在读取数据时,不能够单单用open(), ...
python获取的html转换为json,python读取XML格式文件并转为json格式
XML文件如下: 红楼梦书名> 曹雪芹作者> 描述贾宝玉和林黛玉的爱情故事主要内容> 人民文学出版社出版社> 图书> 一.python读取XML格式文件代码: impor ...
python读取json格式的超参数
python读取json格式的超参数 json文件: {"full_finetuning": true,"max_len": 180,"learnin ...
python用os.system打开wav文件_使用python读取wav格式文件
** 使用python读取wav格式文件 ** - 基本概念 [采样频率] 即取样频率, 指每秒钟取得声音样本的次数.采样频率越高,声音的质量也就越好,声音的还原也就越真实,但同时它占的资源比较多.由 ...
python读取各种格式文件方式
python读取各种格式文件方式 1.读取图片并显示 #方法1 from PIL import Image img=Image.open('1.jpg') img.show() #方法2 import ...
python读取特殊格式文件
python读取特殊格式文件 1.pytorch读取lmdb格式文件参考文献做深度学习/数据分析,数据读取是基础.必需的一环.特整理,以待后用. 1.pytorch读取lmdb格式文件内容来源于 ...
Python——读取raw格式文件
Python--读取raw格式文件文章目录 Python--读取raw格式文件前言一.直接上代码前言简单记录一下python读取raw格式图像,因为reshape来来回回还交换轴搞得人头大, ...
【自动化测试】Python 读取 .ini 格式文件
大家应该接触过.ini格式的配置文件.配置文件就是把一些配置相关信息提取出去来进行单独管理,如果以后有变动只需改配置文件,无需修改代码.特别是后续做自动化的测试,需要拎出一部分配置信息,进行管理.比如 ...
python ini文件遍历_【自动化测试】Python 读取 .ini 格式文件
大家应该接触过.ini格式的配置文件.配置文件就是把一些配置相关信息提取出去来进行单独管理,如果以后有变动只需改配置文件,无需修改代码.特别是后续做自动化的测试,需要拎出一部分配置信息,进行管理.比如 ...

使用 Python 读取 json 格式文件并查重

使用 Python 读取 json 格式文件并查重相关推荐

最新文章

热门文章