用python批量更新es数据根据id_Python Elasticsearch批量操作客户端
基于Python实现的Elasticsearch批量操作客户端
by:授客 QQ:1033553122
1.代码用途
Elasticsearch客户端,目的在于实现批量操作,如下:
<1> 批量插入数据
<2> 批量更新文档字段值
<3> 批量新增文档字段值
<4> 批量删除数据
<5> 批量复制数据
<6> 批量去除冗余数据
2.测试环境
Win7 64位
Python 3.3.2
Win elasticsearch-5.4.1
chardet-2.3.0
3.使用方法
3.1 配置ES服务器信息
编辑配置文件conf/hostconfig
[DESTHOSTCONFIG]
host = 127.0.0.1
port = 9200
protocol = http
[SRCHOSTCONFIG]
host = 127.0.0.1
port = 9200
protocol = http
[README]
host = Elasticsearch所在服务器IP地址
port = Elasticsearch访问端口
protocol = 暂且固定为http
说明:
[DESTHOSTCONFIG]: 该节点下配置需要执行批量插入,批量更新文档,批量删除,批量复制时的ES主机信息
[SRCHOSTCONFIG]:该节点下配置需要复制ES数据的数据源主机信息,即从该节点下的ES主机复制到[DESTHOSTCONFIG]下的主机,两者可以是同一台主机
host = Elasticsearch所在服务器IP地址
port = Elasticsearch访问端口
protocol = 暂且固定为http
3.2 配置ES操作数据
3.2.1 批量插入数据
编辑配置文件conf/runconfig.txt
[RUNCONFIG]runtimes
= 1说明:
runtimes = 执行批量插入时,每组数据会被重复执行的次数,总插入记录数=runtimes x 数据组数
编辑配置文件conf/esdataconfig_insertdata.txt
[INSERTDATA]
index= business_chance
type = customer_num1
{
"group_customer_code":
"1",
"second_class":
"服装||手机||水果",
"customer_num":
100||200||300,
"province":
"广东省||福建省||云南省",
"branch":
"品牌1||品牌2"
}
end
{
"group_customer_code":
"2",
"second_class":
"服装",
"customer_num":
400,
"province":
"广东省",
"branch":
"品牌3"
}
end
type = customer_num2
{
"group_customer_code":
"1",
"second_class":
"服装",
"customer_num":
600,
"province":
"广东省",
"branch":
"品牌",
"rank":1
}
end
index= business_index
type = customer_type
{
"group_customer_code":
"1",
"second_class":
"服装",
"customer_num":
600,
"province":
"广东省",
"branch":
"品牌2",
"rank":1
}
end
说明:
[INSERTDATA] ------------->固定值
index= 索引名称,不能为空
type = 类型名称,不可为空
{
"group_customer_code":
"1",
"second_class":
"服装||手机||水果",
"customer_num":
100||200||300,
"province":
"广东省||福建省||云南省",
"branch":
"品牌1||品牌2"
}
end
需要提交的一组数据,没组数据遵守json格式,后面一定要跟“end” 表示数据范围结束
"second_class": "服装||手机||水果",
1)如果有多个参数值,以
|| 分隔,运行时程序随机选取一个
2)参数值如果是字符串类型,加以英文双引号",否则不加双引号
从上往下,
1)如果已填写index,需要切换文档类型,可直接另起一行,如下
type = customer_num2
表示接下来的数据组插入到该文档类型,直到遇到其它索引、文档类型
2)如果需要提交到其它新的索引,可直接另起一行,填写新的索引和类型,如下
index= business_index
type = customer_type
表示接下来的数据组插入到新索引名称下的新索引类型中
3.2.2批量更新文档字段值|新增字段值
编辑配置文件conf/esdataconfig_updatefield.txt
[UPDATEFIELD]
index=business_chance
type = customer_num1
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
},"size":150
}
end
{
"branch": "品牌99||品牌66",
"customer_num": 900||888
}
end
type = customer_num2
查询=
{
"query":
{
"match_all":
{}
},
"size":
100
}
end
{
"branch": "品牌999",
"customer_num": 990
}
end
index= business_index
type = customer_type
查询=
{
"query":
{
"match_all":
{}
},
"size":
100
}
end
{
"branch": "品牌666",
"customer_num": 666
}
end
说明:
[UPDATEFIELD]------------>固定值
index= 需要更新记录所在索引名称,不可为空
type = 需要更新记录所在文档类型,不可为空
查询={……} 仅更新满足查询条件的结果,不可为空
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
},
"size":150
}
end
这里的逻辑是这样的:先“查询”,再对查询出来的每条记录进行更新
注意:
不使用size参数的话,ES默认仅仅会返回10条记录,程序仅会对返回的记录数进行更新,所以,如果需要更新的记录数大于10条,需要通过"size"参数,显示控制ES返回的记录数,比如“需要更新的记录数有150条,则size的值要设置大于等于150”(下同,不在赘述)
参数数据组
{
"branch": "品牌99||品牌66",
"customer_num": 900||888
}
end
同批量插入
1)如果有多个参数值,以
|| 分隔,运行时程序随机选取一个
2)参数值如果是字符串类型,加以英文双引号",否则不加双引号
从上往下,
1)如果已填写index,需要切换文档类型,可直接另起一行,如下
type = customer_num2
表示接下来的数据组更新,只更新归属该文档类型的记录,直到遇到其它索引、文档类型
3)如果需要更新归属其它新索引的记录,可直接另起一行,填写新的索引和类型,如下
index= business_index
type = customer_type
表示接下来的数据组只更新新索引名称下的新索引类型中的记录,直到遇到其它索引、文档类型
同批量插入,查询,参数数据组,都必须跟 end,表示数据范围结束
另外,需要注意的是:“查询”,必须位于参数数组上方,索引类型下方
批量新增文档字段:如果填写的字段不存在,则会新增字段及对应值
3.2.3
批量删除
编辑配置文件conf/esdataconfig_deletedata.txt
[DELETEDATA]index=
business_chancetype
= customer_num1查询={"query":
{"match_phrase":
{"province":
"广东省"}}
}endindex=
business_indextype
= customer_type{"query":
{"match_phrase":
{"province":
"广东省"}}}
end
说明:
[DELETEDATA]--------固定值index=
要删除记录所在索引type
= 要删除记录所在类型
查询={……} 仅更新满足查询条件的结果,不可为空
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
}
}
end
这里的逻辑是这样的:如先“查询”,再对查询出来的每条记录(ES实际返回的记录)进行删除
其它说明同上
3.2.4
批量去除冗余(重复)的数据
编辑配置文件conf/esdataconfig_deduplicatedata.txt
[DEDUPLICATEDATA]
index= business_index
type = customer_num2
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
},
"size":100
}
end
type = customer_type
查询=
{
"query":
{
"match_all":
{}
},
"size":
100
}
end
index= business_chance
type = customer_num1
查询=
{
"query":
{
"match_all":
{}
},
"size":
100
}
end
注意:
这里的查询不能为空,一定要填写
这里的实现逻辑是这样的:先查询,然后删除查询出来的全部记录,最后再把不重复的记录写回到ES中。
其它说明同上
3.2.5
批量复制数据
编辑配置文件conf/esdataconfig_copydata.txt
[COPYDATA]
index= business_chance
type = customer_num1
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
}
}
end
type = customer_num2
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
}
}
end
格式基本同上述的批量更新文档的配置,多少有点不一样,需要注意如下:
1) 这里的index,type分别为数据源所在的索引和类型,即需要从该索引和类型中复制数据到目标索引和类型,不能为空
index= business_chance
type = customer_num1
2)条件=
配置需要“复制数据到”的目标索引,和目标类型,如下,以逗号分隔,一个条件仅仅支持一个目标index和type
条件 = index = business_index
, type = customer_num2
end
条件和查询都不能为空。
这里的实现逻辑是这样的:对数据源所在的index, type通过“查询”得到要复制的数据,然后根据“条件”设置的目标索引和类型名,复制到对应目标主机上的目标索引,目标类型中。
说明:重复复制,会生成重复数据
如果觉得麻烦,以上几个数据配置的内容,可以写在一个文件里,但是必须按格式填写
3.3
运行程序
cmd进入ESBatchOperator根目录(main.py所在目录)
python main.py
按提示,输入数字编号 1、2、3、4、5,回车运行
用python批量更新es数据根据id_Python Elasticsearch批量操作客户端相关推荐
- 使用python批量下载天猫数据并进行合并(非爬虫)
使用python批量下载天猫数据并进行合并(非爬虫) 做电商运营少不了数据分析支持,无论是选品.选关键词.研究竞品还是开直通车.店铺引流都需要有数据支持.不过生意参谋虽然强大,但现在都只能显示&quo ...
- 利用Python批量识别电子账单数据
文章目录 一.前言 二.调用Baidu aip识别 三.批量识别电子账单 一.前言 有一定数量类似如下截图所示的账单,利用 Python 批量识别电子账单数据,并将数据保存到Excel. 百度智能云接 ...
- Python批量采集商品数据并使用多线程(含完整源码)
前言 嗨喽,大家好,这里是魔王~ 本次目的: Python批量采集商品数据 知识点: 爬虫基本流程 非结构化数据解析 csv数据保存 线程池的使用 开发环境: python 3.8 pycharm r ...
- python账单查询软件_利用Python批量识别电子账单数据的方法
这篇文章主要介绍了利用Python批量识别电子账单数据的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下 一.前言 有一定数量类似如下截图所示的账单,利用 ...
- python 批量搜索ES
python 批量搜索ES from elasticsearch import Elasticsearch import jsondef run():es = Elasticsearch(hosts= ...
- 超级好用的使用python批量更新MYsql,速度从一万条需要一天变道一万条需要10分钟左右
推荐网址:https://www.jb51.net/article/100747.html MySQL批量插入的语法为: UPDATE nine_tupleSET SENTI_VALUE = CASE ...
- 批量更新mysql数据(万条数据秒完成)
1.常规方法,利用executemany批量更新数据(数据量小用这个就够了) import pymysql import pandas as pd conn = pymysql.connect(hos ...
- python 文件更新_使用Python批量更新服务器文件【新手必学】
买了个Linux服务器,Centos系统,装了个宝塔搭建了10个网站,比如有时候要在某个文件上加点代码,就要依次去10个文件改动,虽然宝塔是可视化页面操作,不需要用命令,但是也麻烦,虽然还有git的h ...
- python批量处理excel数据_Python批量处理Excel,真香(超实用!)
本文介绍了利用Python批量处理Excel文件的一种方法,超实用,超简单.轻松可实现,节省时间不只一点点.文章不长,功能超强. 上菜. 某一天,老板丢个我一个任务.需要将400多张表按照一定条件进行 ...
最新文章
- ubuntu mysql emma_ubuntumysql客户端emma中文乱码问题解决_MySQL
- Android studio 克隆分支
- php 系统平均负载,Linux_解析Linux系统的平均负载概念,一、什么是系统平均负载(Load a - phpStudy...
- Java基础——深入理解ReentrantLock
- fpga如何约束走线_FPGA时序约束实战篇之多周期路径约束
- [转]Effective C# 原则7: 选择恒定的原子值类型数据
- mysql视图执行原理_MySql中的视图 触发器 存储过程,以及事物
- 软考信息系统项目管理师知识点总结(高项十大管理案例分析作文)
- swarm bzz 安装0.5.3版本基础解析。
- django之admin调整页面展示
- DFD图练习(图书管理系统)
- 如何学习有限元分析 有限元分析学习心得
- unity响应键盘的组合键
- 无lnternet_为什么无internet访问权限,无lnternet访问权限怎么办
- 文本编辑器Geany
- 处理数据库镜像问题的一个案例——数据库主体与镜像断开连接
- WhatsApp 电脑版如何下载安装?
- Excel :模拟投币实验
- 画风突变!用友云全新定义数字企业智能服务
- 神经网络学习笔记3——Transformer、VIT与BoTNet网络