python向es写入大量数据_使用Python-elasticsearch-bulk批量快速向elasticsearch插入数据_李谦的博客-CSDN博客...
from elasticsearch import Elasticsearch
from elasticsearch import helpers
import pymysql
import time
# 连接ES
es = Elasticsearch(
['127.0.0.1'],
port=9200
# 连接MySQL
print("Connect to mysql...")
mysql_db = "test"
m_conn = pymysql.connect(host='127.0.0.1, port=3306, user='root', passwd='root', db=mysql_db, charset='utf8')
m_cursor = m_conn.cursor()
try:
num_id = 0
while True:
s = time.time()
# 查询数据
sql = "select name,age,area from testTable LIMIT {}, 100000".format(num_id*100000)
# 这里假设查询出来的结果为 张三 26 北京
m_cursor.execute(sql)
query_results = m_cursor.fetchall()
if not query_results:
print("MySQL查询结果为空 num_id=".format(num_id))
break
else:
actions = []
for line in query_results:
# 拼接插入数据结构
action = {
"_index": "company_base_info_2",
"_type": "company_info",
"_source": {
"name": line[0],
"age": line[1],
"area": line[2],
# 形成一个长度与查询结果数量相等的列表
actions.append(action)
# 批量插入
a = helpers.bulk(es, actions)
e = time.time()
print("{} {}s".format(a, e-s))
num_id += 1
finally:
m_cursor.close()
m_conn.close()
print("MySQL connection close...")
代码的关键在于构造action结构,放入列表中,给helpers.bulk(es, actions)传参,调用方法真的是很简单了。
下面用py_es client来解析geojson,并使用bulk api导入es
py_es client :https://elasticsearch-py.readthedocs.io/en/7.6.0/
导入速度大概是:1500条/秒
# aganliang 20200519
# 使用ES python api插入geojson点...
用python操作elasticsearchpython连接 elasticsearch 进行搜索python连接 elasticsearch 增加文档
python连接 elasticsearch 进行搜索
用 python 操作 elasticsearch 使用的第三方库是 elasticsearch
from elasticsearch import Elasticsearch
# host 是 ES 的主机IP,port 是 ES 的端口号
es = Elasticsearch([{'host':
使用Python往Elasticsearch插入数据
在这里,我使用Elasticsearch官方推荐elasticsearch第三方包来讲述插入数据的两种方法。
1. index
这是很简单的一个插入数据的方法,每条数据调用一个index方法,代码如下from datetime import datetime
from elasticsearch import Elasticsearches
for i in range(0,1000):
newDic = {"key":"value"}
action = {"_index": IndexName, "_type": TypeName, "_id": _id, "_source": newDic}
actions.append(action)
#--------------bukl index ac
使用python,批量导入数据到elasticsearch中
使用python官方模块,批量将文件中的数据导入到elasticsearch中。
1、文件内容
文件以{url:content}组成且以“\t”隔开,例子如下:
http://www.avsforum.com/forum/39-networking-media-servers-content-streaming/1624586-
想问下作者为啥你获取的数据就是中文也很正常,我从neo4j获取的数据是乱码,能解决吗
[code=python]
[{'r': (a3e1785)-[:`开票人`]->(ca250c7)}, {'r': (a3e1785)-[:`复核`]->(da99c6d)}, {'r': (a3e1785)-[:`收款人`]->(da99c6d)},
[/code]
访问Neo4j验证失败(The client is unauthorized due to authentication failure.)
LS_learner:
这个貌似不适合桌面版的neo4j
使用docker部署基于selenium和chrome-headless的爬虫
为什么使用standalone-chrome这个镜像 node地址就变成 http://127.0.0.1:4444/wd/hub 也没启动selenium hub容器。
难道standalone-chrome这个镜像都把HUB和NODE都给集成了吗?
使用Alpine Linux的Docker镜像安装Python及相关依赖包
Nick_Spider:
有帮助就好~
使用Python-elasticsearch-bulk批量快速向elasticsearch插入数据
余音丶未散:
删除或者更新需要添加什么参数啊
python向es写入大量数据_使用Python-elasticsearch-bulk批量快速向elasticsearch插入数据_李谦的博客-CSDN博客...相关推荐
- 怎么禁止/开启Ubuntu自动更新升级_豆豆技术派的博客-CSDN博客_ubuntu 自动更新
怎么禁止/开启Ubuntu自动更新升级_豆豆技术派的博客-CSDN博客_ubuntu 自动更新
- 当了十年 IT 程序员,我转型做自动驾驶开发的这五年”_《新程序员》编辑部的博客-CSDN博客
"当了十年 IT 程序员,我转型做自动驾驶开发的这五年"_<新程序员>编辑部的博客-CSDN博客
- ubuntu 安装Pangolin 过程_余辉亮的学习笔记的博客-CSDN博客_pangolin安装
ubuntu 安装Pangolin 过程_余辉亮的学习笔记的博客-CSDN博客_pangolin安装
- ubuntu下解决“无法获得锁 ”的方法_cppmylove的博客-CSDN博客_无法获得锁
ubuntu下解决"无法获得锁 "的方法_cppmylove的博客-CSDN博客_无法获得锁 E: 无法获得锁 /var/lib/dpkg/lock-frontend - open ...
- ubuntu18.04在终端安装pip3时404 Not Found [IP: 91.189.91.24 80]_木绿的博客-CSDN博客
ubuntu18.04在终端安装pip3时404 Not Found [IP: 91.189.91.24 80]_木绿的博客-CSDN博客 解决办法如下 亲测可用 sudo apt-get updat ...
- 无人驾驶运动学模型——线性时变模型预测控制的思路推演过程_百叶书的博客-CSDN博客_线性时变模型预测控制 转
无人驾驶运动学模型--线性时变模型预测控制的思路推演过程_百叶书的博客-CSDN博客_线性时变模型预测控制
- 深入理解计算机系统 -资料整理 高清中文版_在所不辞的博客-CSDN博客_深入理解计算机系统第四版pdf
深入理解计算机系统 -资料整理 高清中文版_在所不辞的博客-CSDN博客_深入理解计算机系统第四版pdf
- 如何简单形象又有趣地讲解神经网络是什么?(知乎) 说的人很多,理解很充分_kebu12345678的博客-CSDN博客_神经网络知乎
如何简单形象又有趣地讲解神经网络是什么?(知乎) 说的人很多,理解很充分_kebu12345678的博客-CSDN博客_神经网络知乎 如何简单形象又有趣地讲解神经网络是什么? - 知乎
- shaderToy初学笔记(一)(转载自最简单的ShaderToy入门 - 笑脸渲染_亨利王的博客-CSDN博客_shadertoy)
void mainImage( out vec4 fragColor, in vec2 fragCoord ) {vec2 uv = fragCoord/iResolution.xy;uv-=.5;f ...
最新文章
- 虚方法virtual详解(转载)
- java对象序列化java.io.Serializable 接口实践
- git 更新_[技术分享T.191212]GitLab使用方法及git命令常见问题(不断更新)
- java get与post区别_HTTP请求(GET与POST区别)和响应
- 怎么关闭或者卸载ivanti_电脑软件卸载不了怎么办,教您解决电脑软件无法卸载方法技巧...
- python3和php7哪个好_性能是Flask的3倍!比PHP7还快!这个Python框架你值得拥有!
- Java面向对象之继承、super关键字、方法重写
- vSphere 6.5 High Availability New Features – Proactive HA(vSphere 6.5高可用性新功能–主动HA)
- PHP正则表达式实例汇总
- 分享一个热血合击脚本辅助工具(以及随机数生成器源码)
- 数据结构视频教程 -《[北大张铭 教学版]数据结构与算法(C++)》
- 安卓ExpandableListView的详细使用教程(附代码解析过程)
- 【maya】学习历程
- springboot基于微信小程序的运动软件前端的设计与实现毕业设计源码100932
- ILI9341的使用之【五】命令一
- 离职后竟半夜偷溜回办公室写代码?为自由软件而战斗的程序员
- 互联网暗潮汹涌,开放平台机遇空前
- 二维码及验证码的生成
- 台式计算机可以接收无线不,台式电脑无线接收器插上连不上网怎么处理
- ip地址解析成国家、城市、iso code或者按语言获取城市名