python批量导入网页信息_python批量导入数据进Elasticsearch的实例
ES在之前的博客已有介绍,提供很多接口,本文介绍如何使用python批量导入。ES官网上有较多说明文档,仔细研究并结合搜索引擎应该不难使用。
先给代码
#coding=utf-8
from datetime import datetime
from elasticsearch import Elasticsearch
from elasticsearch import helpers
es = Elasticsearch()
actions = []
f=open('index.txt')
i=1
for line in f:
line = line.strip().split(' ')
action={
"_index":"image",
"_type":"imagetable",
"_id":i,
"_source":{
u"图片名":line[0].decode('utf8'),
u"来源":line[1].decode('utf8'),
u"权威性":line[2].decode('utf8'),
u"大小":line[3].decode('utf8'),
u"质量":line[4].decode('utf8'),
u"类别":line[5].decode('utf8'),
u"型号":line[6].decode('utf8'),
u"国别":line[7].decode('utf8'),
u"采集人":line[8].decode('utf8'),
u"所属部门":line[9].decode('utf8'),
u"关键词":line[10].decode('utf8'),
u"访问权限":line[11].decode('utf8')
}
}
i+=1
actions.append(action)
if(len(actions)==500):
helpers.bulk(es, actions)
del actions[0:len(actions)]
if (len(actions) > 0):
helpers.bulk(es, actions)
每句话的含义还是很明显的,这里需要说几点,首先是index.txt是以utf8编码的,所以需要decode('utf8')转换成unicode对象,并且“图片名”前需要加u,否则ES会报错
导入的速度还是很快的,2000多条记录每秒。
以上这篇python批量导入数据进Elasticsearch的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。
时间: 2018-05-29
python批量导入网页信息_python批量导入数据进Elasticsearch的实例相关推荐
- python操作hive数据库代码_python导出hive数据表的schema实例代码
本文研究的主要问题是python语言导出hive数据表的schema,分享了实现代码,具体如下. 为了避免运营提出无穷无尽的查询需求,我们决定将有查询价值的数据从mysql导入hive中,让他们使用H ...
- python运行微软图标代码_Python读取xlsx数据生成图标代码实例
运行结果: 程序代码如下: #将excel中的数据进行读取分析 import openpyxl import numpy as np import math import matplotlib.pyp ...
- python 批量下载网页图片_Python批量爬取图片并下载
PS:本文附赠爬汇图网图片的方法 本文的目录看这里:前言找资源部分进入编程猫图鉴网找到聚集地获取聚集地网址代码部分导入相应的库re库介绍代码获取整个网站的内容扩展:状态码的意思其他的代码--总体代码关 ...
- python批量下载网页图片_python批量下载网站马拉松照片的完整步骤
前言 目前学习python几个月了,由于自己比较喜欢跑马拉松,已经跑过了很多场比赛,前些天就写了个简单的爬虫爬取了网上三千多场马拉松比赛的报名信息. 今年5月27日,我又参加了巴图鲁关门山壹佰越野50 ...
- python抓取网页信息_python抓取网页中的动态数据
一.概念 网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器 ...
- Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂,注释超级全,代码可以直接运行】
Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步 步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...
- python爬取网页信息
最近在学习python,发现通过python爬取网页信息确实方便,以前用C++写了个简单的爬虫,爬取指定网页的信息,代码随便一写都几百行,而要用python完成相同的工作,代码量相当少.前几天看到了一 ...
- Python抓取网页中的动态序列化数据
Python抓取网页中的动态序列化数据 动态序列化数据经常应用于前后端分离的页面.或者通过VUE.JS等HTML页面环境,常规的爬虫抓取方法并不能满足数据采集的要求,因此需要其他的方式进行数据的采集. ...
- python爬取网页停止_Python爬虫之爬取静态网页
所谓网络爬虫,通俗的讲,就是通过向我们需要的URL发出http请求,获取该URL对应的http报文主体内容,之后提取该报文主体中我们所需要的信息.所以,想要学习python爬虫,需要具备一些http的 ...
最新文章
- 第二阶段团队项目冲刺站立会议(九)
- QT 中 关键字讲解(emit,signal,slot)以及使用
- vsftp配置文件详解
- java在所选路径中找到分号,classpath
- zookeeper的名词复盘-数据模型
- iOS10 权限访问崩溃
- 【DeepLearning】Exercise:Learning color features with Sparse Autoencoders
- windows远程桌面无法拷贝文件的问题与解决方法
- java json 图片_图片路径存储且item的json化
- storm流式处理框架
- 电路分析实验一 Pspice编写电路程序并运行
- 商业计划书范文3000_餐厅 餐饮 饭店项目商业计划书模板范文
- 我们应能在哪个层次使用计算机,福师20秋《计算机应用基础》在线作业一题目【标准答案】...
- 等保三级核心-数据安全
- 文本分类概述(nlp)
- 从唐虞夏商宋五字的甲骨文本意来重温那段历史。
- 深度学习方法的超分辨率(Super-resolution)方向论文【不定期更新】
- windows下tomcat7日志配置
- Pandas数据处理_分组聚合_透视表交叉表
- Jmeter javax.swing.text.BadLocationException: Position not represented by view 解决方法