python批量导入网页信息_python批量导入数据进Elasticsearch的实例

ES在之前的博客已有介绍，提供很多接口，本文介绍如何使用python批量导入。ES官网上有较多说明文档，仔细研究并结合搜索引擎应该不难使用。

先给代码

#coding=utf-8

from datetime import datetime

from elasticsearch import Elasticsearch

from elasticsearch import helpers

es = Elasticsearch()

actions = []

f=open('index.txt')

i=1

for line in f:

line = line.strip().split(' ')

action={

"_index":"image",

"_type":"imagetable",

"_id":i,

"_source":{

u"图片名":line[0].decode('utf8'),

u"来源":line[1].decode('utf8'),

u"权威性":line[2].decode('utf8'),

u"大小":line[3].decode('utf8'),

u"质量":line[4].decode('utf8'),

u"类别":line[5].decode('utf8'),

u"型号":line[6].decode('utf8'),

u"国别":line[7].decode('utf8'),

u"采集人":line[8].decode('utf8'),

u"所属部门":line[9].decode('utf8'),

u"关键词":line[10].decode('utf8'),

u"访问权限":line[11].decode('utf8')

}

i+=1

actions.append(action)

if(len(actions)==500):

helpers.bulk(es, actions)

del actions[0:len(actions)]

if (len(actions) > 0):

helpers.bulk(es, actions)

每句话的含义还是很明显的，这里需要说几点，首先是index.txt是以utf8编码的，所以需要decode('utf8')转换成unicode对象，并且“图片名”前需要加u，否则ES会报错

导入的速度还是很快的，2000多条记录每秒。

以上这篇python批量导入数据进Elasticsearch的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

时间： 2018-05-29

python批量导入网页信息_python批量导入数据进Elasticsearch的实例相关推荐

python操作hive数据库代码_python导出hive数据表的schema实例代码
本文研究的主要问题是python语言导出hive数据表的schema,分享了实现代码,具体如下. 为了避免运营提出无穷无尽的查询需求,我们决定将有查询价值的数据从mysql导入hive中,让他们使用H ...
python运行微软图标代码_Python读取xlsx数据生成图标代码实例
运行结果: 程序代码如下: #将excel中的数据进行读取分析 import openpyxl import numpy as np import math import matplotlib.pyp ...
python 批量下载网页图片_Python批量爬取图片并下载
PS:本文附赠爬汇图网图片的方法本文的目录看这里:前言找资源部分进入编程猫图鉴网找到聚集地获取聚集地网址代码部分导入相应的库re库介绍代码获取整个网站的内容扩展:状态码的意思其他的代码--总体代码关 ...
python批量下载网页图片_python批量下载网站马拉松照片的完整步骤
前言目前学习python几个月了,由于自己比较喜欢跑马拉松,已经跑过了很多场比赛,前些天就写了个简单的爬虫爬取了网上三千多场马拉松比赛的报名信息. 今年5月27日,我又参加了巴图鲁关门山壹佰越野50 ...
python抓取网页信息_python抓取网页中的动态数据
一.概念网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器 ...
Python 爬取网页信息并保存到本地爬虫爬取网页第一步【简单易懂，注释超级全，代码可以直接运行】
Python 爬取网页信息并保存到本地[简单易懂,代码可以直接运行] 功能:给出一个关键词,根据关键词爬取程序,这是爬虫爬取网页的第一步步骤: 1.确定url 2.确定请求头 3.发送请求 4.写入 ...
python爬取网页信息
最近在学习python,发现通过python爬取网页信息确实方便,以前用C++写了个简单的爬虫,爬取指定网页的信息,代码随便一写都几百行,而要用python完成相同的工作,代码量相当少.前几天看到了一 ...
Python抓取网页中的动态序列化数据
Python抓取网页中的动态序列化数据动态序列化数据经常应用于前后端分离的页面.或者通过VUE.JS等HTML页面环境,常规的爬虫抓取方法并不能满足数据采集的要求,因此需要其他的方式进行数据的采集. ...
python爬取网页停止_Python爬虫之爬取静态网页
所谓网络爬虫,通俗的讲,就是通过向我们需要的URL发出http请求,获取该URL对应的http报文主体内容,之后提取该报文主体中我们所需要的信息.所以,想要学习python爬虫,需要具备一些http的 ...

python批量导入网页信息_python批量导入数据进Elasticsearch的实例

python批量导入网页信息_python批量导入数据进Elasticsearch的实例相关推荐

最新文章

热门文章