用 Spark 为 Elasticsearch 导入搜索数据

越来越健忘了，得记录下自己的操作才行！

ES和spark版本：

spark-1.6.0-bin-hadoop2.6

Elasticsearch for Apache Hadoop 2.1.2

如果是其他版本，在索引数据写入的时候可能会出错。

首先，启动es后，spark shell导入es-hadoop jar包：

cp elasticsearch-hadoop-2.1.2/dist/elasticsearch-spark* spark-1.6.0-bin-hadoop2.6/lib/
cd spark-1.6.0-bin-hadoop2.6/bin
./spark-shell --jars ../lib/elasticsearch-spark-1.2_2.10-2.1.2.jar

交互如下：

import org.apache.spark.SparkConf
import org.elasticsearch.spark._
val conf = new SparkConf()
conf.set("es.index.auto.create", "true")
conf.set("es.nodes", "127.0.0.1")
val numbers = Map("one" -> 1, "two" -> 2, "three" -> 3)
val airports = Map("OTP" -> "Otopeni", "SFO" -> "San Fran")
sc.makeRDD(Seq(numbers, airports)).saveToEs("spark/docs")

然后查看ES中的数据：

http://127.0.0.1:9200/spark/docs/_search?q=*

结果如下：

{"took":71,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":2,"max_score":1.0,"hits":[{"_index":"spark","_type":"docs","_id":"AVfhVqPBv9dlWdV2DcbH","_score":1.0,"_source":{"OTP":"Otopeni","SFO":"San Fran"}},{"_index":"spark","_type":"docs","_id":"AVfhVqPOv9dlWdV2DcbI","_score":1.0,"_source":{"one":1,"two":2,"three":3}}]}}

参考：

https://www.elastic.co/guide/en/elasticsearch/hadoop/2.1/spark.html#spark-installation

http://spark.apache.org/docs/latest/programming-guide.html

http://chenlinux.com/2014/09/04/spark-to-elasticsearch/

转载于:https://www.cnblogs.com/bonelee/p/5981699.html

用 Spark 为 Elasticsearch 导入搜索数据相关推荐

elasticsearch 导入基础数据并索引之 geo_shape
我们看到的图形, 实际是由点来完成的, 有2种类型的格子模型可用于地理星座, 默认使用的是geoHash, 还有一种4叉树(quad trees), 也可用于判断形状与索引的形状关系 1), int ...
Spark 整合ElasticSearch
Spark 整合ElasticSearch 因为做资料搜索用到了ElasticSearch,最近又了解一下 Spark ML,先来演示一个Spark 读取/写入 ElasticSearch 简单示例. ...
Elasticsearch简单搜索以及聚合分析
1.批量索引文档如果你有大量文档要索引,你能通过批量 API(bulk API) 来批量提交它们.批量文档操作比单独提交请求显著更快,因为它极简了网络往返. 最佳的批量数量取决于许多因素:文档的大小 ...
es java_java整合ElasticSearch导入数据到es中
实体类:利用注解建立实体类会自动根据实体类创建索引,不需要自己建立mapping package com.msic.mall.search.domain; import lombok.AllArgsC ...
数据湖应用解析：Spark on Elasticsearch一致性问题
概述 Spark与Elasticsearch(es)的结合,是近年来大数据解决方案很火热的一个话题.一个是出色的分布式计算引擎,另一个是出色的搜索引擎.近年来,越来越多的成熟方案落地到行业产品中,包括 ...
Elasticsearch：导入本地数据和使用Kibana管理数据(楼主亲测，真实有效)
导入数据 Elasticsearch和Kibana的结合就是用来检索和分析数据的,那么这个数据怎么来,肯定是导入进去的. 一.导入数据的说明 Elasticsearch在官方的文档探索你的数据中,有说 ...
java项目： ElasticSearch+Spark构建高相关性搜索服务千人千面推荐系统
文章目录 1 概述 2 需求分析 3 项目基础搭建[业务系统之基础能力] 4 用户服务.运营后台.商户服务的搭建用户模型前后端运营后台商户入驻: 商户创建.商户查询.商户禁用 5 基础服务: 品 ...
windows下用elasticdump导入json数据到Elasticsearch中
一.前言 ES的备份,导入和导出相对而言比较麻烦.用logstash的话,经常会出现很多错误,而且不是很方便.用bulk也是一样的,对于咱们的json文件的结构,一些字段名都有要求,也不方便.后来和大 ...
导入json数据到Elasticsearch（bulk方法）
一.前言在前面几章,基本把本地的环境给配置好了,那么配置好了之后,要做的第一件事当然就是导入数据进去.我这边准备的是一份json数据,这里通过ES的bulk API给导入进去. 二.导入数据 1.批 ...

用 Spark 为 Elasticsearch 导入搜索数据

用 Spark 为 Elasticsearch 导入搜索数据相关推荐

最新文章

热门文章