越来越健忘了,得记录下自己的操作才行!

ES和spark版本:

spark-1.6.0-bin-hadoop2.6

Elasticsearch for Apache Hadoop 2.1.2

如果是其他版本,在索引数据写入的时候可能会出错。

首先,启动es后,spark shell导入es-hadoop jar包:

cp elasticsearch-hadoop-2.1.2/dist/elasticsearch-spark* spark-1.6.0-bin-hadoop2.6/lib/
cd spark-1.6.0-bin-hadoop2.6/bin
./spark-shell --jars ../lib/elasticsearch-spark-1.2_2.10-2.1.2.jar

交互如下:

import org.apache.spark.SparkConf
import org.elasticsearch.spark._
val conf = new SparkConf()
conf.set("es.index.auto.create", "true")
conf.set("es.nodes", "127.0.0.1")
val numbers = Map("one" -> 1, "two" -> 2, "three" -> 3)
val airports = Map("OTP" -> "Otopeni", "SFO" -> "San Fran")
sc.makeRDD(Seq(numbers, airports)).saveToEs("spark/docs")

然后查看ES中的数据:

http://127.0.0.1:9200/spark/docs/_search?q=*

结果如下:

{"took":71,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":2,"max_score":1.0,"hits":[{"_index":"spark","_type":"docs","_id":"AVfhVqPBv9dlWdV2DcbH","_score":1.0,"_source":{"OTP":"Otopeni","SFO":"San Fran"}},{"_index":"spark","_type":"docs","_id":"AVfhVqPOv9dlWdV2DcbI","_score":1.0,"_source":{"one":1,"two":2,"three":3}}]}}

参考:

https://www.elastic.co/guide/en/elasticsearch/hadoop/2.1/spark.html#spark-installation

http://spark.apache.org/docs/latest/programming-guide.html

http://chenlinux.com/2014/09/04/spark-to-elasticsearch/

转载于:https://www.cnblogs.com/bonelee/p/5981699.html

用 Spark 为 Elasticsearch 导入搜索数据相关推荐

  1. elasticsearch 导入基础数据并索引之 geo_shape

    我们看到的图形, 实际是由点来完成的, 有2种类型的格子模型可用于地理星座, 默认使用的是geoHash, 还有一种4叉树(quad trees), 也可用于 判断形状与索引的形状关系 1), int ...

  2. Spark 整合ElasticSearch

    Spark 整合ElasticSearch 因为做资料搜索用到了ElasticSearch,最近又了解一下 Spark ML,先来演示一个Spark 读取/写入 ElasticSearch 简单示例. ...

  3. Elasticsearch简单搜索以及聚合分析

    1.批量索引文档 如果你有大量文档要索引,你能通过批量 API(bulk API) 来批量提交它们.批量文档操作比单独提交请求显著更快,因为它极简了网络往返. 最佳的批量数量取决于许多因素:文档的大小 ...

  4. es java_java整合ElasticSearch导入数据到es中

    实体类:利用注解建立实体类会自动根据实体类创建索引,不需要自己建立mapping package com.msic.mall.search.domain; import lombok.AllArgsC ...

  5. 数据湖应用解析:Spark on Elasticsearch一致性问题

    概述 Spark与Elasticsearch(es)的结合,是近年来大数据解决方案很火热的一个话题.一个是出色的分布式计算引擎,另一个是出色的搜索引擎.近年来,越来越多的成熟方案落地到行业产品中,包括 ...

  6. Elasticsearch:导入本地数据和使用Kibana管理数据(楼主亲测,真实有效)

    导入数据 Elasticsearch和Kibana的结合就是用来检索和分析数据的,那么这个数据怎么来,肯定是导入进去的. 一.导入数据的说明 Elasticsearch在官方的文档探索你的数据中,有说 ...

  7. java项目: ElasticSearch+Spark构建高相关性搜索服务千人千面推荐系统

    文章目录 1 概述 2 需求分析 3 项目基础搭建[业务系统之基础能力] 4 用户服务.运营后台.商户服务的搭建 用户模型前后端 运营后台 商户入驻: 商户创建.商户查询.商户禁用 5 基础服务: 品 ...

  8. windows下用elasticdump导入json数据到Elasticsearch中

    一.前言 ES的备份,导入和导出相对而言比较麻烦.用logstash的话,经常会出现很多错误,而且不是很方便.用bulk也是一样的,对于咱们的json文件的结构,一些字段名都有要求,也不方便.后来和大 ...

  9. 导入json数据到Elasticsearch(bulk方法)

    一.前言 在前面几章,基本把本地的环境给配置好了,那么配置好了之后,要做的第一件事当然就是导入数据进去.我这边准备的是一份json数据,这里通过ES的bulk API给导入进去. 二.导入数据 1.批 ...

最新文章

  1. 云原生时代消息中间件的演进路线
  2. elasticsearch 9300端口连接不上_SpringBoot2.x系列教程54--SpringBoot整合ElasticSearch方式一...
  3. jmeter响应数据Unicode编码转换为汉字
  4. 分享让人折服的优秀代码基因
  5. mysql 5.6 缓存_为什么默认情况下从MySQL 5.6开始禁用query_cache_type?
  6. struts.properties文件
  7. Python以进程方式无黑窗在后台运行(无命令窗)
  8. 统计英文文本的字母个数
  9. GTC16浪潮展示多形态深度学习服务器
  10. java 视频上传_java实现大视频上传
  11. 太极越狱重大安全后门
  12. 中国移动面试总结(一)
  13. 6713芯片手册_tms320c6713 gpio_tms320c6713_dsp6713中文手册
  14. 用javascript访问操作iframe中的dom对象
  15. Bugzilla的安装和配置
  16. 彻底删除卸载2345安全卫士及2345浏览器
  17. 如何用matlab编写分段函数_matlab 如何写分段函数
  18. 关于抖音年前活动的需求与思考
  19. Java8 使用 stream().sorted()对List集合进行排序
  20. Powershell 5.1中Shift + Insert无法粘贴解决

热门文章

  1. java泛型的泛型_Java 泛型总结(一):基本用法与类型擦除
  2. 计算机网络大一上学期期末考试试题及答案,大一第一学期期末计算机考试题及答案)...
  3. onresize事件会被多次触发_玩转SpringBoot之通过事件机制参与SpringBoot应用的启动过程...
  4. 宿松长铺程集高中2021年高考成绩查询,2017宿松程集中学录取分数线(附2017高考成绩喜报)...
  5. python装饰器的案例_Python之装饰器的实例
  6. docker rails mysql_Rails Docker开发环境配置
  7. mysql报错:Column 'id' in field list is ambiguous,以及tp的三表联合查询语句,打印sql等
  8. 一个Java程序员的面试心得,最终入职阿里
  9. 2019-2020 ACM-ICPC Brazil Subregional Programming Contest
  10. 科学计算机撤销,云计算环境下基于属性的撤销方案-计算机科学.PDF