在本演讲中,我将介绍用于Elasticsearch和Spring Data Elasticsearch的三个不同的客户端。 首先,让我们看一下Elasticsearch的一些基础知识。

弹性搜索

为了介绍elasticsearch,我使用的定义直接来自Elastic网站。

Elasticsearch是基于JSON的分布式搜索和分析引擎,旨在实现水平可伸缩性,最大的可靠性和易于管理的功能。

首先让我们看看基于JSON的搜索和分析引擎的含义。

要了解elasticsearch的功能,最好查看搜索页面的示例。 这是每个人都熟悉的,在Github上进行代码搜索。

可以在单个搜索输入中输入关键字,下面是结果列表。 搜索引擎和其他数据库之间的显着特征之一是存在相关性的概念。 我们可以看到,对于我们的搜索词elasticsearch来说,搜索引擎的项目是第一位的。 人们在搜索该术语时很可能正在寻找项目。 用来确定结果是否比另一个结果更相关的因素可能因应用程序而异-我不知道Github在做什么,但是我可以想象除了经典的文本相关性功能之外,他们还在使用诸如流行度之类的因素。 像elasitcsearch这样的经典搜索引擎支持的网站上还有更多功能:突出显示结果中的出现,对列表进行分页并使用不同的条件进行排序。 在左侧,您可以看到所谓的构面,这些构面可用于根据找到的文档中的条件进一步细化结果列表。 这类似于在ebay和Amazon等电子商务网站上发现的功能。 为此,elasticsearch具有聚合功能,这也是其分析功能的基础。 使用弹性搜索也可以做到这一点。 在这种情况下,这一点更加明显– Github实际上是在使用Elasticsearch来搜索存储的大量数据。

如果要构建这样的搜索应用程序,则必须先安装引擎。 幸运的是,elasticsearch非常容易上手。 除了最近的Java运行时之外,没有其他特殊要求。 您可以从elastic网站上下载elasticsearch档案,将其解压缩并使用脚本启动elasticsearch。

# download archive
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.0.0.zipunzip elasticsearch-5.0.0.zip# on windows: elasticsearch.bat
elasticsearch-5.0.0/bin/elasticsearch

对于生产用途,还有用于不同Linux发行版的软件包。 您可以看到通过在标准端口上执行HTTP GET请求来启动elasticsearch。 在示例中,我使用的是curl,它是用于执行HTTP请求的命令行客户端,可用于许多环境。

curl -XGET "http://localhost:9200"

elasticsearch将使用包含有关安装信息的JSON文档回答此请求。

{"name" : "LI8ZN-t","cluster_name" : "elasticsearch","cluster_uuid" : "UvbMAoJ8TieUqugCGw7Xrw","version" : {"number" : "5.0.0","build_hash" : "253032b","build_date" : "2016-10-26T04:37:51.531Z","build_snapshot" : false,"lucene_version" : "6.2.0"},"tagline" : "You Know, for Search"
}

对我们来说,最重要的事实是我们可以看到服务器已启动。 但是,还有关于Elasticsearch和Lucene的版本信息,Lucene是用于大多数搜索功能的基础库。

如果现在我们想将数据存储在elasticsearch中,我们也将其作为JSON文档发送,这次使用POST请求。 因为我非常喜欢新加坡的食物,所以我想构建一个应用程序,让我可以搜索自己喜欢的食物。 让我们索引第一道菜。

curl -XPOST "http://localhost:9200/food/dish" -d'
{"food": "Hainanese Chicken Rice","tags": ["chicken", "rice"],"favorite": {"location": "Tian Tian","price": 5.00}
}'

我们使用的端口与之前使用的端口相同,这次我们仅向URL添加两个片段: fooddish 。 第一个是索引的名称,即文件的逻辑集合。 第二种是类型。 它确定了我们要保存的文档的结构,即所谓的映射。

盘子本身被建模为文档。 elasticsearch支持不同的数据类型,如字符串,用于food的属性,就像在一个列表tags和喜欢的,甚至嵌入文档favorite文件。 除此之外,还有更多原始类型,例如数字,布尔值和特殊类型,例如地理坐标。

现在我们可以索引另一个执行另一个POST请求的文档。

curl -XPOST "http://localhost:9200/food/dish" -d'
{"food": "Ayam Penyet","tags": ["chicken", "indonesian"],"spicy": true
}'

本文档的结构有些不同。 它不包含“ favorite子文档,但具有另一个“ spicy属性。 相同类型的文档可能会非常不同–但是请记住,您需要解释应用程序中的某些部分。 通常,您将拥有类似的文件。

将这些文档编入索引,就可以自动搜索它们。 一种选择是在/_search上执行GET请求,并将查询项添加为参数。

curl -XGET "http://localhost:9200/food/dish/_search?q=chicken"

在两个文档中搜索鸡肉也将同时返回它们。 这是结果的摘录。

...
{"total":2,"max_score":0.3666863,"hits":[{"_index":"food","_type":"dish","_id":"AVg9cMwARrBlrY9tYBqX","_score":0.3666863,"_source":
{"food": "Hainanese Chicken Rice","tags": ["chicken", "rice"],"favorite": {"location": "Tian Tian","price": 5.00}
}},
...

有一些全局信息,例如找到的文档数量。 但最重要的属性是hits数组,其中包含我们索引盘的原始来源。

这样很容易上手,但是大多数情况下查询会更复杂。 这就是为什么Elasticsearch提供查询DSL(一种描述查询以及请求的任何其他搜索功能的JSON结构)的原因。

curl -XPOST "http://localhost:9200/food/dish/_search" -d'
{"query": {"bool": {"must": {"match": {"_all": "rice"}},"filter": {"term": {"tags.keyword": "chicken"}}}}
}'

我们正在搜索所有包含术语rice并且在tags也包含chicken文档。 使用.keyword访问字段允许进行精确搜索,并且是.keyword 5.0中的新功能。

除了搜索本身之外,您还可以使用查询DSL向Elasticsearch请求更多信息,例如高亮显示或自动补全或可用于构建构面功能的聚合。

让我们继续定义的另一部分。

Elasticsearch是[…]分布式[…],旨在实现水平可伸缩性,最大的可靠性

到目前为止,我们仅访问了一个Elasticsearch实例。

我们的应用程序将直接与该节点通信。 现在,由于Elasticsearch是为水平可伸缩性设计的,因此我们还可以添加更多节点。

节点形成集群。 我们仍然可以与第一个节点通信,它将所有请求分发到集群的必要节点。 这对我们完全透明。

从一开始就使用Elasticsearch构建集群真的很容易,但是维护生产集群当然会更具挑战性。

现在,我们对Elasticsearch的功能有了基本的了解,让我们看看如何从Java应用程序访问它。

运输客户

传输客户端从一开始就可用,并且是最经常选择的客户端。 从elasticsearch 5.0开始,它具有自己的工件,可以将其集成到您的构建中,例如使用Gradle。

dependencies {compile group: 'org.elasticsearch.client',name: 'transport',version: '5.0.0'
}

Elasticsearch的所有功能都可以通过Client接口使用,一个具体的实例是TransportClient ,可以使用Settings对象来实例化它,并且可以具有一个或多个Elasticsearch节点地址。

TransportAddress address =new InetSocketTransportAddress(InetAddress.getByName("localhost"), 9300);Client client = new PreBuiltTransportClient(Settings.EMPTY)addTransportAddress(address);

然后, client为弹性搜索的不同功能提供方法。 首先,让我们再次搜索。 回想一下我们上面发布的查询的结构。

curl -XPOST "http://localhost:9200/food/dish/_search" -d'
{"query": {"bool": {"must": {"match": {"_all": "rice"}},"filter": {"term": {"tags.keyword": "chicken"}}}}
}'

一个bool查询,在其must区域中具有match查询,而在filter区域中具有term查询。

幸运的是,一旦有了这样的查询,就可以轻松地将其转换为Java等效项。

SearchResponse searchResponse = client.prepareSearch("food").setQuery(boolQuery().must(matchQuery("_all", "rice")).filter(termQuery("tags.keyword", "chicken"))).execute().actionGet();assertEquals(1, searchResponse.getHits().getTotalHits());SearchHit hit = searchResponse.getHits().getAt(0);
String food = hit.getSource().get("food").toString();

我们通过在client上调用prepareSearch来请求SearchSourceBuilder 。 在这里,我们可以使用静态帮助器方法设置查询。 再说一次,这是一个bool查询,在must区域有一个match查询,而在filter区域有一个term查询。

调用execute返回一个Future对象, actionGet是调用的阻塞部分。 SearchResponse表示使用HTTP接口进行搜索时可以看到的相同JSON结构。 然后,菜的来源可作为地图使用。

索引数据时,有不同的选项可用。 一种是使用jsonBuilder创建JSON表示形式。

XContentBuilder builder = jsonBuilder().startObject().field("food", "Roti Prata").array("tags", new String [] {"curry"}).startObject("favorite").field("location", "Tiong Bahru").field("price", 2.00).endObject().endObject();

它提供了可用于创建JSON文档结构的不同方法。 然后可以将其用作IndexRequest的源。

IndexResponse resp = client.prepareIndex("food","dish").setSource(builder).execute().actionGet();

除了使用jsonBuilder还有其他几个可用选项。

常见的选择是使用Map(一种接受字段名称和值以获取简单结构的便捷方法)或使用传递String的选项(通常与Jackson之类的库结合使用以进行序列化)。

上面我们已经看到,传输客户端接受一个或多个Elasticsearch节点的地址。 您可能已经注意到,该端口不同于用于http的端口,即9300而不是9200。这是因为客户端不通过http进行通信–它使用传输协议连接到现有集群,该二进制协议也是用于集群中的节点间通信。

您可能还已经注意到,到目前为止,我们仅在与集群的一个节点通信。 一旦该节点发生故障,我们可能将无法再访问我们的数据。 如果您需要高可用性,则可以启用嗅探选项,该选项可使您的客户端与群集中的多个节点通信。

现在,当其中一个节点发生故障时,我们仍然可以使用其他节点访问数据。 创建客户端时,可以通过将client.transport.sniff设置为true来启用该功能。

TransportAddress address =new InetSocketTransportAddress(InetAddress.getByName("localhost"), 9300);Settings settings = Settings.builder().put("client.transport.sniff", true).build();Client client = new PreBuiltTransportClient(settings)addTransportAddress(address);

此功能通过使用elasticsearch的管理API之一从已知节点请求集群的当前状态来起作用。 配置后,此操作将在启动过程中以固定的间隔完成,默认情况下每5s进行一次。

嗅探是一项重要功能,即使在节点发生故障时,也可以确保您的应用程序保持正常运行。

使用传输客户端时,您会看到一些明显的好处:随着客户端随服务器一起提供(甚至包括对服务器的依赖关系),您可以确保所有当前API都可以在客户端代码中使用。 通信比HTTP上的JSON更有效,并且支持客户端负载平衡。

另一方面,也存在一些缺点:由于传输协议是内部协议,因此您需要在服务器和客户端上使用兼容的Elasticsearch版本。 同样,这出乎意料之外,这还意味着需要使用类似的JDK版本。 另外,您需要在应用程序中包括所有对Elasticsearch的依赖项。 这可能是一个巨大的问题,尤其是对于较大的现有应用程序。 例如,CMS可能已经发行了某些版本的Lucene。 通常,不可能像这样解决依赖冲突。

幸运的是,有一个解决方案。

RestClient

elasticsearch 5.0引入了一个新客户端,该客户端使用elasticsearch的HTTP API而不是内部协议。 这需要更少的依赖性。 同样,您也不需要太在乎版本-当前的客户端也可以与elasticsearch 2.x一起使用。

但是也有一个缺点–它还没有很多功能。

该客户端也可以作为Maven工件使用。

dependencies {compile group: 'org.elasticsearch.client',name: 'rest',version: '5.0.0'
}

客户端仅取决于apache httpclient及其依赖项。 这是所有依赖项的Gradle列表。

+--- org.apache.httpcomponents:httpclient:4.5.2
+--- org.apache.httpcomponents:httpcore:4.4.5
+--- org.apache.httpcomponents:httpasyncclient:4.1.2
+--- org.apache.httpcomponents:httpcore-nio:4.4.5
+--- commons-codec:commons-codec:1.10
\--- commons-logging:commons-logging:1.1.3

可以通过传入一个或多个HttpHost来实例化它。

RestClient restClient = RestClient.builder(new HttpHost("localhost", 9200, "http"),new HttpHost("localhost", 9201, "http")).build();

由于目前没有太多功能,因此大多数JSON都只能以String的形式使用。 这是一个执行match_all查询并使用帮助程序方法将响应转换为String的示例。

HttpEntity entity = new NStringEntity("{ \"query\": { \"match_all\": {}}}",ContentType.APPLICATION_JSON);// alternative: performRequestAsyncResponse response = restClient.performRequest("POST",                                     "/_search", emptyMap(), entity);String json = toString(response.getEntity());// ...

索引数据也很低。 您只需将包含JSON文档的String发送到端点。 客户端支持使用单独的库进行嗅探。 除了具有更少的依赖关系并且elasticsearch版本不再那么重要的事实之外,操作还有另一个好处:现在可以将集群与应用程序分离,HTTP是与集群通信的唯一协议。

大多数功能直接取决于Apache http客户端。 支持使用基本身份验证,自定义标头和错误处理来设置超时。

目前,尚无查询支持。 如果您能够将elasticsearch依赖项添加到您的应用程序中(这当然会使某些好处再次SearchSourceBuilder ),则可以使用SearchSourceBuilder和相关功能为查询创建字符串。

除了新的RestClient之外,还有另一个具有更多功能的HTTP客户端:社区构建的客户端Jest。

笑话

Jest已经存在很长时间了,它是标准客户端的可行替代方案。 它也可以通过Maven Central获得。

dependencies {compile group: 'io.searchbox',name: 'jest',version: '2.0.0'
}

JestClient是允许将请求发送到JestClient的中央接口。 可以使用工厂创建。

JestClientFactory factory = new JestClientFactory();
factory.setHttpClientConfig(new HttpClientConfig.Builder("http://localhost:9200").multiThreaded(true).build());JestClient client = factory.getObject();

与RestClient一样,Jest不支持生成查询。 您可以使用String模板创建它们,也可以重用elasticsearch构建器(缺点是必须再次管理所有依赖项)。

可以使用构建器来创建搜索请求。

String query = jsonStringThatMagicallyAppears;Search search = new Search.Builder(query).addIndex("library").build();SearchResult result = client.execute(search);
assertEquals(Integer.valueOf(1), result.getTotal());

可以通过遍历Gson对象结构来处理结果,该对象可能变得相当复杂。

JsonObject jsonObject = result.getJsonObject();
JsonObject hitsObj = jsonObject.getAsJsonObject("hits");
JsonArray hits = hitsObj.getAsJsonArray("hits");
JsonObject hit = hits.get(0).getAsJsonObject();// ... more boring code

但这不是您通常与Jest合作的方式。 关于Jest的好处是它直接支持索引和搜索Java Bean。 例如,我们可以代表我们的餐具文件。

public class Dish {private String food;private List<String> tags;private Favorite favorite;@JestIdprivate String id;// ... getters and setters
}

然后可以从搜索结果中自动填充此类。

Dish dish = result.getFirstHit(Dish.class).source;assertEquals("Roti Prata", dish.getFood());

当然,bean支持也可以用于索引数据。

通过http访问elasticsearch时,Jest可能是一个很好的选择。 它具有许多有用的功能,例如在索引和搜索时支持bean,以及一种称为节点发现的嗅探功能。 不幸的是,您必须自己创建搜索查询,但RestClient也是如此。

现在我们已经研究了三个客户端,是时候在更高层次上看到抽象了。

Spring Data Elasticsearch

Spring Data项目家族提供了使用通用编程模型访问不同数据存储的权限。 它不会尝试提供所有商店的抽象,每个商店的特产仍然可用。 最令人印象深刻的功能是动态存储库,使您可以使用界面定义查询。 流行的模块是用于访问关系数据库的Spring Data JPA和Spring Data MongoDB。

像所有Spring模块一样,工件可以在Maven Central中使用。

dependencies {compile group: 'org.springframework.data',name: 'spring-data-elasticsearch',version: '2.0.4.RELEASE'
}

使用自定义批注将要建立索引的文档表示为Java Bean。

@Document(indexName = "spring_dish")
public class Dish {@Idprivate String id;private String food;private List<String> tags;private Favorite favorite;// more code}

可以使用不同的注释来定义如何在elasticsearch中存储文档。 在这种情况下,我们仅定义持久化文档时要使用的索引名称,以及用于存储由elasticsearch生成的id的属性。

为了访问文档,可以定义一个键入到餐具类的接口。 有不同的扩展接口, ElasticsearchCrudRepository提供通用的索引和搜索操作。

public interface DishRepository extends ElasticsearchCrudRepository<Dish, String> {}

该模块提供用于XML配置的名称空间。

<elasticsearch:transport-client id="client" /><bean name="elasticsearchTemplate" class="o.s.d.elasticsearch.core.ElasticsearchTemplate"><constructor-arg name="client" ref="client"/>
</bean><elasticsearch:repositories base-package="de.fhopf.elasticsearch.springdata" />

transport-client元素实例化了一个传输客户端, ElasticsearchTemplate提供了有关ElasticsearchTemplate的常用操作。 最后, repositories元素指示Spring Data扫描扩展Spring Data接口之一的接口。 它将自动为这些实例创建实例。

然后,您可以将存储库连接到应用程序中,并将其用于存储和查找Dish实例。

Dish mie = new Dish();
mie.setId("hokkien-prawn-mie");
mie.setFood("Hokkien Prawn Mie");
mie.setTags(Arrays.asList("noodles", "prawn"));repository.save(Arrays.asList(hokkienPrawnMie));// one line ommitedIterable<Dish> dishes = repository.findAll();Dish dish = repository.findOne("hokkien-prawn-mie");

通过id检索文档对于搜索引擎而言不是很有趣。 要真正查询文档,您可以在界面中添加遵循特定命名约定的更多方法。

public interface DishRepository extends ElasticsearchCrudRepository<Dish, String> {List<Dish> findByFood(String food);List<Dish> findByTagsAndFavoriteLocation(String tag, String location);List<Dish> findByFavoritePriceLessThan(Double price);@Query("{\"query\": {\"match_all\": {}}}")List<Dish> customFindAll();
}

大多数方法以findBy开头,后跟一个或多个属性。 例如, findByFood将使用给定的参数查询田间food 。 结构化查询也是可能的,在这种情况下,通过添加lessThan 。 这将返回所有价格低于给定价格的菜肴。 最后一种方法使用另一种方法。 它不遵循命名约定,而是使用Query注释。 当然,此查询也可以包含参数的占位符。

总结一下,Spring Data Elasticsearch是在标准客户端之上的一个有趣的抽象。 它在某种程度上与某个Elasticsearch版本相关,当前版本使用2.2版。 有计划使其与5.x兼容,但这可能仍需要一些时间。 有一个拉取请求使用Jest进行通信,但尚不清楚是否以及何时将其合并。 不幸的是,项目中没有很多活动。

结论

我们研究了三个Java客户端和更高层次的抽象Spring Data Elasticsearch。 这些中的每一个都有其优点和缺点,并且没有建议在所有情况下都使用它。 传输客户端具有完整的API支持,但与elasticsearch依赖关系相关。 RestClient是未来,将有一天取代运输客户端。 从功能上讲,它目前处于较低水平。 Jest具有更丰富的API,但是是外部开发的,尽管项目中的提交者有活动,但Jest背后的公司似乎已不存在。 另一方面,Spring Data Elasticsearch更适合已经使用Spring Data且不希望直接与Elasticsearch API联系的开发人员。 它当前与标准客户端的版本绑定,开发活动很少。

翻译自: https://www.javacodegeeks.com/2016/11/java-clients-elasticsearch-transcript.html

用于Elasticsearch成绩单的Java客户端相关推荐

  1. Elasticsearch:在 Java 客户端中使用 scroll 来遍历搜索结果 - Elastic Stack 8.x

    如果你搜索不经常更改的文档,则使用标准查询的分页效果非常好: 否则,使用实时数据执行分页会返回不可预测的结果. 为了绕过这个问题,Elasticsearch 在查询中提供了一个额外的参数:scroll ...

  2. Elasticsearch系列(六)----JAVA客户端之Jest操作详解

    Jest示例代码如下: package com.fendo.JestClient;import java.io.IOException; import java.text.SimpleDateForm ...

  3. elasticsearch搭建与java应用实例

    0.学习目标 独立安装Elasticsearch 会使用Rest的API操作索引 会使用Rest的API查询数据 会使用Rest的API聚合数据 掌握Spring Data Elasticsearch ...

  4. java客户端开发_ElasticSearch java 客户端开发

    2.1介绍:ES提供了两个JAVA REST client 版本 Java Low Level REST Client :用于Elasticsearch的官方低级客户端.它允许通过http与Elast ...

  5. java esclient query_elasticsearch 口水篇(4)java客户端 - 原生esClient

    上一篇(elasticsearch 口水篇(3)java客户端 - Jest)Jest是第三方客户端,基于REST Api进行调用(httpClient),本篇简单介绍下elasticsearch原生 ...

  6. 【Elasticsearch】官方Elasticsearch Java客户端的状态

    1.概述 翻译:State of the official Elasticsearch Java clients Java程序员在与Elasticsearch通信时有两种选择:他们可以使用HTTP上的 ...

  7. 【Elasticsearch】java 客户端 获取 termvectors 词频 统计

    1.概述 2.获取单条index的词频 elasticsearch的termvectors包括了term的位置.词频等信息.这些信息用于相应的数据统计或开发其他功能,本文介绍termvecters如何 ...

  8. ElasticSearch集群安装及Java客户端使用

    ElasticSearch集群安装及Java客户端使用 1.传统模式安装 1.1 ElasticSearch安装 下载Es安装包 ElasticSearch的官方地址:https://www.elas ...

  9. 来聊一聊 ElasticSearch 最新版的 Java 客户端

    可能不少小伙伴都注意到了,从 ElasticSearch7.17 这个版本开始,原先的 Java 高级客户端 Java High Level REST Client 废弃了,不支持了.老实说,Elas ...

最新文章

  1. 谷歌如何利用人工智能重塑美国医疗行业?
  2. php 5.3配置,php-5.3.3 说明及配置
  3. 无限循环小数POJ1930
  4. [luoguP2774] 方格取数问题(最大点权独立集)
  5. 双电阻差分电流采样_小小的采样电阻,还真有点门道!
  6. 图解红黑树和JAVA实现
  7. 我奋斗了18年,不是为了和你一起喝咖啡。
  8. 重复类发展手法_正确护肤手法图解!
  9. 用startup启动tomcat并测试访问资源
  10. javaScript编码爱心表白
  11. 拍一拍身上的土(2009-12-12 01:17:43韩寒博客)
  12. 利用python从网络上爬取图片_我用Python爬取了妹子网100G的套图
  13. 姿态角解算(MPU6050 加速度计加陀螺仪)
  14. 登上 Science,AlphaZero完整论文首次发布
  15. Upload-labs 1-21关 靶场通关攻略(全网最全最完整)
  16. TYPE-C 6P 16P 24P
  17. BlackNurse新型DoS攻击 15M流量就可以打瘫思科防火墙 思科做出了回应
  18. 直播 | 数据驱动智能制造转型实践
  19. 华为设备配置LDP LSP建立的触发策略示例(Transit)
  20. data = nx.read_weighted_edgelist(df2)

热门文章

  1. MySQL 调优/优化的 101 个建议!
  2. 【LSB】图片隐写文档大纲
  3. 整理几个常用的sql和其他代码
  4. 为了金秋那沉甸甸的麦穗,我绝不辜负春天
  5. javaWeb服务详解(含源代码,测试通过,注释) ——Emp的Service层
  6. java实现遍历树形菜单方法——Dao层
  7. MyBatis中多表查询(业务代码方式)
  8. 云服务器的购买和宝塔面板的使用
  9. vue 字典_【开源】基于Vue的前端组件库HeyUI
  10. spring(7)spring mvc 的高级技术