Elasticsearch(搜索引擎解决方案)
1.什么是Elasticsearch
[elastic:富有弹性的;search:搜索]
简称ES,非SpringCloud组件,基于Java开发的,启动需java环境变量
功能:从大量数据中根据指定的关键字搜索出匹配的结果,也叫全文搜索引擎.
访问方式: 访问它提供的控制器方法,访问不同方法实现对数据的增删改查.
ES将数据保存在硬盘上.
ES的实现结构:
java有一套名为Lucene的API,是搜索引擎的核心支持,Elasticsearch在Lucene的基础上开发出了一个功能全面的开箱即用的全文搜索引擎.
竞品: Solr/MongoDB
2.为什么使用Elasticsearch
所有关系型数据库都有一个严重的性能缺陷[mysql\mariaDB\oracle\DB2等]:
前模糊的模糊查询不能使用索引
select * from spu where spu_name like '%苹果%'
PS:千万级别的数据库表进行模糊查询需要20秒以上!而使用ES效率提高100倍,将大型的查询控制在毫秒级别.
3.Elasticsearch查询原理
不使用ES让数据库查询,没有索引加持的模糊查询就是全表搜索性能差.
Elasticsearch可以利用添加数据库完成对数据的分词倒排索引形成索引库,在查询时直接查询索引库,获得符合查询条件的数据信息.
4.数据库索引
就是数据库中数据的目录-----提高查询的效率
分类:
- 聚集索引: 数据库保存数据的物理顺序,一般都是id,所以按物理顺序查询也就是按id查询效率非常高.
- 非聚集索引:再定义其他索引.
使用规则和注意事项:
- 索引会占用数据库空间
- 对数据进行增删改操作,可能会引起索引的更新,效率会低
- 操作数据库时先添加数据,再创建索引
- 不要对数据样本少的列添加索引
- 每次查询从数据库中查询结果越多,索引的效果越低
- 使用where字句查询时,将具有索引的列放在第一个条件.
PS:所有关系型数据库都有一个缺陷,就是模糊查询时(查询条件前模糊),是不能利用索引进行查询的,一定会引起全表搜索,查询效率非常低.
*5.Elasticsearch的启动
官方下载链接:
https://www.elastic.co/cn/downloads/past-releases#elasticsearch
双击elasticsearch.bat运行(或者设置Idea的shell script)
运行之后可能看到下面界面
这个界面不能关闭,一旦关闭ES就停止了
验证ES是否在运行
浏览器输入地址:localhost:9200看到如下内容即可
mac系统启动:
tar -xvf elasticsearch-7.6.2-darwin-x86_64.tar.gz
cd elasticsearch-7.6.2/bin
./elasticsearch
linux:
tar -xvf elasticsearch-7.6.2-linux-x86_64.tar.gz
cd elasticsearch-7.6.2/bin
./elasticsearch
6.基本使用
操作ES是对es发送请求
创建HTTP Request文件(也称之为http client—http客户端)
es.http
编写请求:
### 注释和分隔符,每次编写请求前,都要先编写3个#
GET http://localhost:9200### ES分词测试 analyze(分析)
POST http://localhost:9200/_analyze
Content-Type: application/json{"text": "罗技激光无线游戏鼠标","analyzer": "standard"
}
其中 “analyzer”: "standard"是默认分词器,也可不写
该分词器只能对英文等西文字符(有空格的),进行分词,但是中文分词不能按空格分
安装中文分词插件ik,插件需提前下载:
安装后重启ES会生效
7.ik分词插件的使用
ik不只一个分词器,除了ik_smart还有ik_max_word.
### ES分词测试 analyze(分析)
POST http://localhost:9200/_analyze
Content-Type: application/json{"text": "北京顺利举办了冬季奥林匹克运动会","analyzer": "ik_smart"
}### ES分词测试 analyze(分析)
POST http://localhost:9200/_analyze
Content-Type: application/json{"text": "北京顺利举办了冬季奥林匹克运动会","analyzer": "ik_max_word"
}
运行会有不同的分词效果
总体来说区别如下
ik_smart
- 优点:特征是粗略快速的将文字进行分词,占用空间小,查询速度快
- 缺点:分词的颗粒度大,可能跳过一些分词,导致查询结果不全面
ik_max_word
- 优点:特征是详细的文字片段进行分词,查询时查全率高,不容易遗漏数据
- 缺点:因为分词太过详细,导致有一些无用分词,占用空间较大,查询速度慢
8.## 使用ES操作数据
ES保存数据的结构:
- ES启动后,可创建多个index(索引),index相当于数据库中表的概念
- 一个index可创建保存多个document(文档),一个document相当于表中的一行数据
- 一个document中可有多个属性和对应的值,相当于一行数据中字段和字段的值
9.Spring Boot操作 Elasticsearch
- Spring Data简介
原生状态下使用JDBC连接数据库,代码过于繁琐改用Mybatis
在ES的原生状态下java代码需用socket访问ES,过于繁琐用SpringData简化
Spring Data是Spring提供的一套连接各种第三方数据源的框架集
我们需要使用的是其中连接ES的Spring Data Elasticseatrch
官方网站: https://spring.io/projects/spring-data
上图中左侧一列是它可以操作的数据源列表,每个列表中都包含一些使用的介绍
实现Spring Boot操作ES添加依赖后,按要求编写代码即可:
- 添加依赖
<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId></dependency><!-- Spring Data Elasticsearch依赖 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-elasticsearch</artifactId>
</dependency>
- application.properties添加配置
# 设置连接ES的ip地址和端口号
spring.elasticsearch.rest.uris=http://localhost:9200# 为了观察运行状态信息,将日志输出门槛设置为debug
logging.level.cn.tedu.search=debug
logging.level.org.elasticsearch.client.RestClient=debug
- 创建一个操作ES的数据类
@Data
@Accessors(chain = true) // 生成和链式赋值的set方法
@AllArgsConstructor // 自动生成包含全部参数的构造方法
@NoArgsConstructor // 自动生成无参构造方法
// SpringData要求我们在"实体类"中使用特定注解标记
// @Document注解标记当前类和ES关联
// indexName指定索引名称,我们这里叫items,当操作这个索引时,如果索引不存在,会自动创建
@Document(indexName = "items")
public class Item implements Serializable {// SpingData标记这个字段为当前类主键@Idprivate Long id;// SpringData使用@Field标记文档中属性的类型和各种特征@Field(type = FieldType.Text,analyzer = "ik_max_word",searchAnalyzer = "ik_max_word")private String title; //商品名称@Field(type = FieldType.Keyword)private String category; //分类@Field(type = FieldType.Keyword)private String brand; //品牌@Field(type = FieldType.Double)private Double price; //价格// 图片地址不会称为搜索条件,所以设置index=false// 效果是imgPath字段不会生成索引库,节省空间@Field(type = FieldType.Keyword,index = false)private String imgPath; //图片地址// images/hjdsf-ahsa-qwezx-jashjdas.png// Text和Keyword都是字符串类型,只是Text会分词,而Keyword不会!
}
- 创建操作ES的持久层
// Spring 家族下持久层名称都叫repository
@Repository
public interface ItemRepository extends ElasticsearchRepository<Item,Long> {// 当前接口继承ElasticsearchRepository父接口后// 会自动在类中生成基本的增删改查方法,直接可以使用// 它自动识别或自动生成的规则,是我们定义的两个泛型ElasticsearchRepository<[实体类名],[主键类型]>}
- 测试操作ES
@SpringBootTest
class SearchApplicationTests {// 注入SpringData操作Es的持久层对象@Autowiredprivate ItemRepository itemRepository;// 单增@Testvoid addOne() {// 实例化Item对象,赋值并新增到ESItem item=new Item().setId(1L).setTitle("罗技激光无线游戏鼠标").setCategory("鼠标").setBrand("罗技").setPrice(128.0).setImgPath("/1.jpg");// 利用自动生成的方法将item新增到ES,索引不存在会自动创建itemRepository.save(item);System.out.println("ok");}// 按id查询@Testvoid getOne(){// SpringData框架自带的按id查询的方法// Optional是一个类似包装类的概念,查询的结果封装到了这个类型中Optional<Item> optional=itemRepository.findById(1L);// 需要使用查询内容时使用optional.get()即可System.out.println(optional.get());}// 批量增@Testvoid addList(){// 实例化一个List集合List<Item> list=new ArrayList<>();// 将要新增的Item对象保存到这个List中list.add(new Item(2L,"罗技激光有线办公鼠标","鼠标","罗技",89.0,"/2.jpg"));list.add(new Item(3L,"雷蛇机械无线游戏键盘","键盘","雷蛇",299.0,"/3.jpg"));list.add(new Item(4L,"微软有线静音办公鼠标","鼠标","微软",208.0,"/4.jpg"));list.add(new Item(5L,"罗技有线机械背光键盘","键盘","罗技",266.0,"/5.jpg"));// 下面使用SpringData提供的方法执行批量新增itemRepository.saveAll(list);System.out.println("ok");}// 全查@Testvoid getAll(){// 利用SpringData的方法从ES中查询所有数据Iterable<Item> items=itemRepository.findAll();
// for(Item item: items){// System.out.println(item);
// }items.forEach(item -> System.out.println(item));}
}
- SpringData自定义查询
单条件查询
参考模糊查询:select * from item where title like '%xx%'
在接口中添加如下代码:
// SpringData自定义查询
// 遵循SpringData框架规定的格式的前提下,编写方法名会自动生成查询逻辑
// query: 表示当前方法是一个查询功能,类似sql中的select
// Item\Items: 表示查询结果的实体类,带s的返回集合
// By:标识开始设置条件,类似sql的where
// Title: 要查询的字段名称
// Matches: 是要执行的查询操作,这里是分词查询,类似sql的like
Iterable<Item> queryItemsByTitleMatches(String title);
测试:
//单条件自定义查询
@Test
void queryOne(){// 查询 ES中title字段包含"游戏"分词的数据Iterable<Item> items=itemRepository.queryItemsByTitleMatches("游戏");items.forEach(item -> System.out.println(item));
}
上面代码运行时底层运行的查询语句为:
### 单条件搜索
POST http://localhost:9200/items/_search
Content-Type: application/json{"query": {"match": { "title": "游戏" }}
}
多条件查询
接口中添加查询方法
// 多条件查询
// 两个或多个条件之间直接编写And或Or表示查询逻辑
// 参数名称实际上没有要求必须和字段名称匹配,底层代码是按照参数顺序赋值的
Iterable<Item> queryItemsByTitleMatchesAndBrandMatches(String title,String brand);
测试:
// 多条件自定义查询
@Test
void queryTwo(){Iterable<Item> items=itemRepository.queryItemsByTitleMatchesAndBrandMatches("游戏","雷蛇");items.forEach(item -> System.out.println(item));
}
底层:
### 多字段搜索
POST http://localhost:9200/items/_search
Content-Type: application/json{"query": {"bool": {"must": [{ "match": { "title": "游戏"}},{ "match": { "brand": "雷蛇"}}]}}
}
ES文档----常用命令
### 创建 index
PUT http://localhost:9200/questions
### 删除一个Index
DELETE http://localhost:9200/questions
### 设置index中的文档属性采用ik分词
POST http://localhost:9200/questions/_mapping
Content-Type: application/json
{"properties": {"title": {"type": "text","analyzer": "ik_max_word","search_analyzer": "ik_max_word"},"content": {"type": "text","analyzer": "ik_max_word","search_analyzer": "ik_max_word"}}
}
### questions 中添加文档
POST http://localhost:9200/questions/_create/1
Content-Type: application/json
{"id":1,"title":"Java基本数据类型有哪些","content":"面时候为啥要问基本类型这么简单问题呀,我们要如何回答呢?"
}
### questions 中添加文档
POST http://localhost:9200/questions/_create/2
Content-Type: application/json
{"id":2,"title":"int类型的范围","content":"为啥要了解int类型的范围呢?"
}
### questions 中添加文档
POST http://localhost:9200/questions/_create/3
Content-Type: application/json
{"id":3,"title":"常用集合类有哪些","content":"为啥企业经常问集合呀?该如何回复呢"
}
### questions 中添加文档
POST http://localhost:9200/questions/_create/4
Content-Type: application/json
{"id":4,"title":"线程的run方法和start方法有啥区别","content":"run方法可以执行线程的计算过程, start也可以执行线程的计算过程,用途一样么?"
}
### 更新questions索引中的文档
POST http://localhost:9200/questions/_doc/4/_update
Content-Type: application/json
{"doc": {"title": "Java线程的run方法和start方法有啥区别"}
}
### 删除questions中的一个文档
DELETE http://localhost:9200/questions/_doc/2
### 查询数据
GET http://localhost:9200/questions/_doc/4
### 收索 ES
POST http://localhost:9200/questions/_search
Content-Type: application/json
{"query": { "match": {"title": "类型" } }
}
### 多字段搜索
POST http://localhost:9200/questions/_search
Content-Type: application/json
{"query": {"bool": {"should": [{ "match": { "title": "java类型" }},{ "match": { "content": "java类型"}}]}}
}
Elasticsearch(搜索引擎解决方案)相关推荐
- day06 Elasticsearch搜索引擎2
day06 Elasticsearch搜索引擎2 1.DSL查询文档 1.1.DSL查询分类 Elasticsearch提供了基于JSON的DSL(Domain Specific Language)来 ...
- 第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查...
第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)基本的索引和文档CRUD操作.增.删.改.查 elasticsearch(搜索引擎)基本的索引 ...
- ElasticSearch搜索引擎: 内存分析与设置
在 Elasticsearch 的运行过程中,如何合理分配与设置内存是一件十分重要的事情,否则十分容易出现各种问题. 一.Elasticsearch为什么吃内存: 我们先看下 ES 服务器的总体内存消 ...
- ElasticSearch搜索引擎常见面试题总结
一.ElasticSearch基础: 1.什么是Elasticsearch: Elasticsearch 是基于 Lucene 的 Restful 的分布式实时全文搜索引擎,每个字段都被索引并可被搜索 ...
- 第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本概念...
第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)的基本概念 elasticsearch的基本概念 1.集群:一个或者多个节点组织在一起 2.节点 ...
- 电商订单ElasticSearch同步解决方案--使用logstash
电商订单ElasticSearch同步解决方案--使用logstash 参考文章: (1)电商订单ElasticSearch同步解决方案--使用logstash (2)https://www.cnbl ...
- Elasticsearch分页解决方案
Elasticsearch分页解决方案 参考文章: (1)Elasticsearch分页解决方案 (2)https://www.cnblogs.com/yfb918/p/11023581.html 备 ...
- ElasticSearch搜索引擎详解-持续更新中
ElasticSearch搜索引擎详解 1. ElasticSearch概述 1.1 elasticsearch是什么 1.2 全文搜索引擎 1.3 elasticsearch and solr 1. ...
- Elasticsearch搜索引擎(一)——基础使用
Elasticsearch搜索引擎 关键词是中文的建议使用,英文和数字不要,模糊就行 如果普通数据库查询,无法解决如下问题 如果表记录上千万上亿了这个性能问题,另外一个如果有一个本文字段要在里面模糊配 ...
最新文章
- ios模拟器快捷键操作
- VTK:图表之DepthFirstSearchIterator
- 【洛谷P4124】[CQOI2016]手机号码
- Android深度探索(卷1)HAL与驱动开发第六章总结
- 程序员的乐趣从哪来?编程能给我带来乐趣吗?
- JSP Cookie 处理
- Spring中的AOP和属性注入
- adb脚本选择语句_Python开发:王者荣耀自动刷金币脚本
- 查看Windows上运行程序的异常日志
- jsp九大内置对象的使用详解
- 【BZOJ 1433】 [ZJOI2009]假期的宿舍
- [codevs1746][NOI2002] 贪吃的九头龙 树形DP
- 二叉树的镜像和对称二叉树
- dad my_【玩转英文绘本】My Dad!《我爸爸》
- 苹果手机功能大全介绍_抖音手机软件剪辑推荐及功能介绍
- Unity性能优化方法总结
- UE:无法解析的外部符号 “public: __cdecl FKey::~FKey(void)“ (??1FKey@@QEAA@XZ)
- 树莓派安装宝塔Linux面板教程
- Cocos2d-x游戏暂停、继续游戏、重新开始界面的实现---之游戏开发《赵云要格斗》(10)
- 账号和权限管理——管理用户账号和组账号(一)