基于设计原理与理念和实践的ElasticSearch学习

一、ES基础入门

ElasticSearch是什么？

ES优点：

ES缺点：

ElasticSearch应用场景

ElasticSearch存储结构

索引（_index）

正向索引

倒排索引

类型（_type）

唯一标识（_id）

ElastSearch 增删改查

Elasticsearch版本控制

1.为什么要进行版本控制

2.悲观锁和乐观锁

二、深入理解ElasticSearch集群设计理念

路由

读写分离

replication

consistency

timeout

分布式局部更新

分布式批量请求(查询)

近实时搜索

持久化（可靠性）

合并段（解决碎片化问题）

1、什么是段？以及段的作用

2、段带来的碎片化问题

9300与9200区别

ElasticSearch高级查询

Term与Match区别

文档映射

映射的分类

ES类型支持

三、ElasticSearch集群搭建

Linux环境安装Elasticsearch

中文分词器

ES集成IK分词器

IK自定义扩展词典

Linux环境安装Kibana

Kabana介绍

Kibana环境安装

Elasticsearch分布式集群搭建

概念

为什么这样设计？

集群搭建

四、ELK分布式日志收集

Logstash原理

ELK搭建

Elasticsearch环境安装：

Logstash环境安装：

将Logstash输入到ES中：

Kabana环境安装：

五、ElasticSearch网盘搜索引擎（Springboot2.0版）

步骤分析：

分析网站：

源码：

添加ElasticSearch数据结构：

Maven依赖：

application.yml

Es实体层：

Es Dao层：

Es API控制层：

Es 控制层：

CrawlBook.java

ReptileMain.java

MultiThread.java

search.html

基于设计原理与理念和实践的ElasticSearch学习

一、ES基础入门

ElasticSearch是什么？

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

Lucene缺点：Shay Banon在构建出Lucene之后发现了Lucene的缺点（Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言）之后在其不断的努力之下开发出了Elasticsearch。

Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。

ES优点：

分布式的实时文件存储，每个字段都被索引并可被搜索;
分布式的实时分析搜索引擎;
(横向扩展)可以扩展到上百台服务器，处理PB级结构化或非结构化数据；
分片机制提供更好的分布式性能。

ES缺点：

建立索引要消耗很大的磁盘、内存空间；
当网页更新后，索引的维护代价也比较大；
只支持JSON文件格式，Solr支持多种(HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等)；

ElasticSearch应用场景

大型分布式日志分析系统ELK elasticsearch（存储日志）+logstash(收集日志)+kibana(展示数据)

大型电商商品搜索系统、网盘搜索引擎等。

ElasticSearch存储结构

ElasticSearch是文档存储，使用面向文档型数据库，一条数据也许就是一个文档，文档内容的格式采用JSON。

关系型数据库：数据库→表→行→列

ElasticSearch：索引→类型→文档→字段

每一个文档(document)都具备三个元数据（metadata）：索引(_index)、类型(_type)、唯一标识(_id)、版本号（_version）、_source（表标题）

索引（_index）

Es的索引(index)类似于关系型数据库里的“数据库”,事实上，Es的数据会被存储分片(shards)中，索引只是把一个或多个分片组合在一起的逻辑空间，对于程序员而言，只需要知道文档存储在索引中，至于“文档如何被索引的？”不需要关心。

注意：索引名字必须是全部小写，不能以下划线开头，不能包含逗号。

正向索引

正排表是以文档的ID为关键字，表中记录文档中每个字的位置信息，查找时以ID为顺序逐个文档进行匹配，搜索速度慢。

倒排索引

倒排表以字或词为关键字进行索引，表中关键字记录了对应的所有出现这个“字”或“词”的所有文档的ID（索引）。

正排索引是从文档到关键字的映射（已知文档找关键字），倒排索引是从关键字到文档的映射（已知关键字找文档）。

文档内容:

序号	文档内容
1	小俊是一家科技公司创始人，开的汽车是奥迪a8l，加速爽。
2	小薇是一家科技公司的前台，开的汽车是保时捷911
3	小红买了小薇的保时捷911，加速爽。
4	小明是一家科技公司开发主管，开的汽车是奥迪a6l,加速爽。

5	小军是一家科技公司开发，开的汽车是比亚迪速锐，加速有点慢

倒排索引会对以上文档内容进行关键词分词，可以使用关键次直接定位到文档内容。

单词ID	单词	倒排列表docId
1	小	1,2,3,4,5
2	一家	1,2,4,5
3	科技公司	1,2,4,5
4	开发	4,5
5	汽车	1,2,4,5
6	奥迪	1,4
7	加速爽	1,3,4
8	保时捷	2,3
9	保时捷911	2
10	比亚迪	5

类型（_type）

Es的类型(type)对应了关系型数据库中的“结构”，就像传统数据库表中的列一样。所有类型下的文档被存储在同一个索引下。

注意：_type的名字可以是大写或小写，不能包含下划线或逗号。

唯一标识（_id）

id仅仅是一个字符串，它与_index和_type组合时，就可以在Elasticsearch中唯一标识一个文档。当创建一个文档，你可以自定义_id，也可以让Elasticsearch帮你自动生成。

ElastSearch 增删改查

格式：/索引/类型/id

Restful API：http://192.168.13.102:9200/lming/user/1

操作	Kibana示例
增（POST/PUT）	POST /lming1/user1/2 { "name":"user1", "age":"30" } PUT /lming/user/1 { "name":"Lming", "age":"20" }
删（DELATE）	DELETE /lming1/user1/2 批量删除： DELETE / lming1/user1/_query { "query": { "match_all": {} } } （ES2.0以后版本不支持批量删除，批量删除需要安装delete-by-query插件）
改（PUT）	PUT /lming/user/1 { "name":"Lming2", "age":"20" }
查（GET）	GET /lming/user/1

Elasticsearch版本控制

1.为什么要进行版本控制

为了保证数据再多线程操作下的准确性。

2.悲观锁和乐观锁

悲观锁：假设会发生并发冲突，屏蔽一切可能违反数据准确性的操作。

悲观锁：假设不会发生并发冲突，只在提交操作是检查是否违反数据完整性。

二、深入理解ElasticSearch集群设计理念

路由

当用户进行增删改查时，Elasticsearch是如何知道文档属于哪个分片的呢？

进程当然不是随机的。事实上，它根据一个简单的算法决定：

shard = hash(routing) % number_of_primary_shards

routing默认为id，number_of_primary_shards为集群主节点数。

读写分离

集群所有写的操作只能在主分片上完成，因为只要在主分片上完成才能同步到复制分片（也称之为“副分片”、“备用分片”），读的操作由所有分片负载完成，请求依然由主分片接受但内部会进行负载均衡转发到复制节点(默认轮询)。

`replication`

replication默认为sync，表示主分片得到复制分片的成功响应后才返回客户端(有超时时间)，如果你将其设置为async，则表示请求在主分片上被执行后就会返回给客户端，不论复制节点是否处理成功。

`consistency`

consistency选举策略衡量标准数量（quorum），默认为总节点数（可以是主节点或复制节点）的(1/2)+1。计算公式如下：

int( (primary(主) + number_of_replicas(复制)) / 2 ) + 1

consistency允许的值为one（只有一个主分片），all（所有主分片和复制分片）或者默认的quorum或过半分片。

注意：

新索引默认有1个复制分片，这意味着为了满足quorum的要求需要两个活动的分片。当然，这个默认设置将阻止我们在单一节点集群中进行操作。为了避开这个问题，规定数量只有在number_of_replicas大于一时才生效。

`timeout`

当分片副本不足时(宕机)会怎样？Elasticsearch会等待更多的分片出现。默认等待一分钟。可以设置timeout参数让它终止的更早：100表示100毫秒，30s表示30秒。

分布式局部更新

更新首先根据算法找到主节点，然后从主节点开始，一级一级的传递，知道所有节点全部更新完毕之后才会返回响应到客户端。

分布式批量请求(查询)

Es提供两种批量查询API：mget和bulk API

更新首先根据算法找到主节点，然后主节点为每一个节点构造一个请求（可以是主节点也可以是复制节点），当所有的请求全部成功之后，主节点整理响应结果并返回给客户端。

bulk API可以在最上层使用replication和consistency参数，routing参数则在每个请求的元数据中使用。

近实时搜索

简单的说，首先你需要了解什么是磁盘瓶颈问题？Es实现了持久化功能，每次搜索都需要到磁盘中读文档，每一次都refresh代价是很大的(官方称为“fsync同步”)。

为了解决磁盘瓶颈问题，Es引入了文件缓存系统，首次用户读取文档时将其缓存到文件缓存系统（内存）中，之后的用户会直接访问内存，文件在内存中有时间限制，默认一秒刷新到磁盘一次，增删改都会直接出发refresh。

通过refresh_interval进行设定。

PUT /my_logs
{"settings": {"refresh_interval": "30s" <1>}
}

官方推荐在创建索引的时候可以关闭自动刷新，在要使用索引的时候再打开它。refresh_interval为-1时关闭自动刷新。

详细参考：近实时搜索

持久化（可靠性）

简单的说，因为文件缓存系统和fsync同步机制存在，在进行fsync同步时出现宕机/电源断电情况就会导致数据丢失，这个数据我们也不想丢失怎么办？

ES增加了事务日志（translog），来记录每次操作，保证持久化过程的安全性以及可靠性。

详细参考：持久化变更

合并段（解决碎片化问题）

1、什么是段？以及段的作用

Elasticsearch底层依赖的Lucene，引入了per-segment search的概念。一个段(segment)是有完整功能的倒排索引。Lucene中的索引指的是段的集合+提交点(commit point，包括所有段的文件)，也就是一个提交点多个段组成了一个索引，正是因为这种结构所以他的搜索速度是非常可观的。

而新的文档，在被写入磁盘的段之前，首先写入内存缓冲区的索引缓存（In-memory buffer）。

提交后，新的段被加入到提交点中，缓存被清空。

2、段带来的碎片化问题

因为近实时搜索会不断产生“段”，这样用不了多久就会段的数量就爆炸啦。

每个段都需要消费文件句柄，内存，cpu资源，更重要的是，每次搜索请求都需要依次检查每个段。段越多，查询越慢。

ES通过后台合并段解决这个问题。小段被合并成大段，再合并成更大的段。

这个合并的过程有Es自行完成，开发者不必关系过程。

注意：合并大的段会消耗很多IO和CPU，如果不检查会影响到搜索性能。默认情况下，ES会限制合并过程，这样搜索就可以有足够的资源进行。Es提供optimize API进行合并大的段。

详细参考：合并段

9300与9200区别

9300端口： ES节点之间通讯使用

9200端口： ES节点和外部通讯使用

9300是TCP协议端口号，ES集群之间通讯端口号

9200端口号，暴露ES的RESTful接口端口号

ElasticSearch高级查询

格式：/索引/类型/id

类型	Kibana示例
根据id查询	GET /lming/user/1
查询所有类型文档	GET /lming/user/_search
根据多个ID批量查询	GET /lming/user/_mget { "ids":[1,2,3] }
复杂条件查询	GET /lming/user/_search?q=age:21
区间查询	GET /lming/user/_search?q=age[30 TO 60]

Term与Match区别

Term查询不会对字段进行分词查询，会采用精确匹配。Match会根据该字段的分词器，进行分词查询。

文档映射

已经把ElasticSearch的核心概念和关系数据库做了一个对比，索引（index）相当于数据库，类型(type)相当于数据表，映射(Mapping)相当于数据表的表结构。ElasticSearch中的映射（Mapping）用来定义一个文档，可以定义所包含的字段以及字段的类型、分词器及属性等等。

文档映射就是给文档中的字段指定字段类型、分词器。

使用 GET /lming/user/_mapping

映射的分类

动态映射

我们知道，在关系数据库中，需要事先创建数据库，然后在该数据库实例下创建数据表，然后才能在该数据表中插入数据。而ElasticSearch中不需要事先定义映射（Mapping），文档写入ElasticSearch时，会根据文档字段自动识别类型，这种机制称之为动态映射。

静态映射

在ElasticSearch中也可以事先定义好映射，包含文档的各个字段及其类型等，这种方式称之为静态映射。

ES类型支持

基本类型

符串：string，string类型包含 text 和 keyword。

text：该类型被用来索引长文本，在创建索引前会将这些文本进行分词，转化为词的组合，建立索引；允许es来检索这些词，text类型不能用来排序和聚合。

keyword：该类型不需要进行分词，可以被用来检索过滤、排序和聚合，keyword类型自读那只能用本身来进行检索（不可用text分词后的模糊检索）。

注意: keyword类型不能分词，Text类型可以分词查询

数指型：long、integer、short、byte、double、float

日期型：date

布尔型：boolean

二进制型：binary

数组类型（Array datatype）

三、ElasticSearch集群搭建

Linux环境安装Elasticsearch

1.安装JDK环境

ElasticSearch是对Lucene的封装，Lucene使用JDK开发。

export JAVA_HOME=/usr/local/jdk1.8.0_181
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

source /etc/profile

2.下载elasticsearch安装包

下载elasticsearch安装包

官方文档https://www.elastic.co/downloads/elasticsearch

注意：linux安装内存建议1g内存以上，考虑下面还要安装Kabana设置为1.5g。

3.上传elasticsearch安装包

4.解压elasticsearch

tar -zxvf elasticsearch-6.4.3.tar.gz

5.修改elasticsearch.yml

network.host: 192.168.212.151
http.port: 9200

6.启动elasticsearch报错

cd /usr/local/elasticsearch-6.4.3/bin
./elasticsearch

can not run elasticsearch as root

解决方案:

因为安全问题elasticsearch

不让用root用户直接运行，所以要创建新用户

第一步：liunx创建新用户 adduser XXX 然后给创建的用户加密码 passwd XXX 输入两次密码。

第二步：切换刚才创建的用户 su XXX 然后执行elasticsearch 会显示Permission denied 权限不足。

第三步：给新建的XXX赋权限，chmod 777 * 这个不行，因为这个用户本身就没有权限，肯定自己不能给自己付权限。所以要用root用户登录付权限。

第四步：root给XXX赋权限，chown -R XXX /你的elasticsearch安装目录。

然后执行成功。

创建一个分组

groupadd lming

useradd esyushengjun -g lming -p 123456

chown -R esyushengjun: lming elasticsearch-6.4.3

su esyushengjun 切换用户

继续报错

bootstrap checks failed max virtual memory areas vm.max_map_count [65530] is

vi /etc/sysctl.conf

vm.max_map_count=655360

sysctl p

max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]

vi /etc/security/limits.conf

* soft nofile 65536

* hard nofile 131072

* soft nproc 2048

* hard nproc 4096

重启服务器即可

7.访问elasticsearch

关闭防火墙

systemctl stop firewalld.service

http://192.168.212.151:9200

中文分词器

什么是分词器？

因为Elasticsearch中默认的标准分词器分词器对中文分词不是很友好，会将中文词语拆分成一个一个中文的汉子。因此引入中文分词器-es-ik插件。

一下为各大主流中文分词器：

名称	最近更新	速度(网上情报)	扩展性支持、其它
mmseg4j	2013	complex 60W字/s (1200 KB/s) simple 100W字/s (1900 KB/s)	使用sougou词库，也可自定义 (complex\simple\MaxWord)
IKAnalyzer	2012	IK2012 160W字/s (3000KB/s)	支持用户词典扩展定义、支持自定义停止词 (智能\细粒度)
Ansj	2014	BaseAnalysis 300W字/s hlAnalysis 40W字/s	支持用户自定义词典，可以分析出词性，有新词发现功能
paoding	2008	100W字/s	支持不限制个数的用户自定义词库

ES分词演示（使用Postman进行演示）：

http://192.168.212.181:9200/_analyze post请求

json参数：

{

"analyzer": "standard",

"text": "这是ES自带分词器效果"

}

ES集成IK分词器

下载地址: https://github.com/medcl/elasticsearch-analysis-ik/releases

注意: es-ik分词插件版本一定要和es安装的版本对应

第一步：下载es的IK插件（资料中有）命名改为ik插件

第二步: 上传到/usr/local/elasticsearch-6.4.3/plugins

第三步: 重启elasticsearch即可。

第四步: 重试以上请求会发现分词结果不一样。

IK自定义扩展词典

定义：自定义扩展词典可以帮助我们添加扩展分词。不懂？使用如上请求对自己名字进行分词，结果大多应该是一个一个的字（除非你/他很有名），如果想要让自己的名字被分词之后是一个整体的词的话就需要引入扩展词典。

集成：

① 在/usr/local/elasticsearch-6.4.3/plugins/ik/config目录下添加：

vim custom/new_dic.dic

把这一行换成你的名字

老铁

王者荣耀

洪荒之力

注意：linux可能无法识别dic后缀文件，如果添加自定义词典后没有效果，请查看new_dic.dic是否乱码，如有乱码请copy原始字典进行替换。

② vi IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties><comment>IK Analyzer 扩展配置</comment><!--用户可以在这里配置自己的扩展字典 --><entry key="ext_dict">custom/new_word.dic</entry><!--用户可以在这里配置自己的扩展停止词字典--><entry key="ext_stopwords"></entry><!--用户可以在这里配置远程扩展字典 --><!-- <entry key="remote_ext_dict">words_location</entry> --><!--用户可以在这里配置远程扩展停止词字典--><!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

再次对你的name进行分词验证。

Linux环境安装Kibana

Kabana介绍

Kibana是一个开源的分析和可视化平台，设计用于和Elasticsearch一起工作。

你用Kibana来搜索，查看，并和存储在Elasticsearch索引中的数据进行交互。

你可以轻松地执行高级数据分析，并且以各种图标、表格和地图的形式可视化数据。

Kibana使得理解大量数据变得很容易。它简单的、基于浏览器的界面使你能够快速创建和共享动态仪表板，实时显示Elasticsearch查询的变化。

Kibana环境安装

tar -zxvf kibana-6.4.3-linux-x86_64.tar.gz

vim config/kibana.yml

# 将默认配置改成如下：

server.port: 5601

server.host: "192.168.212.151"

elasticsearch.url: "http:// 192.168.212.151:9200"

启动Kibana

./bin/kibana

http://192.168.212.179:5601/app/kibana

Kabana使用非常简单，如果有不明白请使用Google浏览器进行翻译，是在不懂就百度。

Elasticsearch分布式集群搭建

概念

首先ES索引被分为多段，每一个段为一个分片（主分片，默认一个集群五个主分片），分片有两种类型主分片、复制分片，每一个主分片可对应多个复制分片，复制分片存放的数据与对应主分片保持同步，主分片与复制分片不能存放在统一个服务器上。

三个主分片，每一个主分片拥有一个复制分片：

P为主分片，R为复制分片

也可以是，三个主分片，每一个主分片拥有两个复制分片：

P0主分片有R0_1和R0_2两个复制节点

思考：为什么主分片数不可变，复制分片数可变？

为什么这样设计？

主分片数不可变是因为ES需要实现路由算法以及负载均衡算法，两种算法在上面已有介绍过

复制分片数可变是因为需要实现动态横向扩展，但匜存在缺点，拓展的的节点只能是从分片，而ES从分片是可读不可写的，因此当系统并发读请求过高的时候，可以直接进行动态横向扩展。

集群搭建

准备三台服务器/虚拟机集群，单台服务器最少1.5G内存。

服务器名称	IP地址
node-1	192.168.212.182
node-2	192.168.212.183
node-3	192.168.212.184

服务集群配置

vi elasticsearch.yml
cluster.name: myes  ###保证三台服务器节点集群名称相同
node.name: node-1 #### 每个节点名称不一样 其他两台为node-1 ,node-2
network.host: 192.168.212.180 #### 实际服务器ip地址
discovery.zen.ping.unicast.hosts:["192.168.212.184",”192.168.212.185","192.168.212.186"]##多个服务集群ip
discovery.zen.minimum_master_nodes: 1 ##用于选举的参数，详细请参考官方

关闭防火墙 systemctl stop firewalld.service，注意yml文件格式，”:”后面有一个空格。

默认底层开启9300 进行集群通讯

验证集群效果

http://192.168.212.185:9200/_cat/nodes?pretty

注意克隆data文件会导致数据不同步

报该错误解决办法

failed to send join request to master

因为克隆导致data文件也克隆呢，直接清除每台服务器data文件。

*号表示为master节点

四、ELK分布式日志收集

Logstash原理

在ELK中Logstash扮演的身份就是日志文件的转存者，如上图中Data Source 在ELK中就是本地的.log文件，输入input负责将.log文件格式化后输入Logstash，Filter可实现各种过滤，如数据解析、删除字段、类型转换等等，输出Output则负责将格式化好的json PUT到ElasticSearch中。

提示：真实集群下，Logstash安装在应用服务器上，（分布式微服务）服务集群则是每一台都需要安装一个Logstash，因为Logstash需要读取本地log文件，而ES与Kabana则是与应用服务器隔开的，是一个单独的集群。

ELK搭建

Elasticsearch+Logstash+Kiabana环境安装建议内存设置为2G。

es版本必须要与kibana版本对应！！

关闭防火墙

Elasticsearch环境安装：

不懂请看上面☝ ☝ ☝。

Logstash环境安装：

1、上传logstash安装包(资料)

2、解压tar –zxvf logstash-6.4.3.tar.gz

3、在config目录下放入myELK01.conf 读入并且读出日志信息

4、启动 ./bin/logstash -f ./config/myELK01.conf

注意：启动后如果没有报错需要等待logstash 完成，此时间可能比较长

温馨提示：大型日志文件查询

查询前300行包含node-1内容

tail -n 300 myes.log | grep 'node-1'

实时打印日志

tail -100f myes.log

myELK01.conf （标准打印）

input {# 从文件读取日志信息 输送到控制台
file {###ES日志存放路径，真实环境改成对应服务的日志文件存放位置即可###input 可配置多个，每一个日志文件对应一个path => "/usr/local/Elasticsearch/elasticsearch-6.4.3/logs/myEs.log" codec => "json" ## 以JSON格式读取日志type => "elasticsearch" ###类型名称随便取start_position => "beginning"}}# filter {
#
# }output {# 标准输出 # stdout {}# 输出进行格式化，采用Ruby库来解析日志   stdout { codec => rubydebug }
}

启动成功之后可以看到myEs.log中的每一行都会被格式化成json输出在控制台，尝试切换回root用户重启ES报错时，报错信息会在Logstash控制台打印。

将Logstash输入到ES中：

修改myELK.conf

input {# 从文件读取日志信息 输送到控制台file {path => "/usr/local/elasticsearch-6.4.3/logs/myes.log"codec => "json" ## 以JSON格式读取日志type => "elasticsearch"start_position => "beginning"}
}# filter {
#
# }output {# 标准输出 # stdout {}# 输出进行格式化，采用Ruby库来解析日志   stdout { codec => rubydebug }elasticsearch {hosts => ["192.168.212.190:9200"]index => "es-%{+YYYY.MM.dd}"  ##ES索引名称}
}

Kabana环境安装：

不懂请看上面☝ ☝ ☝。

访问下面的界面，可进行ES界面话查询

http://192.168.13.102:5601/app/kibana#/discover

高级查询：

http://192.168.13.102:5601/app/kibana#/dev_tools/console

五、ElasticSearch网盘搜索引擎（Springboot2.0版）

请先安装好lombok插件，至于lombok干啥用的，自己百度吧，这么好的东西都不知道，你是程序员？

Eclipse走：https://blog.csdn.net/Dorothy1224/article/details/79280591/

IDEA走：https://blog.csdn.net/zhglance/article/details/54931430

步骤分析：

爬取网盘链接，网盘链接分为两种，无需密码的分享链接和需要密码的加密链接两种。

无需密码大多直接对百度云盘用户分享文件进行爬虫：

http://yun.baidu.com/s/1c21LahU其中c21LahU是可变的。详细请参考：MultiThread.java示例。

需要密码主要通过网盘资源网站爬得源码并使用Jsoup进行正则匹配链接地址和密码，并进行验证，高级的则是爬取CSDN、Baidu、Google等大型网站。

在这里我们就通过爬取http://bestcbooks.com/链接地址和密码并验证后添加到ElasticSearch中.

分析网站：

分析网站得出解析步骤：

首先通过Jsoup请求http://bestcbooks.com/解析得到源码并使用/categories(.*)正则解析得到分类导航的请求列表。循环执行分类Joup请求解析源码得到单本书籍详细页面的连接，在通过解析详细页面得到网盘链接地址和密码。源码请参考：CrawlBook.java 。

而得到链接地址和密码是不够的，我们还需要进行验证，并进一步得到更多详细信息，如分享人的头像、名称、文件大小等。最后我们还需要添加到ES中。

源码请参考：ReptileMain.java。最后我们还需要实现web端的分页展示ES数据。

源码：

源码下载地址：https://gitee.com/Xie723/SpringCloud2_Config_Server/blob/master/ESou.zip