四十一 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查...
elasticsearch(搜索引擎)基本的索引和文档CRUD操作
也就是基本的索引和文档、增、删、改、查、操作
注意:以下操作都是在kibana里操作的
elasticsearch(搜索引擎)都是基于http方法来操作的
GET 请求指定的页面信息,并且返回实体主体
POST 向指定资源提交数据进行处理请求,数据被包含在请求体中,POST请求可能会导致新的资源的建立和/或已有资源的修改
PUT 向服务器传送的数据取代指定的文档的内容
DELETE 请求服务器删除指定的页面
1、索引初始化,相当于创建一个数据库
用kibana创建
代码说明
# 初始化索引(也就是创建数据库) # PUT 索引名称 """ PUT jobbole #设置索引名称 {"settings": { #设置"index": { #索引"number_of_shards":5, #设置分片数"number_of_replicas":1 #设置副本数}} } """
代码
# 初始化索引(也就是创建数据库) # PUT 索引名称PUT jobbole {"settings": { "index": { "number_of_shards":5, "number_of_replicas":1 }} }
我们也可以使用可视化根据创建索引
注意:索引一旦创建,分片数量不可修改,副本数量可以修改的
2、获取索引的settings(设置信息)
GET 索引名称/_settings 获取指定索引的settings(设置信息)
# 初始化索引(也就是创建数据库) # PUT 索引名称 PUT jobbole {"settings": { "index": { "number_of_shards":5, "number_of_replicas":1 }} }#获取指定索引的settings(设置信息) GET jobbole/_settings
GET _all/_settings 获取所有索引的settings(设置信息)
# 初始化索引(也就是创建数据库) # PUT 索引名称 PUT jobbole {"settings": { "index": { "number_of_shards":5, "number_of_replicas":1 }} }#获取索引的settings(设置信息) #GET jobbole/_settings#获取所有索引的settings(设置信息) GET _all/_settings
GET .索引名称,索引名称/_settings 获取多个索引的settings(设置信息)
# 初始化索引(也就是创建数据库) # PUT 索引名称 PUT jobbole {"settings": { "index": { "number_of_shards":5, "number_of_replicas":1 }} }#获取索引的settings(设置信息) #GET jobbole/_settings#获取所有索引的settings(设置信息) #GET _all/_settings GET .kibana,jobbole/_settings
3、更新索引的settings(设置信息)
PUT 索引名称/_settings 更新指定索引的设置信息
# 初始化索引(也就是创建数据库) # PUT 索引名称 PUT jobbole {"settings": { "index": { "number_of_shards":5, "number_of_replicas":1 }} }#更新指定索引的settings(设置信息) PUT jobbole/_settings {"number_of_replicas":2 }#获取索引的settings(设置信息) GET jobbole/_settings
4、获取索引的(索引信息)
GET _all 获取所有索引的索引信息
# 初始化索引(也就是创建数据库) # PUT 索引名称 PUT jobbole {"settings": { "index": { "number_of_shards":5, "number_of_replicas":1 }} }#获取索引的settings(设置信息) #GET jobbole/_settingsGET _all
GET 索引名称 获取指定的索引信息
# 初始化索引(也就是创建数据库) # PUT 索引名称 PUT jobbole {"settings": { "index": { "number_of_shards":5, "number_of_replicas":1 }} }#获取索引的settings(设置信息) #GET jobbole/_settings #GET _all GET jobbole
5、保存文档(相当于数据库的写入数据)
PUT index(索引名称)/type(相当于表名称)/1(相当于id){字段:值} 保存文档自定义id(相当于数据库的写入数据)
#保存文档(相当于数据库的写入数据) PUT jobbole/job/1 {"title":"python分布式爬虫开发","salary_min":15000,"city":"北京","company":{"name":"百度","company_addr":"北京市软件园"},"publish_date":"2017-4-16","comments":15 }
可视化查看
POST index(索引名称)/type(相当于表名称)/{字段:值} 保存文档自动生成id(相当于数据库的写入数据)
注意:自动生成id需要用POST方法
#保存文档(相当于数据库的写入数据) POST jobbole/job {"title":"html开发","salary_min":15000,"city":"上海","company":{"name":"微软","company_addr":"上海市软件园"},"publish_date":"2017-4-16","comments":15 }
6、获取文档(相当于查询数据)
GET 索引名称/表名称/id 获取指定的文档所有信息
#获取文档(相当于查询数据) GET jobbole/job/1
GET 索引名称/表名称/id?_source 获取指定文档的所有字段
GET 索引名称/表名称/id?_source=字段名称,字段名称,字段名称 获取指定文档的多个指定字段
GET 索引名称/表名称/id?_source=字段名称 获取指定文档的一个指定字段
#获取指定文档的所有字段 GET jobbole/job/1?_source #获取指定文档的多个指定字段 GET jobbole/job/1?_source=title,city,company #获取指定文档的一个指定字段 GET jobbole/job/1?_source=title
7、修改文档(相当于修改数据)
修改文档(用保存文档的方式,进行覆盖来修改文档)原有数据全部被覆盖
#修改文档(用保存文档的方式,进行覆盖来修改文档) PUT jobbole/job/1 {"title":"python分布式爬虫开发","salary_min":15000,"city":"北京","company":{"name":"百度","company_addr":"北京市软件园"},"publish_date":"2017-4-16","comments":20 }
修改文档(增量修改,没修改的原数据不变)【推荐】
POST 索引名称/表/id/_update {"doc": {"字段":值,"字段":值} }
#修改文档(增量修改,没修改的原数据不变) POST jobbole/job/1/_update {"doc": {"comments":20,"city":"天津"} }
8、删除索引,删除文档
DELETE 索引名称/表/id 删除索引里的一个指定文档
DELETE 索引名称 删除一个指定索引
#删除索引里的一个指定文档 DELETE jobbole/job/1 #删除一个指定索引 DELETE jobbole
转载于:https://www.cnblogs.com/meng-wei-zhi/p/8182888.html
四十一 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查...相关推荐
- 第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查...
第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)基本的索引和文档CRUD操作.增.删.改.查 elasticsearch(搜索引擎)基本的索引 ...
- 第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本概念...
第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)的基本概念 elasticsearch的基本概念 1.集群:一个或者多个节点组织在一起 2.节点 ...
- python分布式爬虫及数据存储_二十一 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫数据保存...
注意:数据保存的操作都是在pipelines.py文件里操作的 将数据保存为json文件 spider是一个信号检测 # -*- coding: utf-8 -*- # Define your ite ...
- 学习python-day02-25---转自Python分布式爬虫打造搜索引擎Scrapy精讲
第三百六十九节,Python分布式爬虫打造搜索引擎Scrapy精讲-elasticsearch(搜索引擎)用Django实现搜索功能 Django实现搜索功能 1.在Django配置搜索结果页的路由映 ...
- Python分布式爬虫打造搜索引擎完整版-基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站
Python分布式爬虫打造搜索引擎 基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 https://github.com/mtianyan/Artic ...
- 学习python-day02-24---转自Python分布式爬虫打造搜索引擎Scrapy精讲
第三百六十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-用Django实现搜索的自动补全功能 elasticsearch(搜索引擎)提供了自动补全接口 官方说明:https://www.e ...
- 第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理...
第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲-深度优先与广度优先原理 网站树形结构 深度优先 是从左到右深度进行爬取的,以深度为准则从左到右的执行(递归方式实现)Scrapy默认 ...
- 三十七 Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中...
Python分布式爬虫打造搜索引擎Scrapy精讲-将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复 布隆过滤器(Bloom Filter)详解 基本概念 如 ...
- 第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图...
第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲-爬虫和反爬的对抗过程以及策略-scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...
- Python分布式爬虫打造搜索引擎
Python分布式爬虫打造搜索引擎 基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 未来是什么时代?是数据时代!数据分析服务.互联网金融,数据建模.自 ...
最新文章
- 删除指定文件夹下的小于 4K的所用文件...
- PMCAFF微课堂视频合集 | O2O产品的颠覆与布局
- bio阻塞的缺点_java 中的 BIO/NIO/AIO 详解
- CV:深入浅出的讲解傅里叶变换(真正的通俗易懂)
- Asp.Net Core 已支持 gRPC-Web !!
- 配置openldap_openldap环境搭建+集成JIRA服务
- 百科系列——高一所遇
- CCNA之单臂路由实验
- C# 线程手册 第四章 线程设计原则 对等线程模型
- Dubbo太难了,我决定加入Spring Cloud阵营了...
- FTP响应码与应答码
- 【转】Url Rewrite Filter 使用全攻略
- 私域流量经济时代,商家如何打造属于你的店铺品牌私域流量池?
- 【C语言】——计算单词个数
- 镭速(Raysync)文件传输对比Filezilla测试!
- kali 配置静态ip的坑
- 底层网络知识详解:如何连接外网
- 自然月合同月 生成费用
- 高性能计算机与网格的研究开发态势
- MySQL查询数据库里面所有的表名和表注释 - tables with comment
热门文章
- mapinfo开发资料(转)
- DMA内存申请--dma_alloc_coherent 及 寄存器与内存【转】
- 大数据时代已经来临,正在改变我们的生活
- [剑指Offer] 第5章课后题详解
- Java多线程问题之同步器CyclicBarrier
- Звезда 星星
- string.Empty与,null的区别
- C/C++ 程序设计员应聘常见面试试题深入剖析(2)
- React和Redux的连接react-redux【转载】
- vue学习笔记-3-双向数据绑定