django+haystack+elasticsearch优化查询效率

  • 背景
  • 安装环境
  • 配置
    • 1.在settings中的配置
    • 2.在子应用下创建索引文件
    • 3.指定索引模板文件
    • 4.使用命令创建索引
  • 索引文件使用
    • 1.编写视图

背景

主要就是这边有一个几千万数据的表存在mysql里,临时需要做一个对n个字段的模糊查询,之前考虑了挺多办法,like查询太慢 加了索引也只能’xxx%‘查询,其他两种’%xxx’或’%xxx%'就索引失效,会走mysql全表扫描。之前也做了mysql的全文索引,结果也不尽人意。最后选择了搜索引擎来做模糊查询的优化;
看了网上很多的blog,基本都是复制粘贴,看的我头都大了。于是自己闲着没事也写一篇吧;
说一句题外话,之前有用过Whoosh + jieba分词的时候处理。但是发现结巴分词分的粒度不够小。例如一个title。只能分成几个词、几个字这种。如果单纯搜title里的其中一个字不一定能搜出来。也可能是我姿势不对。
最后用的elasticsearch,elasticsearch自带的分词,粒度就非常小。基本穷举了所有可能。例如title是
“elasticsearch优化查询效率” 可能就切分成了[“elasticsearch”, “优”, “化”, “查”, “询”, “效”, “率”, “优化”, “查询”, “效率”, “优化查询”, ···,“elasticsearch优化查询效率”],n种可能。用户使用起来体验会比较好;

安装环境

// 环境安装,这里就直接放了我的环境安装的版本吧。
pip install django-haystack==2.8.1
// 这里python安装的elasticsearch必须要比本机上安装的elasticsearch应用程序版本低。(我这边安装的2.4.6版本的应用程序)
pip install elasticsearch==2.4.1

配置

1.在settings中的配置

'''注册app '''
INSTALLED_APPS = ['django.contrib.admin','django.contrib.auth','django.contrib.contenttypes','django.contrib.sessions','django.contrib.messages','django.contrib.staticfiles',# haystack要放在应用的上面'haystack','myapp', # 这个jsapp是自己创建的app
]······# Haystack接入Elasticsearch
HAYSTACK_CONNECTIONS = {'default': {'ENGINE': 'haystack.backends.elasticsearch_backend.ElasticsearchSearchEngine','URL': 'http://127.0.0.1:9200/',  # Elasticsearch服务器ip地址,端口号固定为9200'INDEX_NAME': 'zzzztop',},
}
# 这俩个配置就是属于后期配置了
# 当添加、修改、删除数据时,自动生成索引
HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'  # 索引自动更新
# 用于决定每页显示数据条数:
HAYSTACK_SEARCH_RESULTS_PER_PAGE = 100

2.在子应用下创建索引文件

在子应用的目录下,创建一个名为 myapp/search_indexes.py 的文件

from haystack import indexes
from myapp.models import MyModels# 类名为模型类的名称+Index(可以任意命名)
class MyModelsIndex(indexes.SearchIndex, indexes.Indexable):# text为索引字段# document = True,这代表haystack和搜索引擎将使用此字段的内容作为索引进行检索# use_template=True 指定根据表中的那些字段建立索引文件的说明放在一个文件中# 设定之后假如你在索引模板文件里放了{{ object.username }}\n{{ object.age }}# 那么你的text就会生成为例如 李华 21text = indexes.CharField(document=True, use_template=True)# username是添加的额外字段,如果添加了那么在生成索引的时候也会把username对应的值存入索引 # 但具体存不存入上面的text里要看索引模板文件里放了什么username = indexes.CharField(model_attr='username')# 对那张表进行查询# 重载get_model方法,必须要有!(具体详情可以去看haystack的源码 这里不展开说了)def get_model(self):# 返回这个modelreturn MyModels# 建立索引的数据def index_queryset(self, using=None):# 这个方法返回什么内容,最终就会对那些方法建立索引,这里是对所有字段建立索引return self.get_model().objects.filter(is_put=True)

3.指定索引模板文件

创建文件路径命名必须这个规范:templates/search/indexes/应用名称/模型类名称_text.txt
例如:templates/search/indexes/myapp/mymodels_text.txt

{{ object.username }}
{{ object.age }}

4.使用命令创建索引

// 这里创建索引时要确保索引类创建好,且索引模板路径正常,elasticsearch应用程序正常运行
python manage.py rebuild_index

索引文件使用

1.编写视图

我这边看了很多博客。基本都用的drf框架方式写的,django原生框架也比较简单方便

from haystack.query import SearchQuerySet
from haystack.inputs import AutoQuery
from myapp.models import MyModels
from django.core.paginator import Paginatordef custom_search_view(request):q = request.GET.get("q", "")p = int(request.GET.get('p', 1))if q:sqs = SearchQuerySet().filter(text=AutoQuery(q)).models(MyModels).order_by('username')else:sqs = SearchQuerySet().all().models(MyModels).order_by('username')paginator = Paginator(sqs, 100)page = paginator.page(p)context = {"page": page}return render(request, "custom_search_template.html", context)

django模板
因为这里有的模型类已经把is_put=False,但索引建立了。还是能搜出来,代码再走到前面定义的index_queryset方法时,会返回一个空。这边也没有再往索引里加入is_put字段去filter了。所以做了一个这样的判断。

{% for item in page.object_list %}{% if item.object.is_put %}<tr><td><p>{{ item.object.username }}</p></td><td><p>{{ item.object.age }}</p></td></tr>{% endif %}
{% endfor %}

django+haystack+elasticsearch优化查询效率相关推荐

  1. java客户端查询hive很慢_Hive面试,如何优化查询效率!

    1,开启FetchTask 一个简单的查询语句,是指一个没有函数.排序等功能的语句,当开启一个Fetch Task功能,就执行一个简单的查询语句不会生成MapRreduce作业,而是直接使用Fetch ...

  2. Django博客搭建-新闻模块6-新闻搜索功能(Django+Haystack+elasticsearch)

    Blog项目--新闻模块 文章目录 Blog项目--新闻模块 一.需求分析 二.搜索引擎原理 三.Elasticsearch 特点 四.使用docker安装elasticsearch 五.后端代码实现 ...

  3. 改了一行代码,MySQL查询效率提升了80%,老板奖了我50万

     ⭐前言 优化MySQL数据库是数据库管理员必备的技能,通过不同的优化方式方法来达到提高MySQL数据库性能的目的. MySQL数据库当用户和数据量非常少的情况下,我们就很难判断MySQL数据库性能的 ...

  4. 【ElasticSearch】ElasticSearch在数十亿级别数据下,如何提高查询效率? 性能优化

    1.概述 转载:https://zhuanlan.zhihu.com/p/60458049 这里面主要有个filesystem cache 服务这个想法很好. 面试题 es 在数据量很大的情况下(数十 ...

  5. Elasticsearch如何提升查询效率

    分析 面试官问这个问题,一般就是向要考校你是否真的用过Elasticsearch分布式搜索引擎,对于查询效率的优化有没有真正的应用场景. es这个东西,真正来说并没有想象中那么牛逼.很多时候数据量太大 ...

  6. ElasticSearch 海量数据查询性能优化

    ElasticSearch 海量数据查询性能优化 尽量让查询计算简单 最大化使用操作系统的文件缓存 增加内存 减少 ES 中的数据量 思路扩展 冷热分离 数据预加载 小结 ES 接收到查询请求后,会转 ...

  7. mysql处理上百万条的数据库如何优化语句来提高处理查询效率

    1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...

  8. ElasticSearch 在数十亿级别数据下,如何提高查询效率?

    来源:https://zhuanlan.zhihu.com/p/60458049 面试题 es 在数据量很大的情况下(数十亿级别)如何提高查询效率啊? 面试官心理分析 这个问题是肯定要问的,说白了,就 ...

  9. ElasticSearch面试 - es 在数据量很大的情况下如何提高查询效率啊?

    面试题 es 在数据量很大的情况下(数十亿级别)如何提高查询效率啊? 面试官心理分析 这个问题是肯定要问的,说白了,就是看你有没有实际干过 es,因为啥?其实 es 性能并没有你想象中那么好的.很多时 ...

最新文章

  1. jQuery获取带点的id元素
  2. Codeforces Round #632 (Div. 2) C和D和F
  3. mongo下面总是缺少那么几个好用的工具--------试试这个吧-----MongoDB管理工具
  4. linux 新用户 界面登录,如何在Linux系统登录界面加入个性化提示信息
  5. setAnimationTransition:forView:cache: 运行动画时背景色问题
  6. 拥抱开放计算标准 重构数据中心格局
  7. mysql多表查询插入更新_Mysql多表查询,多表插入和多表更新
  8. 【飞秋】一起学Windows Phone7开发(十三.二 按钮控件)
  9. 《互联网人如厕报告》,厕所竟成互联网人的 “最后净土”
  10. 开发中常遇到的linux系统配置操作整理
  11. django 使用requests请求相关接口
  12. python爬虫知识点总结(二十四)Scrapy爬去知乎用户信息
  13. Linux常用基本命令(rename,basename,dirname)
  14. [20190226]测试使用bbed恢复索引.txt
  15. 使用openssh的登录的三种方法
  16. php 快手视频,初学PHP:简单的快手和抖音短视频解析
  17. 外键的约束(Mysql、PostgreSQL)
  18. C#注册机与绑定软件(转发自:韩兆新的博客园的C#学习笔记——软件注册与注册机)...
  19. 除法器的实现(恢复余数、不恢复余数、级数展开、Newton-Raphson)
  20. 用Python分割九宫格图片发朋友圈

热门文章

  1. Light-weight Contexts An OS Abstraction for Safety and Performance(OSDI 2016) 论文学习
  2. 要么读书,要么健身,要么恋爱(九)从0到1:开启商业与未来
  3. ORB-SLAM2稠密点云重建:双目室外[1]
  4. Android 情景模式的切换
  5. arduino控制模数转换器代码
  6. origin软件画流程图_Origin 画方框图的步骤
  7. 前后台系统的低功耗编程思想——STM8平台
  8. 瑞禧科研技术分享荧光标记糖--ICG-psicose/fructose/tagalose阿洛酮糖/塔格酮糖/果糖吲哚菁绿用于荧光成像
  9. 特殊符号大全以备不时之需
  10. 学计算机,如果你还不知道这些优秀的网站,那你真的OUT了!