前言

十一一直陪家人,所以也没时间写文章。最近刚好赶上Elastic Search上市,其实在圈子里还是挺轰动的,因为这个也是少数的靠卖开源软件服务上市的公司。大家都知道ES是做搜索服务的,今天就聊聊我对搜索的认识

从业务属性讲

搜索的话,其实是大家接触最多的一类业务。其实说机器学习,其实是一门技术,而搜索是一项业务,机器学习可以应用到搜索业务中去,同时中间件技术、数据库技术等都跟搜索密不可分。

从业务属性上讲搜索的话,在我眼里分为两种。一种是简单的匹配类搜索,一种是业务导向类。前者的追求是最高效率的找到跟输入信息匹配的内容,Google、百度做的事情就是这种。业务导向型,更多地是将搜索赋予业务逻辑,比如A在电商平台搜索以一个包,电商平台可以根据A的消费能力去匹配最合适的产品,甚至返回的不是包而是一个跟包搭配的裙子。

倒排索引/正派索引

真正的搜索业务不会是暴力的从全部数据中遍历搜索的。一定是将一类数据建成索引。倒排或者正排表示的是索引建立的方法,这个索引建立也就是数据建模过程,是搜索系统的核心。

上图是一种索引关系,正排索引是以Document,也就是文章ID为主key,如果要搜索某个关键词,需要遍历每一篇文章,搜索的时候计算量很大,好处是建模容易。

倒排索引就是以词为主key,搜索的时候找到词之后返回这个词所在的文章。这种方式搜索的时候计算量小,建模比较难。倒排索引也是目前的主流搜索索引建模方法。

Lucene

Lucene是非常有名的搜索引擎了,包含下面的整套架构,从上面提的索引创建,到用户的访问。

Elastic Search其实是在这一套上面做了分布式服务,规范了各种访问和查询接口,支持多点容灾和查询。

未来的搜索

现在的搜索其实已经内嵌了很多机器学习相关的组件,比如建索引的时候会有分词、文本理解相关的应用。未来随着人工智能的发展我觉得搜索这项业务的本质会发生变化。

现在搜索做的事情是匹配用户输入的信息和世界上已经存在的信息。未来随着类似于深度学习GAN模型的发展,或者其它生成类技术的发展。

搜索会变成自动生成用户输入的内容,比如现在用户输入“黄片儿”,搜索引擎是利用爬虫去找已经存在的黄片,未来可能就直接现场人工智能造一个黄片返回,甚至能根据用户习惯自定义。

这个就是想说的内容,未来机器学习在搜索领域一定大有可为,持续关注这个业务方向~

谈谈对搜索技术Elastic SearchLucene的理解相关推荐

  1. 阿里飞猪搜索技术的应用与创新

    分享嘉宾:林睿 阿里飞猪 编辑整理:杜正海.Hoh 出品平台:DataFunTalk 导读:旅行场景的搜索起初是为了满足用户某种特定的强需求而出现的,如机票.火车票.酒店等搜索.这些需求有着各自不同的 ...

  2. 白话Elasticsearch27-深度探秘搜索技术之误拼写时的fuzzy模糊搜索技术

    文章目录 概述 官方指导 例子 推荐写法 概述 继续跟中华石杉老师学习ES,第27篇 课程地址: https://www.roncoo.com/view/55 官方指导 https://www.ela ...

  3. 专访头条搜索:从推荐到搜索,如何构建搜索技术的另一种可能?

    今日头条又将搜索业务往前推进了一步.4 月 30 日,今日头条宣布上线"头条百科"测试版.界面简洁,除了搜索框外,只有一个 Slogan:" 来这里,认识世界!" ...

  4. KDD'21 | 揭秘Facebook升级版语义搜索技术

    上一篇分享了KDD'21 | 淘宝搜索中语义向量检索技术Que2Search: Fast and Accurate Query and Document Understanding for Searc ...

  5. 阿里飞猪搜索技术的应用与创新(v2021-02-03)

    分享嘉宾:林睿 阿里飞猪 编辑整理:杜正海.Hoh 出品平台:DataFunTalk 导读:旅行场景的搜索起初是为了满足用户某种特定的强需求而出现的,如机票.火车票.酒店等搜索.这些需求有着各自不同的 ...

  6. 程序员业务,微信全文搜索技术优化

    一.iOS微信全文搜索技术的现状 全文搜索是使用倒排索引进行搜索的一种搜索方式.倒排索引也称为反向索引,是指对输入的内容中的每个Token建立一个索引,索引中保存了这个Token在内容中的具体位置.全 ...

  7. 搜索技术——遗传算法

    如果有兴趣了解更多相关内容,欢迎来我的个人网站看看:瞳孔空间 一:进化与遗传的概念 拉马克(Lamarck)进化论: 一切物种都是其他物种演变和进化而来的,而生物的演变和进化是一个缓慢和连续的过程 环 ...

  8. 第三代搜索技术展望(转)

    第三代搜索技术展望(转) 搜索引擎已经成为互联网上的"重磅炸弹".然而,网上搜索信息效果究竟如何呢? ――诸如 AOL.Google.微软及雅虎等公司所提供的关键字搜索引擎技术,在 ...

  9. 非结构化视频搜索技术

    非结构化视频搜索技术 2006-10-10 22:46 ■ 李蓬涛 编者按:视频搜索技术针对音视频这类非结构化数据,使用了语音识别.自动抽帧和内容自动关联等技术,真正做到了从内容上对视频进行搜索.20 ...

最新文章

  1. Android图片360全景旋转
  2. 飞鸽传书要是懒惰就会长胖
  3. LwIP移植准备工作
  4. Ubuntu 13.10/12.10/12.04 用户如何升级到 Ubuntu 14.04
  5. vivado中bit文件怎么没有生成_「干货」FPGA设计中深度约束技巧及调试经验总结...
  6. DSB2017第一名论文理解: 3D Deep Leaky Noisy-or Network(三)
  7. 英语总结系列(二十二):Baby偶遇GCT
  8. webStorm 永久破解
  9. C#员工考勤管理系统源码 考勤工资管理系统源码
  10. Excel重要知识点及学习分享
  11. 卷积神经网络交通标志识别
  12. sql compare mysql版本_SQL Compare 13免费版
  13. php降序怎写,PHP数组如何按键名实现降序排列
  14. 每个家庭将有一台计算机英语,2011年6月英语四级考试模拟试题及答案9
  15. M1001 4G/5G应急指挥箱
  16. SQL 02 基础查询与排序
  17. AML与PIO整合问题
  18. R语言:三线表(1)
  19. 什么是持续集成的自动化测试
  20. php去重和 sql 去重,原生php结果集如何去重?

热门文章

  1. python报错TabError: inconsistent use of tabs and spaces in indentation解决方案
  2. oracle命令报01034,ORA-01034错误的解决办法-数据库专栏,ORACLE
  3. python rsa_python rsa加解密
  4. k3运行linux,首个Kubernetes操作系统k3OS,附主要功能介绍
  5. sim卡无线上网公用服务器,有人推出内置SIM卡GPRS模块!GM3S开启无线数传模块新时代!...
  6. 我的世界java1.15.2光影_快去打卡吧!海南首个“360光影馆”落户三亚
  7. 非因果滤波器 matlab,对于无阶跃响应不会过冲的无因果低通滤波器,最清晰的频率响应是什么?...
  8. linux 更改文件所有者
  9. tensorflow 进阶(四)---CNN
  10. python date time