搜多日志是目前搜索引擎广泛采用的深入挖掘用户意图的有效数据源。9.1 搜索行为及其意图 9.1.1 用户搜索行为 用户之所以会产生搜索行为,往往是在解决任务时遇到自己不熟悉的概念或者问题,由此产生对特定信息的需求,之后用户会在头脑中逐步形成描述需求的查询词,将查询词交给搜索引擎,然后对搜索结果进行浏览。如果发现搜索引擎结果不能完全解决用户的信息需求,则会根据搜索结果的启发,改写查询,以便更精确的描述自己的信息需求,之后重新构造查询请求,提交给搜索引擎。常见的查询改写有3种:抽象化改写,具体化改写以及同义词重构改写。9.1.2 用户搜索意图分类 1.导航型搜索2.信息型搜索3.事务型搜索9.2 搜索日志挖掘 搜索日志是搜索引擎对用户行为的记录,通过记载用户行为,可以构建更好的算法以使得搜索结果更准确及更具个性化色彩。一般会记录用户发出的查询,发出查询的时间,点击过哪些搜索结果等数据。搜索日志包含了很多可用的信息,从中可以挖掘出有价值的数据来帮助搜索引擎改善搜索质量,在使用搜索日志前,一般会对搜索日志进行整理,将原始形式的查询日志转换为意义更加清晰的中间数据,常用的中间数据包括:查询会话,点击图及查询图。9.2.1 查询会话(Query Session) 通过挖掘搜索日志,可以将同一用户在较短时间内发出的连续多个查询找出,这样一段日志被称作一个查询会话。9.2.2 点击图(Click Graph) 从搜索日志记录可以看到,用户发出某个查询后,搜索引擎返回结果,而用户会有选择的点击其中某些链接。这种用户点击是比较有意义的,一般可以假设:用户之所以会点击这个网址,是因为用户在看了网页标题和搜索引擎摘要后,认为这个网页是和查询比较相关的,所以才会点击。也就是说,可以认为搜索结果里被点击过的网页与用户查询更相关。将查询和这个查询对应的点击网址联系起来,可以构建点击图,这是一种二分图,一端的图节点是所有用户发出的查询条件,另一端的图节点是互联网网页的网址。9.2.3 查询图(Query Graph) 用户发出的查询之间是有语义关联的,查询图就是试图构建查询之间相互关系的一种数据表示。9.3 相关搜索 相关搜索也常被称为查询推荐,也就是说用户输入某个查询后,搜索引擎向用户推荐与用户相关查询语义的其他查询。用户对于自己的信息需求,不一定能很准确的想到合适的搜索词来表达搜索意图,相关搜索可以给用户提示。9.3.1 基于查询会话的方法 9.3.2 基于点击图的方法 9.4 查询纠错 用户输入键盘敲入查询的时候,一种很常见的错误是输入字符。大约有10%~15%的查询是错误的。9.4.1 编辑距离(Edit Distance) 9.4.2 噪声信道模型(Noise Channel Model)

9.这就是搜索引擎:核心技术详解 --- 用户查询意图分析相关推荐

  1. 《这就是搜索引擎:核心技术详解》---读后感

    搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻.搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大 ...

  2. 这就是搜索引擎核心技术详解@学习笔记

    对应文章的下载地址: http://download.csdn.net/detail/yijiyong100/6356227 背  景 关于本篇学习笔记,只是把书中的一些概念进行了归纳,同时把个人的一 ...

  3. 1.这就是搜索引擎:核心技术详解 --- 搜索引擎及其技术架构

    1.搜索引擎及其技术架构1.2 搜索引擎技术发展史 1.2.1 史前时代:分类目录的一代 1.2.2 第一代:文本检索的一代 1.2.3 第二代:链接分析的一代 这一代的搜索引擎充分利用了网页之间的链 ...

  4. 腾讯数据科学家详解用户选择行为分析核心模型

    导读:生活中的选择行为无处不在,数据分析师面对的商业场景也存在大量的用户选择问题.系统.科学地研究用户选择问题,得到选择行为背后的客观规律,并基于这些规律提出业务优化策略,这些能力对于数据分析师来说非 ...

  5. 详解用户流失原因分析该如何入手?

    来源:CPDA数据说 转自:CPDA数据说 大家好,我是小z 关于用户流失分析,总有几个问题是绕不过去的: 用户流失原因调研时不知如何入手? 不知如何才能找到用户真正的流失原因? 不知如何把调研结果应 ...

  6. 这就是搜索引擎:核心技术详解

    这就是搜索引擎:核心技术详解 张俊林 著 ISBN 978-7-121-14865-1 2012年1月出版 定价:45.00 元 16开 320页 宣传语:改变全世界人们生活方式的"信息之门 ...

  7. 方案详解|AARRR+八角行为分析=用游戏化思维实现用户增长

    我们需要一套基于AARRR模型,围绕增长成本.效率.质量三个话题来针对每一层转化漏斗提炼可操作的运营方案,以AARRR模型+八角行为分析法为理论框架的,游戏化运营增长策略应运而生.随着互联网线上流量的 ...

  8. php操作ElasticSearch搜索引擎流程详解

    更多python.php教程请到友情连接: 菜鸟教程https://www.piaodoo.com 茂名一技http://www.enechn.com ppt制作教程步骤 http://www.tpy ...

  9. Linux操作命令分类详解 - 用户权限(三)

    转自:Linux操作命令分类详解 - 用户权限(三),更优阅读体验:http://www.kongzid.com/ 目录 系列文章 1.用户账号管理 1.1 useradd/adduser 添加用户账 ...

  10. SQL全方位攻略:5. SQL “方言”大比拼:Oracle、MySQL、PostgreSQL限制检索行数语法详解(分页查询)

    系列文章目录 SQL全方位攻略:1.数据库介绍 SQL全方位攻略:2.SQL介绍 SQL全方位攻略:3.SQL标准 SQL全方位攻略:4. 标准SQL和SQL"方言" 文章目录 系 ...

最新文章

  1. 前端学习笔记系列一:14 vue3.X中alias的配置
  2. Crawler Index Page
  3. 机器学习:信息熵,基尼系数,条件熵,条件基尼系数,信息增益,信息增益比,基尼增益,决策树代码实现(一)
  4. python学习(三)--跟着例子写的贴吧网页爬取
  5. c++用什么软件编程_为什么要学习“C”编程语言?
  6. ios numlock_从“提示”框:默认情况下启用NumLock,无广告的iOS应用和立体声供电的派对灯...
  7. MSP430学习笔记2---两个LED同时亮灭和顺闪
  8. 基于私有云的数据库高可用架构实践
  9. androidstudio自动生成变量_Android Studio 安装教程
  10. X79双cpu linux,Sandy Bridge-E处理器、X79芯片组详尽官方规格
  11. openstack tungsten fabric/contrail中虚拟机yum出现could not retrieve 14: curl#7 - “Failed to connect to
  12. 二叉树:前序与后序、前序与中序以及中序与后序相同、相反的特征
  13. 大厂字节程序员薪资曝光:排行世界第五厉害了
  14. SM系列国密算法简介
  15. 校验一,两位小数0-999999.99,填写其他内容提示“成绩填写有误”
  16. fastreport中文乱码问题
  17. Paper reading (九十一):Bifidobacterium breve Bif195 Protects Against Small-Intestinal Damage
  18. Hadoop修改slaves的主机名,所要修改的文件
  19. windows下8080端口被占用解决方法
  20. 一些网络安全的工具软件的介绍

热门文章

  1. stm32GPIO8种模式
  2. 使用UITextField去自定义searchBar 【iOS】
  3. ruby入门tips
  4. 第一次 Zul'grub
  5. 全球最厉害的14位程序员!你知道有哪几位?
  6. R语言与优化模型(一):规划问题和运输问题
  7. 集中火力 专项击破|数据分析可视化广深线下培训火热来袭
  8. spring boot 报错
  9. 数据结构基础(3)---C语言实现单链表
  10. Javascript技术之详尽解析event对象