影响索引长度的因素

本文节选自《深入搜索引擎——海量信息的压缩、索引和查询 》一书 序言

词根化处理和大小写折叠的基本目的是为了构造简单的查询, 但是随之而来的是额外的好处,即倒排文件大小显著地降低了。主要有两个原因,首先只需要存储更少的倒排列表,需要那些存储的倒排列表变得稠密。按每个指针计算,存储代价更小79;其次文档中的术语平均频率增加了,因此整个指针将会更少。

例如,在大小写折叠和词根化处理后,对于TREC文档集合,索引的指针数粗略地计算大约降低了16%。采用Golomb编码的索引大约降低了30%,然而这种来自词根化索引的空间节省必然会在某种程度上抵消存储具有词根化能力的字典(lexicon)的空间耗费80。一个未词根化且无大小写折叠的字典能够在系统的文本压缩组件(text compression components)间,以及索引子系统中共享,但是词根化的字典不能。在TREC文档集合中,字典大约需要5 MB。权衡地看,依然是词根化更好些,大约能节省35 MB。 在签名文件中,词根化和大小写折叠的效果将会把每个记录中出现的非重复术语的数量降低。因此降低了能够满足给定的错配率所需的签名宽度,这样相似的节省还会不断增多。对于位图索引,较少的词需要被索引。因此节省也会增多,与倒排文件及签名文件类似的缩减结果也就显而易见了。

相关文章:    深入搜索引擎的关键——索引

深入搜索引擎——海量信息的压缩、索引和查询

更多精彩资源:
    设计博客    http://www.cnblogs.com/designbook
    博客园:    http://www.cnblogs.com/broadview/
    Web开发专栏    http://blog.csdn.net/broadviewwebdev
    嵌入式    http://blog.mcuol.com/Broadview/index.htm
    程序设计专栏http://blog.csdn.net/broadviewprograming
    数据库专栏    http://blog.csdn.net/broadviewdatabase
    Phpchina:    http://www.phpchina.com/home/space.php    
    Cn-java:    http://www.cn-java.com/www1/?564186/    
    Itpub:    http://space.itpub.net/13164110/

搜索引擎中影响索引长度的因素相关推荐

  1. mysql中影响数据库性能的因素讲解

    mysql中影响数据库性能的因素讲解 在本篇文章中我们给大家讲述了mysql中影响性能的因素以及相关知识点内容,有兴趣的朋友参考下 关于数据库性能的故事 面试时多多少少会讲到数据库上的事情," ...

  2. Mysql 唯一索引长度_关于mysql索引长度的相关内容总结

    MySQL优化之-索引具体代码分析:索引是在存储引擎中实现的,因此每种存储引擎的索引都不一定完全相同,并且每种存储引擎也不一定支持所有索引类型.根据存储引擎定义每个表的最大索引数和最大索引长度.所有存 ...

  3. 网页中标签对搜索引擎的影响

    对于高级的搜索引擎来说,html 的meta 标签并不是什么新奇的东西.但是无论如何它是一个优秀网页不可缺少的.因为meta标签是内嵌在你网页中的特殊html标签,包含着你有关于你网页的一些 隐藏信息 ...

  4. SEO优化中影响网站关键词排名的因素有哪些?

    网站在进行优化的过程中,关键词排名一直都是优化师比较关心的.网站的排名以及能否上搜索引擎首页也跟关键词有着很大的关系,关键词也成了最直观最可考证执行成果,也变成企业网络推广的一种竞争方式,成为人们较为 ...

  5. java优化上传速度慢怎么办_网站建设中影响网站优化的一些因素

    一个网站建设的后期运营,要想网站能够有更好的排名.有更多的流量.有更好的推广效果,那么对网站进行优化是必不可少的一件事情.所以企业开始对网站优化越来越重视,那么在网站制作过程中应该考虑哪些因素对网站优 ...

  6. 微信搜索引擎中索引的分布式演进

    一.引言 提起分布式,不少人能很清晰的阐述paxos.CAP等理论,但我们在遇到一个具体的分布式问题时,很少有人能知道如何做出一个"好"的设计.对于当前的很多分布式数据系统,包括开 ...

  7. 【Unity】Unity中影响性能的几个因素

    影响性能的因素 首先,我们得了解,影响游戏性能的因素哪些,才能对症下药.对于一个游戏来说,有两种主要的计算资源:CPU和GPU.它们会互相合作,来让我们的游戏可以在预期的帧率和分辨率下工作.CPU负责 ...

  8. mysql修改索引对交易影响吗_MySQL中字符串索引对update的影响分析

    本文分析了mysql中字符串索引对update的影响.分享给大家供大家参考,具体如下: 对某一个类型为varchar的字段添加前缀索引后,基于该子段的条件查询时间基本大幅下降:但对于update操作, ...

  9. 机器视觉:系统中影响图像质量的因素有哪些?

    机器视觉:系统中影响图像质量的因素有哪些? 对于机器视觉系统来说,图像质量是直接影响最终图像处理结果的关键因素.特别是在自然光照条件下,图像质量随着光源条件的变化会有明显的不同.对诸如"增益 ...

  10. 全面质量管理理论中的五个影响产品质量的主要因素

    早上看书看到一句话说的很有道理,理论来与实践,高于实践 然后讲到一个案例:说订单激增的情况下,怎么能在现有的情况下完成? 有的人说是找外包.招人等等,这些别人肯定也能想到,这时候应该说我什么时候可以去 ...

最新文章

  1. 19行关键代码,带你轻松入门PaddlePaddle单机训练
  2. 定期存款单的mysql编写程序_MySQL 调优和使用必读
  3. 带left join 的sql的执行顺序
  4. 使用域超级管理员打开Exchange 2010发现没有权限
  5. open ssl里面的自定义get***函数失效
  6. 循环 直到 python_如果您在Python中存在慢循环,则可以对其进行修复……直到无法解决为止...
  7. [APEC中小企业峰会2009上]成功企业 = 理想主义 + 现实主义
  8. mysql 存储过程改用户_Mysql修改存储过程相关权限问题
  9. Ubuntu创建python虚拟环境
  10. TMS320C55x之C/C++语言程序设计
  11. 拓端tecdat|R语言分位数回归预测筛选有上升潜力的股票
  12. systemback Linux 系统备份、迁移
  13. DELPHI利WMI获得硬盘参数
  14. ANSYS中压电材料的参数分析
  15. Python 撞库与防御策略
  16. 实现用户行为监测之webfunny
  17. *TEST 10 for NOIP 迷幻测试 (230/300)
  18. python+websocket匿名聊天室实现
  19. 论文分享(一) CVPR 2018 Defense against Universal Adversarial Perturbations
  20. oracle补位函数 不足位数补0

热门文章

  1. thinkphp框架知识点
  2. 删除数据所有的表和存储过程
  3. 自定判断代码的执行环境
  4. 一个人独立完成一个网站上线的前前后后
  5. C#判断一个string是否为数字 --zt
  6. 使用hiredis接口(Synchronous API)编写redis客户端
  7. 部署 kubectl 命令行工具
  8. C/C++语法知识点汇总
  9. java.io.IOException: Could not find status of job:job_1534233312603_0002
  10. ubuntu16.04登录后无dash,无启动栏launch,无menu bar,只有桌面背景解决办法