深入搜索引擎——海量信息的压缩、索引和查询

本文节选自《深入搜索引擎——海量信息的压缩、索引和查询 》一书 序言

译者序   
    1998年从美国斯坦福大学产生了一段传奇的财富神话,这就是今天市值约千亿美元的Google。众所周知,Google 正是由Lawrence Page在斯坦福大学发起的研究项目转变而来的。正是由于斯坦福大学对全球信息检索的杰出贡献,译者从事相关研究的时候也曾阅读了大量出自斯坦福大学的课件、论文和推荐教材。
    在这些资源 中,《Managing gigabytes》,简记做“MG”,是其中一本极其重要的书籍。在译者集中学习信息检索的2005年,这本书是斯坦福大学信息检索和挖掘课程 的首选教材之一,和MIR 一起成为全球主要大学信息检索的主要教材。
    MG深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。本书理论性较强,公式众多,很多数据的给出并没有做具体的解释,此外还包括一些文化背景差异带来的理解障碍。但是作者和译者联手为大家奉献了412个注解,协助大家更好地理解本书。
    和MIR不同的是,MG更加具有实践性,这得益于3位作者精心编写的MG检索引擎,该检索引擎被实践证明具有很强的易用性和伸缩性,附录B介绍的新西兰电子图书馆就使用了MG代码作为其内核。MG源代码可以在原著的官网上找到。本书绝大部分算法和思想都在代码中被完整体现,是不可多得的学习和实践材料。
本书主要面向信息检索专业方向的研究生、从事搜索引擎相关工作和其他对搜索技术感兴趣的人们,除了从书中获取严谨的理论知识以外,还可在MG源代码上展开实际的研究。无论从哪一点来看,本书都是非常好的研究起点。
    本书作者Ian H.Witten,Alistair Moffat和Timothy C.Bell均是信息检索领域赫赫有名的专家,特别是Timothy C.Bell教授在本书的翻译过程中给予了巨大的帮助,同时译者也为原著的勘误做出了贡献 。
最后要特别感谢包括原著3位作者在内的信息检索专家们无私地分享了他们的技术成果,并且感谢博文视点出版社大力引进,编辑孙学瑛女士及方方面面工作人员给予的帮助。由于译者能力有限,若有翻译不当之处,欢迎发送电子邮件至mgigabyte@gmail.com批评指正。
    最后引用本书中的一段原话作为结尾:“在信息科学技术的历史上,从来没有像今天这样,创造如此大的价值的如此多的技术却掌握在如此少的人的手里。”希望能够和原著的作者一样做出自己一份微薄的贡献。

梁斌
2009年2月15日

更多精彩资源:
    设计博客    http://www.cnblogs.com/designbook
    博客园:    http://www.cnblogs.com/broadview/
    Web开发专栏    http://blog.csdn.net/broadviewwebdev
    嵌入式    http://blog.mcuol.com/Broadview/index.htm
    程序设计专栏http://blog.csdn.net/broadviewprograming
    数据库专栏    http://blog.csdn.net/broadviewdatabase
    Phpchina:    http://www.phpchina.com/home/space.php    
    Cn-java:    http://www.cn-java.com/www1/?564186/    
    Itpub:    http://space.itpub.net/13164110/

深入搜索引擎——海量信息的压缩、索引和查询相关推荐

  1. 微服务03 分布式搜索引擎 elasticsearch ELK kibana RestAPI 索引库 DSL查询 RestClient 黑马旅游

    分布式搜索引擎01 -- elasticsearch基础 0.学习目标 1.初识elasticsearch 1.1.了解ES 1.1.1.elasticsearch的作用 elasticsearch是 ...

  2. 关于搜索引擎:搜集、分析、索引、查询。

    1. 图的遍历方法有两种,深度优先和广度优先.搜索引擎中的爬虫是通过广度优先策略来爬取网页的.搜索引擎为什么选择广度优先策略,而不是深度优先策略呢? 搜索引擎要优先爬取权重较高的页面,离种子网页越近, ...

  3. 直播预告 | 如何在有限数据下实现资讯类网站海量信息自动分类

    一个审核员一天只能审核5000条文本信息,而在线的UGC资讯网站往往平均一个小时接收的文本信息可能超过百万条.与此同时,还需要将杂乱的内容进行分类并发布到不同的专栏页面--信息爆炸的时代,海量信息的处 ...

  4. 转://Oracle 复合压缩索引场景及性能对比

    摘要:今天为什么提到这个话题,出于一个偶然,一个同事在优化新开发的系统时向我请教如何添加复合压缩索引的问题.我总结了一下,问题有三. 第一:需不需要压缩 第二:对第几列压缩 第三:性能对比,选出最优 ...

  5. elasticsearch——海量文档高性能索引系统

    elasticsearch elasticsearch是一个高性能高扩展性的索引系统,底层基于apache lucene. 可结合kibana工具进行可视化. 概念: index 索引: 类似SQL中 ...

  6. 【Elasticsearch】elasticsearch 压缩索引 shrink

    1.概述 关于索引的一些解读,请参考: [Elasticsearch]elasticsearch 索引 详解 官网 压缩索引 shrink shrink命令可以将一个已有的索引压缩成一个新的索引,同时 ...

  7. 存储新纪元:在DNA存储海量信息,商业化才是硬道理

    概述:如今,将数据信息存储在DNA上的成本已经足够便宜,因此该技术有望实现商业化. 数据已经是21世纪不可或缺的东西,当然数据存储也就成了人们重点关心的,没有足够的容量去存储,数据不断的流失这也是很大 ...

  8. 海量信息,哪一类收获最多?

    面对海量的信息和知识分享,你是否思考过所接收到的信息属于什么类别,哪一类让你收获最多? 知识按照"浓度"的不同大致可以分为四类:经历.经验.方法.理论.它们的知识浓度依次增加. 如 ...

  9. 网络安全之 社工 ​使用谷歌搜索引擎收集信息​

    使用谷歌搜索引擎收集信息 1,善用index of搜索下载目录下文件 //搜索下载图书馆的CNKI,VIP,等入口: "index of /"cnki//搜索下载网站目录下的PPT ...

  10. 小福利,带你使用scrapy框架爬取苏宁图书海量信息

    大家好,我是天空之城,今天给大家带来小福利,带你使用scrapy框架爬取苏宁图书海量信息 下图为项目的目录结构 看下最后的数据截图,可以存为excel文件,也可以存入mysql数据库,参见前面文章介绍 ...

最新文章

  1. php可以定义数组的常量吗
  2. web.py——运行错误【AttributeError: ‘StaticApp‘ object has no attribute ‘directory‘】
  3. Leetcode 260. 只出现一次的数字 III
  4. POJ 1054 The Troublesome Frog(枚举 + 剪枝)
  5. jQuery实现Ajax应用
  6. Java基础知识强化68:基本类型包装类之Character概述和Character常见方法
  7. C++设计模式详解之工厂模式解析
  8. WEB2.0 XHTML代码规范
  9. 今晚十点!鄂尔多斯将屏霸湖南卫视《天天向上》,美爆全国~
  10. lamp一键安装包+linux,linux下的lanmp/lamp/lnmp一键安装包
  11. 文本匹配、文本相似度模型之DSSM
  12. js 翻转数组 倒序排列
  13. Mark,road-stone 2012-7-7
  14. 梦想cms-v1.4-后台存在任意文件读取漏洞
  15. CentOS 根目录下目录介绍
  16. Spring Boot Admin配置安全验证
  17. ubuntu借助windows的网络共享上网
  18. 关于未来人工智能时代的一点感想
  19. 公共场所的标志和说明英文表达100例
  20. 2021最新上海互联网公司排名

热门文章

  1. 简单使用NSURLConnection、NSURLRequest和NSURL
  2. 33.前端之css2
  3. C++ VS Java 系列 —— 访问控制
  4. InnoDB配置文件复习
  5. python 进程间共享数据 (三)
  6. 网站日志分析工具:WebLog Expert Lite
  7. 忙了好一阵子了 才记起来我的博客园
  8. 应用jQuery实现表格数据的动态添加与统计
  9. 存储过程中的事务实现
  10. ACL'22 | 基于强化学习的实体对齐