这部分是在读《开发自己的搜索引擎》第二版,邱哲、符滔滔、王学松编著,人民邮电出版社,的随手笔记与猜想。若有不足之处还请不吝赐教,以不断完善之。

搜索引擎与信息检索

  1. 信息检索的过程:

    构建文本库、建立索引、进行搜索、返回结果以前对结果进行过滤。

  2. 倒排索引

    常用的索引方式有3种,分别是倒排、后缀数组和签名文档。

    从理论上说,倒排是一种面向单词的索引机制。通常,由词(关键字)和出现情况两部分组成。对于索引中的每个词(关键字),都跟随一个列表(位置表),用来记录单词在所有文档中出现的位置。

Lucene入门实例

  1. Lucene充当的是一个全文索引工具的角色,因此,为了使用它,需要制造一个全文索引的环境。

  2. 开发过程:

    对要进行查找的文档进行预处理

    将大文档切分成多个小文档

    创建eclipse工程并编写代码

    效果测试

  3. je-analysis是一个负责分词的。

  4. 通常情况下,使用Lucene的步骤如下所示:

    为要处理的内容建立索引

    构建查询对象

    在索引中查找

  5. Lucene中的Field类是文档索引期间很重要的类,控制着被索引的域值

    http://blog.csdn.net/zhaoxiao2008/article/details/14180019

  6. 创建索引

开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门相关推荐

  1. 《android开发艺术探索》读书笔记(五)--RemoteViews

    接上篇<android开发艺术探索>读书笔记(四)--View工作原理 No1: RemoteViews使用场景:通知栏和桌面小部件 No2: 通知栏主要通过NotificationMan ...

  2. Android深度探索--HAL与驱动开发----第五章读书笔记

    第五章主要学习了搭建S3C6410开发板的测试环境.首先要了解到S3C6410是一款低功耗.高性价比的RISC处理器它是基于ARMI1内核,广泛应用于移动电话和通用处理等领域. 开发板从技术上说与我们 ...

  3. 《Android开发艺术探索》读书笔记

    一.前言 花了几天整理完<Android进阶之光>的读书笔记,效果不是很满意,把以前零散整合成一片超长笔记,总感觉也不是那么好,决定接下来读书笔记还是拆开来,以后也好查找一点. 二.目录 ...

  4. 《android开发艺术探索》读书笔记(二)--IPC机制

    接上篇<android开发艺术探索>读书笔记(一) No1: 在android中使用多进程只有一种方法,那就是给四大组件在AndroidMenifest中指定android:process ...

  5. 读书笔记——《Python编程从入门到实践》第二章

    读书笔记--<Python编程从入门到实践>第二章 读书笔记--<Python编程从入门到实践>第二章 变量 如何使用变量 如何规范变量命名 字符串 字符串是什么 如何修改字符 ...

  6. 《程序员的思维修炼--开发认知潜能》读书笔记

    转载原因] 我们很多人都会遇到这样的问题:刚刚看的书,却发现把书本一合上就啥都不记得了!比如,昨天阅读了<Spring in action>的第一章(总共三大章).当时觉得书很不错,虽然翻 ...

  7. 《音视频开发进阶指南》读书笔记(一) —— 音视频基础概念

    前言 最近要学音视频,在图书馆借到这本<音视频开发进阶指南>,读了一段时间觉得挺好就在某宝买了. 以后一段时间应该都会沉浸在研究音视频中,开个专题记录哈每一章的读书笔记吧(以iOS开发的角 ...

  8. 《设计模式与游戏完美开发》——第二周读书笔记

    在上一周的读书笔记中,我介绍了设计模式的概念.目的是什么,以及最后的最重要的面向对象的七大原则,在这篇读书笔记中,我要介绍其中的一种设计模式:状态模式. PS:这本书主要是以一个小游戏<p阵地& ...

  9. 《Android开发艺术探索》读书笔记 (3) 第3章 View的事件体系

    本节和<Android群英传>中的第五章Scroll分析有关系,建议先阅读该章的总结 第3章 View的事件体系 3.1 View基本知识 (1)view的层次结构:ViewGroup也是 ...

最新文章

  1. 2022-2028年中国冶金工业节能减排投资分析及前景预测报告
  2. 快速求区间和的有趣算法——树状数组
  3. java json 去重_js操作两个json数组合并、去重,以及删除某一项元素
  4. 【深度学习】编写同时在PyTorch和Tensorflow上工作的代码
  5. Dist类系列(一):根据字典的key值、value值进行排序
  6. 两个时间之间是多少小时_那是两个小时我不会回来
  7. 华为机试HJ36:字符串加密
  8. ODBC访问数据库(转载)
  9. Python学习之购物车
  10. 计算机网络的分类 ppt,认识计算机网络ppt
  11. Java面向对象编程(第2版)pdf
  12. 关于ubuntu20.04通过Software and updates安装NVIDIA驱动
  13. SQL Server高级编程
  14. vmbox设置ubuntu共享文件夹_为什么共享文件夹、打印机访问还是受限?这几个设置解决90%问题...
  15. ITSS-信息技术服务运行维护标准符合性认证
  16. 推荐一些坚持原创的公众号
  17. 红帽RHCE考试 VSFTP强化实战
  18. 学习英特尔线程构建模块开源2.1库
  19. XML教程(4)---皇家的术士(初涉XSL)
  20. 我是僵尸生存java_我的世界1.6.2我是僵尸整合包

热门文章

  1. 2的2.8次方用计算机怎么算,计算器2.8e9是多少,谢谢
  2. CV未来,路在何方?李飞飞指路
  3. PR预设.Mogrt 文件安装使用方法
  4. 数据库中update怎么用事例_MySQL中UPDATE语句使用的实例教程
  5. C++多线程矩阵相乘
  6. 计算复杂性理论初步(一)多项式时间归约
  7. 一种简陋的CC1100/CC1101主从通信协议
  8. el-date-picker中自定义快捷选项picker-options,动态设置禁用日期
  9. java毕业设计心理咨询管理系统mybatis+源码+调试部署+系统+数据库+lw
  10. 用python 和 flask 建立Web API 的简单入门