开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门
这部分是在读《开发自己的搜索引擎》第二版,邱哲、符滔滔、王学松编著,人民邮电出版社,的随手笔记与猜想。若有不足之处还请不吝赐教,以不断完善之。
搜索引擎与信息检索
信息检索的过程:
构建文本库、建立索引、进行搜索、返回结果以前对结果进行过滤。
倒排索引
常用的索引方式有3种,分别是倒排、后缀数组和签名文档。
从理论上说,倒排是一种面向单词的索引机制。通常,由词(关键字)和出现情况两部分组成。对于索引中的每个词(关键字),都跟随一个列表(位置表),用来记录单词在所有文档中出现的位置。
Lucene入门实例
Lucene充当的是一个全文索引工具的角色,因此,为了使用它,需要制造一个全文索引的环境。
开发过程:
对要进行查找的文档进行预处理
将大文档切分成多个小文档
创建eclipse工程并编写代码
效果测试
je-analysis是一个负责分词的。
通常情况下,使用Lucene的步骤如下所示:
为要处理的内容建立索引
构建查询对象
在索引中查找
Lucene中的Field类是文档索引期间很重要的类,控制着被索引的域值
http://blog.csdn.net/zhaoxiao2008/article/details/14180019
创建索引
开发自己的搜索引擎读书笔记——搜索引擎与信息检索、Lucene入门相关推荐
- 《android开发艺术探索》读书笔记(五)--RemoteViews
接上篇<android开发艺术探索>读书笔记(四)--View工作原理 No1: RemoteViews使用场景:通知栏和桌面小部件 No2: 通知栏主要通过NotificationMan ...
- Android深度探索--HAL与驱动开发----第五章读书笔记
第五章主要学习了搭建S3C6410开发板的测试环境.首先要了解到S3C6410是一款低功耗.高性价比的RISC处理器它是基于ARMI1内核,广泛应用于移动电话和通用处理等领域. 开发板从技术上说与我们 ...
- 《Android开发艺术探索》读书笔记
一.前言 花了几天整理完<Android进阶之光>的读书笔记,效果不是很满意,把以前零散整合成一片超长笔记,总感觉也不是那么好,决定接下来读书笔记还是拆开来,以后也好查找一点. 二.目录 ...
- 《android开发艺术探索》读书笔记(二)--IPC机制
接上篇<android开发艺术探索>读书笔记(一) No1: 在android中使用多进程只有一种方法,那就是给四大组件在AndroidMenifest中指定android:process ...
- 读书笔记——《Python编程从入门到实践》第二章
读书笔记--<Python编程从入门到实践>第二章 读书笔记--<Python编程从入门到实践>第二章 变量 如何使用变量 如何规范变量命名 字符串 字符串是什么 如何修改字符 ...
- 《程序员的思维修炼--开发认知潜能》读书笔记
转载原因] 我们很多人都会遇到这样的问题:刚刚看的书,却发现把书本一合上就啥都不记得了!比如,昨天阅读了<Spring in action>的第一章(总共三大章).当时觉得书很不错,虽然翻 ...
- 《音视频开发进阶指南》读书笔记(一) —— 音视频基础概念
前言 最近要学音视频,在图书馆借到这本<音视频开发进阶指南>,读了一段时间觉得挺好就在某宝买了. 以后一段时间应该都会沉浸在研究音视频中,开个专题记录哈每一章的读书笔记吧(以iOS开发的角 ...
- 《设计模式与游戏完美开发》——第二周读书笔记
在上一周的读书笔记中,我介绍了设计模式的概念.目的是什么,以及最后的最重要的面向对象的七大原则,在这篇读书笔记中,我要介绍其中的一种设计模式:状态模式. PS:这本书主要是以一个小游戏<p阵地& ...
- 《Android开发艺术探索》读书笔记 (3) 第3章 View的事件体系
本节和<Android群英传>中的第五章Scroll分析有关系,建议先阅读该章的总结 第3章 View的事件体系 3.1 View基本知识 (1)view的层次结构:ViewGroup也是 ...
最新文章
- 2022-2028年中国冶金工业节能减排投资分析及前景预测报告
- 快速求区间和的有趣算法——树状数组
- java json 去重_js操作两个json数组合并、去重,以及删除某一项元素
- 【深度学习】编写同时在PyTorch和Tensorflow上工作的代码
- Dist类系列(一):根据字典的key值、value值进行排序
- 两个时间之间是多少小时_那是两个小时我不会回来
- 华为机试HJ36:字符串加密
- ODBC访问数据库(转载)
- Python学习之购物车
- 计算机网络的分类 ppt,认识计算机网络ppt
- Java面向对象编程(第2版)pdf
- 关于ubuntu20.04通过Software and updates安装NVIDIA驱动
- SQL Server高级编程
- vmbox设置ubuntu共享文件夹_为什么共享文件夹、打印机访问还是受限?这几个设置解决90%问题...
- ITSS-信息技术服务运行维护标准符合性认证
- 推荐一些坚持原创的公众号
- 红帽RHCE考试 VSFTP强化实战
- 学习英特尔线程构建模块开源2.1库
- XML教程(4)---皇家的术士(初涉XSL)
- 我是僵尸生存java_我的世界1.6.2我是僵尸整合包
热门文章
- 2的2.8次方用计算机怎么算,计算器2.8e9是多少,谢谢
- CV未来,路在何方?李飞飞指路
- PR预设.Mogrt 文件安装使用方法
- 数据库中update怎么用事例_MySQL中UPDATE语句使用的实例教程
- C++多线程矩阵相乘
- 计算复杂性理论初步(一)多项式时间归约
- 一种简陋的CC1100/CC1101主从通信协议
- el-date-picker中自定义快捷选项picker-options,动态设置禁用日期
- java毕业设计心理咨询管理系统mybatis+源码+调试部署+系统+数据库+lw
- 用python 和 flask 建立Web API 的简单入门