Lemur Toolkit是一个新兴的实验系统。它由卡耐基-梅隆大学(CMU)开发,在2001年公布了第一个公开的版本,目前最新版本是4.6。其特点是在检索中引入了语言模型,更重要的是,它不仅是一个完整的检索系统,而且是以工具包的形式提供的。各功能模块都有良好的封装,并提供清晰的源代码和丰富的文档说明,研究者使用它搭建自己的实验系统易如反掌。

Lemur Toolkit的设计目标是促进和帮助在文本信息检索和语言模型方面的研究,包括特定目标检索、分布式检索、跨语言检索、文摘系统、信息过滤和文本分类等各方面技术的研究。工具包支持对大规模文本数据建立索引,对文档和查询构建简单的语言模型,同时实现了基于语言模型的检索系统。整个系统用C和C++语言实现,可在Unix和Windows系统下运行。

Lemur Toolkit支持XML检索,以下分析Lemur Toolkit的结构时,是针对XML检索和查询部分。

参数文件

Lemur在windos下建立索引, 是在命令行下运行以下命令:

IndriBuildIndex.exe parameter file

Lemur是根据指定的配置文件parameter file来对XML文档集建立索引的。parameter file是一个包含建立索引时必要信息的XML文件。一个参数文件的样例如下:

<parameters>

<index>F:/xmltest/index</index>

<corpus>

<path>F:/xmltest/testdoc</path>

<class>xml</class>

</corpus>

<memory>128m</memory>

<stemmer>

<name>krovetz</name>

</stemmer>

<stopper>

<word>a</word>

<word>an</word>

<word>the</word>

</stopper>

<field>

<name>title</name>

</field>

<field>

<name>author</name>

</field>

</parameters>

Index:表示创建后的索引存放的目录,示例的配置文件表示把索引存放在索引存放在F:/xmltest/index目录下面。

Corpus:表示要创建索引的XML文档集。示例的配置文件表示把F:/xmltest/testdoc目录下的XML文档集建立索引;class表示文档集的类型,Lemur支持html、txt、xml、pdf等类型。

Memory:使用128M的内存建立Memory Index(Memory Index参见2.2.5节),Lemur在把XML文档解析后,建立的索引先放在内存的Memory Index,当Memory Index耗尽后,就把Memory Index存放的部分索引保存到硬盘上,之后清空Memory Index存放余下的XML文档建立的索引,当索引完整个XML文档集之后,把硬盘上的所有部分索引归并,形成一个最终的索引。

Stemmer:表示取词根的方法,Lemur支持Krovetz和Porter 这两种方法。

Stopper:表示stopper word的列表。

Field:在文档集中要索引的元素结点,没指定的不建立索引。示例的配置文件表示只对XML文档集中title或author的元素结点建立索引。并后的这样在处理比较大型的文档集时非常不方便,因为不能预先知道文档集中元素结点的名字,所以系统默认的建索引方式有待改进。

Lemur在windos下执行查询, 是在命令行下运行以下命令:

IndriRunQuery.exe parameter file

Lemur是根据指定的配置文件parameter file来执行查询的。一个配置文件的样例如下:

<parameters>

<index>d:/test/index</index>

<memory>128m</memory>

<query>

<number>2</number>

<type>nexi</type>

<text>//artilcle[about(., microkernel operating systems)]</text>

</query>

</parameters>

Index:表示要查询的索引,也就是Lemur在创建索引时,索引存放的目录;

Memory:在查询过程中使用的内存的大小;

Query:其中number只标识不同查询的查询,type表明查询语句的类型,Lemur支持inquery和nexi,text表示具体的查询语句。

Lemur的参数文件相关推荐

  1. oracle参数文件initorcl位置,ORACLE参数文件

    ORACLE参数文件 简介 参数文件记录了数据库的配置.在数据库启动时,Oracle要根据参数文件中的参数配置数据库.如果为各个内存池分配多少内存,允许打开的进程数和会话数等.要让数据库启动,必须先读 ...

  2. Oracle的参数文件pfile和spfile

    Oracle中的参数文件是一个包含一系列参数以及参数对应值的操作系统文件.它们是在数据库实例启动时候加载的,决定了数据库的物理 结构.内存.数据库的限制及系统大量的默认值.数据库的各种物理属性.指定数 ...

  3. SAP RETAIL初阶之事务代码MP83 显示一个预测参数文件

    SAP RETAIL初阶之事务代码MP83 显示一个预测参数文件 注:本文是一篇入门级的简单文章,仅适用于SAP REATAIL初学者,SAP零售大拿们可以跳过了. 笔者使用事务代码MP81创建了一个 ...

  4. 《MySQL技术内幕:InnoDB存储引擎第2版》——3.1 参数文件

    3.1 参数文件 在第1章中已经介绍过了,当MySQL实例启动时,数据库会先去读一个配置参数文件,用来寻找数据库的各种文件所在位置以及指定某些初始化参数,这些参数通常定义了某种内存结构有多大等.在默认 ...

  5. Script:找出ASM中的Spfile参数文件

    以下脚本可以用于找出ASM存储中的Spfile参数文件,因为使用asmcmd去查找很不方便,而spfile丢失又是很头大的事情, 所以有一个脚本代劳可以省不少功夫呢! --- listspfiles. ...

  6. Oracle RMAN 还原与恢复(一)--还原服务器参数文件

    一. RMAN 还原与恢复基础 在RMAN 用于中,还原与恢复是两个不同的概念. 还原(restore):指访问先前生成的备份,从中得到一个或多个对象,然后在磁盘上的某个位置还原这些对象. 恢复(re ...

  7. oracle参数文件的本质

    环境: SQL> select * from v$version where rownum=1; BANNER ----------------------------------------- ...

  8. ORACLE初始化参数文件概述

    ORACLE初始化参数文件概述 在9i之前,参数文件只有一种,它是文本格式的,称为pfile,在9i及以后的版本中,新增了服务器参数文件,称为spfile,它是二进制格式的.这两种参数文件都是用来存储 ...

  9. linux下oracle数据库由于参数文件丢失导致的数据库服务启动失败,报“failure in processing system parameters“错误问题解决

    ORA-01078: failure in processing system parameters LRM-00109: could not open parameter file '/data/o ...

最新文章

  1. 没完没了的Cookie,读懂asp.net,asp等web编程中的cookies
  2. 【给自己的小练习2-线段树】
  3. 内卷时代的晋升述职要“想明白”和“讲清楚”
  4. 零基础学Python【二十三、图形化界面设计 】(基础一篇全,欢迎认领)
  5. 《音乐达人秀:Adobe Audition CC实战222例》——1.3 数字录音记录生活越来越便捷...
  6. SpringCloud与Hystrix断路器
  7. 计算机学科技术前沿:第31次中国互联网络发展状况统计报告
  8. FTP、WEB虚拟目录作用
  9. 30岁软件测试转产品_补水抗皱紧致护肤产品盘点 护肤品排行榜前十名适合30-40岁...
  10. 【Mac】Mac 键盘快捷键大全
  11. 黑客工具软件大全100套(转)
  12. NC协议服务器端库登陆失败,NC数据库日常维护
  13. 时空数据模型类型、优缺点
  14. Forth语言简明教程
  15. 1092: 地头蛇PIPI
  16. 钟祥义工与残疾人互动频繁
  17. ARM NEON Intrinsics示例
  18. 数据仓库设计--- 如何设计一个星型模型(示列)
  19. 【控制】自适应控制,模型参考自适应控制,公式推导,有程序有结果图
  20. SQL 函数 —— TRUNCATE详解示例

热门文章

  1. 电脑没有声音怎么办?
  2. Android宫格动态列,在Android app中实现九(n)宫格图片连续滑动效果
  3. 13.Django shell与创建数据
  4. 云管边端架构图_边缘云平台架构与应用案例分析
  5. CIP (基于EtherNet/IP) 协议
  6. [WP/ctfshow/XXE]ctfshow_XXE_web373-378
  7. 学习python的第三节课:字符串
  8. java 椭圆拟合,OpenCV画轮廓的外界圆矩形椭圆等
  9. 关于LaTeX中的正文的字体大小
  10. 构建开放的软件团队文化