截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。 截词检索一般是指右截词,部分支持中间截词。截词检索能够帮助提高检索的查全率。

中文名

截词检索

应用范围

计算机性    质

常用检索技术

常用方法

后截词和中截词

截词检索分类

编辑

语音

在截词检索技术中,较常用的是后截词和中截词两种方法。如果按所截断的字符数目来分,有无限截词和有限截词两种。截词算符在不同的系统中有不同的表达形式,需要说明的是并不是所有的搜索引擎都支持这种技术。

截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。

不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。下面以无限截词举例说明:

(1)后截断,前方一致。如:comput?表示computer,computers,computing等。

(2)前截断,后方一致。如:?computer表示minicomputer,microcomputer等。

(3)中截断,中间一致。如?comput?表示minicomputer,microcomputers等。

截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。

截词检索后截词

是指检索结果中单词的前面几个字符要与关键字中截词符前面的字符相一致的检索。具体包括:

(1)有限后截词 主要用于词的单、复数,动词的词尾变化等。如books可用book?代表,其中截词符?(也称为通配符)可以用来代替0个或1个字符,因此,book?可检索出包含有book或books词的记录;acid??可检索出含有acid,acidic 和acids的记录。

(2)无限后截词 主要用于同根词。如solubilit用solub*处理,可检索出含有solubilize,solubilization,soluble等同根词的记录。由此可知,在词根后加一个"*",表示无限截词符号。

截词检索中截词

中截词也称屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。如organi?ation可检索出含有organisation和organization的记录。由此可知,中截词使用的符号为"?",即用"?"代替那个不同拼写的字符。

从以上各例可知,使用截词检索具有隐含的布尔逻辑或(OR)运算的功能,可简化检索过程。

截词检索截词检索方式

编辑

语音

截词检索的方式有多种,可以分为有限截词、无限截词和中间截词。

截词检索有限截词

有限后截词主要用于词的单、复数,动词的词尾变化等。将“n”个截词符放在检索词(关键词、主题词)的词干或词尾可能变化的位置上。

截词检索中间截词

一般来说,中间截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。例如:wom?n woman women

截词检索无限截词

截去某个词的尾部,是词的前方一致比较,也称前方一致检索。在检索词(关键词、主题词)干后加1个截词符 “?”或“*”。表示该词尾允许变化的字符数不受任何限制。例如:comput* 可检索出 computer、computing、computers、computering、computeriation 等词的记录。 任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。采用截词检索时,既要灵活、又要谨慎,截词的部位要适当,如果截得太短(输入的字符不得少于3个),将影响查准率。另外,不同的检索系统使用的截词符不同、各数据库所支持的截断类型也不同。

截词检索其他检索方式

编辑

语音

截词检索布尔逻辑检索(Boolean)

对于常见的三种布尔逻辑算符AND,OR,NOT,在搜索引擎中,该功能则表现不同。首先是受支持的程度不同,"完全支持"全部三种运算的搜索引擎有InfoSeek,AltaVista和Excite等;在其"高级检索"模式中"完全支持",而在"简单检索"模式中"部分支持"的有HotBot,Lycos等。其次是提供运算的方式不同:大部分搜索引擎采用常规的命令驱动方式,即用布尔算符(AND,OR,NOT)或直接用符号进行逻辑运算,如 AltaVista、Excite;有的用“+”和“-”号替代“ AND/NOT”进行运算;也有部分引擎使用菜单驱动方式,用菜单选项来替代布尔算符或符号进行逻辑运算,如 HotBot,Lycos中均提供了两个菜单"All the words"和"And of the words"分别代表 AND和OR运算,天网的"精确匹配"、"模糊匹配"原理与此相似。

截词检索词组检索(phrase)

词组检索是将一个词组(通常用双引号""括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。词组检索实际上体现了临近位置运算(Near运算)的功能,即它不仅规定了检索式中各个具体的检索词及其相互间的逻辑关系,而且规定了检索词之间的临近位置关系。几乎所有的搜索引擎都支持词组检索,并且都采用双引号来代表词组,如"信息教育"。但在Infoseek中,除了用双引号外,还使用了短横线"-"来代表词组,如 digital-library-definition,区别在于以"-"表示的词组不区分大小写。

截词检索截词检索(truncation)

截词检索也是一般数据库检索中常用的方法。但在一般的数据库检索中,截词法常有左截、右截、中间截断和中间屏蔽4种形式。而在搜索引擎中,多只提供右截法。而且搜索引擎中的截词符则通常采用星号*。如educat*。相当于education+educational+educator。

截词检索字段检索(fields)

字段检索和限制检索常常结合使用,字段检索就是限制检索的一种,因为限制检索往往是对字段的限制。在搜索引擎中,字段检索多表现为限制前缀符的形式。如属于主题字段限制的有:Title,Subject,Keywords,Summary等。属于非主题字段限制的有:Image,Text等。作为一种网络检索工具,搜索引擎提供了许多带有典型网络检索特征的字段限制类型,如主机名(host);域名(domain);链接(link);URL(site);新闻组(newsgroup)和 E-mail限制等。这些字段限制功能限定了检索词在数据库记录中出现的区域。由于检索词出现的区域对检索结果的相关性有一定的影响,因此,字段限制检索可以用来控制检索结果的相关性,以提高检索效果。在著名的搜索引擎中,能提供较丰富的限制检索功能的有 AltaVista,Lycos和 Hotbot等。

截词检索位置检索

在搜索引擎中,能提供位置检索的的较少。如AltaVista,而且它能提供的位置运算也只有一种,即临近位置运算(Near运算),不如常见数据库检索丰富。

词条图册

更多图册

单元词检索计算机,截词检索相关推荐

  1. 利用计算机运算符编写检索式,计算机信息检索过程中常用的检索表达式

    信息检索过程中常用的检索表达式 检索表达式是检索策略的具体体现之一,简称检索式.检索式一般由检索词和各种逻辑运算符组成.具体来说,它是用检索系统规定的各种算符将检索词之间的逻辑关系.位置关系等连接起来 ...

  2. 用计算机进行论文检索应用,计算机检索论文摘要怎么写 计算机检索论文摘要范文参考...

    [100篇]免费计算机检索论文摘要范文,可作为优秀计算机检索论文摘要写作参考,适合计算机检索方面本科论文和硕士论文以及职称论文相关摘要写作范文格式模板参考,[快快阅读吧!] 第一篇论文摘要:基于计算机 ...

  3. 单元词检索计算机,单元词法

    相关文献 第五章单元词描述语言 第一节单元词法的原理 一.单元词法的构成原理 单元词法脱胎于标题法,它是作为对标题法先组式标识的改革而出现的.单元词法目前已发展为叙词法.了解它的原理.方法和性能,有助 ...

  4. ASO检索规则-热词覆盖如何来做?

    ONE 关于ASO优化 什么是检索规则?检索规则主要是按照APP中设置的应用标题.副标题.关键词.开发商名称,按照匹配度的大小和权重比例进行有效的检索显示的规则.通俗的来说,也就是大家经常谈到的热词覆 ...

  5. 对句子分词,找到对应词的腾讯词向量模型并使用Python进行faiss检索

    目录 一.下载腾讯的词向量 二.停用词 三.代码部分 3.1.代码思想 四.输出结果 本文主要是将句子分词转向量,再加总词向量求平均变为句子向量.接着再存储到faiss中.等待新句子到来,同样按照上述 ...

  6. 计算机检索技术与技巧的检索式为,第四章计算机检索技术和数据库检索方式.ppt...

    第四章计算机检索技术和数据库检索方式 第四章 计算机信息检索的基本技术与方法 一.计算机信息检索的基本技术: 布尔逻辑.截词检索.加权检索,位置算符等. 在进行计算机检索时,有时有一些比较复杂的课题, ...

  7. 计算机类文献检索考试题,文献检索试题精选2

    文献检索试题精选2 1.在SCI E数据库检索高晋生老师发表的文章,检索式正确的是: A.AU=gao jinsheng B.AU=gao js C.AU=js gao D.AU=gao, J-S B ...

  8. 计算机检索高级教程,SCI检索高级教程

    <SCI检索高级教程>由会员分享,可在线阅读,更多相关<SCI检索高级教程(166页珍藏版)>请在人人文库网上搜索. 1.Web of Science,研究领域出现频率最高的词 ...

  9. 关于计算机网络安全的检索报告,文献检索综合报告 计算机网络安全维护与网络病毒防治.doc...

    文献检索综合报告 计算机网络安全维护与网络病毒防治 系.专业:信息工程系07网络工程 学生姓名: 学 号: 完成时间:2010年10月30日 目 录 1.课题分析 2.检索策略 2.1 选择 2.2 ...

  10. 检索报告计算机类,综合检索报告

    文献检索课综合检索 姓名 _________ 班级 _______ 学号 ________ 老师 ________ 根据所学专业,结合自己的兴趣,自己拟定检索课题,课题必须包含主题词和副主题词,就同一 ...

最新文章

  1. 数据结构与算法:06 线性表
  2. freebsd用户密码文件
  3. Pycharm的.py文件的导入
  4. PHP面试题:你所知道的php数组相关的函数?
  5. HihoCoder - 1457 后缀自动机四·重复旋律7(后缀自动机)
  6. Rplidar学习(五)—— rplidar使用cartographer_ros进行地图云生成
  7. Codeforces Round #766 (Div. 2) D. Not Adding 数学gcd
  8. PostFix邮件网关无法向公网投递邮件问题分析
  9. LSOF 安装与使用
  10. Java中生成随机数的4种方式!
  11. oracle创建表空间
  12. kaggle之共享单车案例
  13. 【不三不四的脑洞】大龄程序猿 “奇葩” 相亲记 | 年中总“劫”
  14. 毕业这么多年,为啥升职加薪这么难?
  15. pppd详解_pppd拨号脚本说明文档
  16. 01 hbuilder账号的注册
  17. 实现小说自由,国产浏览器出手了,吊打各类阅读软件
  18. linux 4t磁盘格式化,Ubuntu 16.04系统挂载4T硬盘
  19. Science | 植物和微生物的新途径:与共生微生物和病原微生物的相互作用驱动植物进化!...
  20. 解析旅游商业模式---共享旅游电商:这个行业大有可为!

热门文章

  1. 最长山脉 python
  2. c语言学籍信息系统,c语言学籍信息管理系统设计
  3. 算术平均值c语言函数名称,求算术平均数和集合平均数的源代码
  4. Https网站中请求Http内容
  5. 马赛克密码破解——GitHub 热点速览 Vol.50
  6. 从零开始学习 JD CHAIN(一)- 快速部署 JD CHAIN
  7. 电脑需不需要安装杀毒软件?
  8. python+OpenCV jpg图片的压缩
  9. Java设置PPT幻灯片背景——纯色、渐变、图片背景
  10. Unity 资源池,对象池,Object Poor