文章目录

  • 【一】 检索语言的含义
    • 检索语言的特点
  • 检索语言的功能
    • 检索语言的功能/性能
    • 检索语言的分类
  • 【二】检索语言的理论基础
    • 概念逻辑
    • 知识分类
    • 术语学
  • 【三】分类检索语言
    • 体系分类法
      • 体系分类发的特点和不足
    • 体系分类法的结构(微观结构、宏观结构)
    • 主要体系分类法介绍
      • 中图法(2014简答)
      • 杜威十进分类法
  • 【四】组配分类法
      • 《冒号分类法》
    • 主题检索语言/主题法
  • 主题检索语言的特点和类型
    • 标题词语言
    • 单元词语言
    • 关键词语言
    • 叙词语言
    • 叙词表的编制
    • 主要主题词表介绍
      • 《汉语主题词表》
    • 《汉语主题词表》《中国分类主题词表》比较
    • 主题检索语言与分类检索语言的相同点
  • 分类主题一体化检索语言
  • 《中国分类主题词表》
  • 网络信息检索语言
    • 网络环境下的分类检索语言的特点
    • 网络环境下的主题检索语言
  • 辅助词表
    • 辅助词表的主要类型有哪些
      • 后控词表
      • 禁用词表
      • 同义字词典和反义字词典
  • 自然语言
      • 自然语言具有许多人工语言所没有的优点
      • 自然语言的优势(特点)与不足(01北大、07华南师范简答)
    • 自然语言信息检索系统 与 受控语言信息检索系统 的不同。
  • 全文检索
    • 采用全文检索技术的检索系统一般具有如下优势
    • 国外著名的全文检索系统
    • 国内比较著名的全文检索系统

信息检索比较偏

【一】 检索语言的含义

(什么是检索语言)(18华师简答)

检索语言:广义的检索语言泛指信息检索过程中涉及的人工语言和自然语言人工语言是根据一定的规则认为编制而成的检索语言,它有严格的使用规则,可用于表述文献的主要内容,建立信息检索系统。自然语言是人类交流时使用的语言,不受任何限制,未经加工和规范。狭义的检索语言是指根据信息检索需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言

传统意义上的检索语言——根据信息检索需要而创制的人工语言
广义的检索语言泛指——信息检索过程中涉及人工语言和自然语言
狭义的检索语言——仅指根据信息检索的需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言

人工语言是根据一定的规则人为编制而成的检索语言,可用于表述文献主要的内容,建立信息检索系统。
自然语言人类交流时使用的语言,不受任何限制,未经加工和规范,更符合用户的日常表达习惯。

检索语言的特点

作为沟通信息标引与信息检索两个过程而编制的人工语言,检索语言不但能够保证不同的标引人员描述信息特征的一致性,而且能够保证检索提问标识与信息特征标识的一致性
与其他语言相比,检索语言突出的特点是:
①具有必要的语义和语法规则,能准确地表达科学技术领域中的人和标引和提问的中心内容和主题;
②具有表达概念的唯一性,即同一概念不允许有多重表达方式,不能模棱两可;
③具有检索标识和提问特征进行比较和识别的方便性;
④既适用于手工检索系统,也适用于计算机检索系统。

检索语言的功能


(1)标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性
信息标引是一个群体行为,只有共同依据检索语言,才能保证标引信息的一致性。

(2)对内容相同及相关的文献信息加以集中或揭示其相关性
检索语言采用等级结构、参照系统、轮排聚类法、范畴聚类法等显示概念之间关系的方法,来实现此功能。

(3)使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行有序化检索
检索语言将表达成千上万个信息主体概念的全部信息标识排列成一个有序的系统。
排列信息标识的方法包括:分类排列法,字顺排列法,分类和字顺结合的排列法

(4)便于将标引用语和检索用语进行相符性比较:一般来说,任何一种检索语言都有便于将标引用语和检索用语整体上进行相符性比较(即判断标引用语是否与检索用语完全相符)的功能。大部分检索语言还可以将标引用语和检索用语从局部上进行相符性比较(即判断标引用语是否与检索用语局部相符)。

检索语言的功能/性能

(2006年简答)
(1)标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性
(2)对内容相同及相关的文献信息加以集中或揭示其相关性
(3)使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行有序化检索
(4)便于将标引用语检索用语进行相符性比较

检索语言的分类

(1)按描述文献的特征(文献外表特征和文献内容特征)


文献外表特征——以文献的篇名(题目)、作者姓名、出版者、合同号、报告号、引文等,据此作为文献标识和检索依据而形成的检索语言成为描述文献外表特征的检索语言,如题名索引,著者索引、报告号索引、合同号索引、存取号索引、引文索引等。

描述文献内容特征的检索语言(分类语言、主题语言和代码语言)

(2)按结构或原理(分类语言、主题语言、代码语言和引文语言)

分类语言,用分类号来表达各种概念,将各种概念按学科性质进行分类和系统编排,包括等级体系分类语言(体系分类法)分析——综合分类语言(组配分类法),它们统称为分类法系统。

主题语言是采用表达某一事物或概念的名词术语,用于标引、存储、检索的一种检索语言。包括标题词语言、单元词语言、叙词语言和关键词语言等,可统称为主题法系统。

代码语言一般只是就事物的某一方面特征,用某种代码系统来加以标引和排列。

引文语言是利用文献之间的相互引证关系而建立的一种自然语言,其标引词来自文献的主要著录项目。

(3)按信息标识的组合使用方法(先组式语言、后组式语言和散组式语言)

先组式语言表达信息主题概念的标识在编制词表时就已固定组配好,信息存储和检索人员在标引和查找信息时,依据词表选用组配好的主题标识进行操作。

  • 典型的先组式语言有体系分类法和标题词法
  • 先组式语言标识明确,系统性较好,适用于传统的文献单元方式的目录索引。但是表达专指概念和新概念较困难,灵活性较差,容易造成词表体积庞大,检索途径少。

后组式语言指在词表编制和标引信息时不规定表达主题标识的组配关系,在检索时再根据需要将各个标识进行组配,来表达较为复杂的主题概念。

  • 比较典型的后组式语言有叙词语言和单元词语言
  • 后组式语言能够以较少的词语来表达较多的概念和较为专指的概念,可以比较及时地表达新概念,概念容纳能力强。同时,可以实现概念的多向成族,多途径检索,能够灵活地扩大和缩小检索范围,因此其检索的灵活性好。采用后组式语言所编制的词表体积相对较小。但是编制和使用的难度较大,组配语义的明确性较差。

散组式语言是指对于复杂的主题标识,在词表中不组配,而是在标引阶段将表达主题概念的若干个标识,根据一定的的规则组配在一起的检索语言,如**《冒号分类法》**。

  • 散组式语言的性能与其检索标识是否分段轮排有很大关系。如果检索标识能够分段轮排,散组式语言就兼有先组式和后组式语言的主要优点。如果检索标识不轮排,性能和先组式语言差不多,只是其专指概念和新概念表达能力有所增强。

(4)按语言的规范程度,可分为人工语言和自然语言
人工语言有主题法、分类法和某些代码等种类。
自然语言是直接取自文献信息本身,不经加工或规范的词语或句子。

(5)按包括的学科或专业范围(综合性检索语言、专业性检索语言和多学科检索语言)
(6)按所用语言文字(单语种检索语言和多语种检索语言)

【二】检索语言的理论基础

检索语言其主要理论基础有概念逻辑、知识分类和术语学

概念逻辑

检索语言不论是语词的还是符号的,都是表达一系列概括信息内容的概念及其相互关系的概念标识系统。
概念逻辑,是一种科学思维方法,通过明确各种概念及其相互关系而揭示事物的本质属性及各种事物之间的联系与区别。
检索语言在建立词汇、显示概念关系以及在文献标引和检索中,都离不开概念逻辑。概念是事物本质属性的概括。
任何概念都有其内涵与外延。

某一概念的内涵指其反映事物的本质属性;外延指其反映事物的范围,它们之间存在着反变关系

(1)概念间的关系:概念之间的关系,按其外延是否有相同部分,可归结为相容关系与不相容关系
如果两个概念的外延至少有一部分相重合,则两者之间是相容关系;如果两个概念的外延没有相重合的部分,则两者之间是不相容关系。

在相容关系中可以分为同一关系、属种关系、交叉关系、整体与部分关系、全面与某一方面关系、不相排斥的并列关系。在不相容关系中包括互相排斥的并列关系、矛盾关系和对立关系。

(2)概念逻辑方法:检索语言在表达各种概念及其相关关系时,普遍地应用了概念逻辑的原理,有效地利用了“概念的划分与概括”和“概念的分析与综合”这两种逻辑方法来建立自己的结构体系。

概念的划分与概括(分类):即利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形成新的概念,概念内涵与外延成反变关系等性质,对概念进行划分(缩小)或概括(扩大),形成更为专指或更为泛指的新概念,用以区别客观世界千差万别的事物,并利用划分或概括过程中所产生的概念隶属关系和并列关系,建立某种形式的检索语言结构体系,即概念等级体系,用以显示客观世界千差万别的事物之间的内在联系。
这种结构具有很好的系统性。例如,体系分类法就是应用此种逻辑方法的典型。

概念的分析与综合(组配):即利用在概念的交叉关系中两个概念外延的相同部分可以形成一个新概念,其内涵等于原来两个概念内涵之和,并且它与原来的两个概念具有隶属关系的这种性质,进一步发展为将一个内涵较深的概念分解为两个或两个以上内涵较浅的概念的一种概念逻辑方法,用以建立另一些形式的检索语言结构体系,即概念组配体系。

这种结构体系可以提供从多种途径来进行信息检索的功能,而且可以任意选择检索标识的专指度,根据实际需要扩大、缩小或改变检索的范围。例如,叙词语言与组配分类法便是应用概念分析与综合的典型。

知识分类


知识分类是对千差万别的事物做系统研究的重要方法,是对各种事物之间的区别和联系从本质上、原理上进行揭示的重要手段,对信息的系统化具有重要的价值,其实质是划分知识单元、组织知识体系,包括学科分类和事物分类

学科分类是以信息的学科属性为分类标准,根据各门学科的区别和联系,对学科进行区分和组织,确定每门学科在科学整体中的位置,揭示科学的内部结构,建立符合科学发展规律的分类体系。
事物分类是根据事物属性的异同将事物划分成类,构成事物分类体系。

学科分类是知识分类的主题,事物分类是知识分类的基础。

知识分类应当遵循的两条基本原则是客观性和发展性
客观性原则即对学科或事物进行划分和组织时,应依据知识对象固有的、客观存在的区别和联系。
发展性原则是指知识分类应按照学科或事物的发展规律,将知识对象由低级到高级、由简单到复杂进行划分和组织。

术语学


术语是在特定学科领域用来表示概念的称谓的集合,或者说,是通过语音或文字来表达或限定科学概念的约定性语言符号

术语是传播知识、技能,进行社会文化、经济交流等不可缺少的重要工具。研究概念、概念定义和概念命名基本规律的学科即术语学。

检索语言是由概念标识系统组成的,而概念是由术语来表达的。术语是分类表、词表的基本组成要素,检索语言其实就是一个经过精细组织的术语集。

检索语言的创制是以术语学的研究成果为基础的。在编制分类表、词表而采用术语时,应以术语学对科学术语的研究成果为依据。在检索语言创制、发展和完善过程中,更多地吸收术语学的研究成果,是提高检索语言质量的要求和重要途径。
检索语言要能适合实践应用和科学研究的需要,除了依据概念逻辑的理论基础外,还须利用知识分类的成果,把各种概念之间的关系建立在知识分类的基础上。如果说概念逻辑是检索语言的基础,则知识分类便是概念逻辑的基础。

检索语言中的体系分类法、组配分类法、叙词法等,都在不同程度上反映了知识分类。只有较充分反映知识分类的检索语言,才能保证检索语言在信息检索工作中得到有效运用,并达到较好的效果。

【三】分类检索语言

分类检索语言——分类法(体系分类、组配分类)

分类检索语言也称分类法,是将许多类目根据一定的原则组织起来,通过标记符号(分类号)来代表各级类目固定其先后次序的分类体系。

它是直接体现知识分类的概念系统,是对概括文献信息内容及某些外表特征的概念运用逻辑的方法进行系统排列而构成的。

  • 分类法按学科、专业集中文献信息,并从知识分类角度揭示各类文献信息在内容上的区别和联系,提供从知识分类检索文献信息的途径。主要包括体系分类法和组配分类法两种
  • 分类检索语言比较全面和客观地反映了知识全貌及其内在的逻辑联系,其体系结构的系统性、标识符号的通用性以及族性检索功能,是其他信息检索语言所不具备的,也是无法取代的,而且,分类方法符合人类认识事物的逻辑思绪方式

体系分类法

(1)体系分类法的含义:信息检索中常用的分类语言是体系分类法,也称等级列举式分类法。是基于概念的划分与概括,以学科分类为基础,把概括文献内容与事物的各种类目组成一个层层隶属、详细列举的等级结构体系

具有代表性的体系分类法有《杜威十进分类法》、《美国国会图书馆图书分类法》、《中国图书馆图书分类法》、《中国人民大学图书馆图书分类法》等。

体系分类发的特点和不足

体系分类法在实际工作中,主要被用来组织分类排架、统计藏书和建立分类检索系统

体系分类法的主要特点是
按学科、专业属性构建类目体系,形成按学科、专业集中文献、信息的知识概念系统,从而能够直接地满足用户从学科、专业出发检索课题的需要,可以达到较高的查全率。
②采用等级列举式的概念标识系统来揭示概念之间的相互关系,便于用户“鸟瞰全貌”、“触类旁通”、“层层深入”地查找某一专业的信息,用户也无须事先知道事物或概念的确切名称,就可以在一定的类目下通过浏览查到该领域的相关信息。
采用分类号作为主题的标识,不受语种的限制

体系分类法的不足之处在于
修订不便,无法及时增加反映新知识主题的类目。同时,分类表也不可能永无止境地细分下去,如遇到主题十分狭窄的文献,则可能很难找到相应的类目和分类号;
体系分类法采用的是先组定组式标识,难以进行组配检索,使得其检索途径单一,检索效率不高
采用分类号作为主题的标识,缺乏直观性
④体系分类法是按学科、专业集中文献信息以及线性的分类体系,使得其处理学科之间相互交叉渗透和综合而形成的新知识领域很困难,难以反映客观实际中多维的知识空间结构。

体系分类法的结构(微观结构、宏观结构)

①微观结构

微观结构指分类法中类目的构成结构。按照类目之间的关系建立起来的类目集合称为类目体系,类目体系是分类法的核心,它的建立涉及类目的划分、引用次序、类目的排列、类名的确定、类目之间的相互关系的处理等。

1)类目的划分:一个类目分为若干个小类,从而提示这个类目外延的逻辑方法。被分的类目称为母类或上位类,分出来的类目称为子类或下位类。

通过类目划分可以明确母类的全部外延,建立若干子类,给设立类目打下基础。

2)引用次序:分类标准的使用次序,当某一类事物连续划分需要采用几种分类标准时,分类标准的使用次序是否合理,直接影响分类体系,决定着类目体系展开方式。

合理的引用次序应该满足逻辑性原则、符合检索需要的原则和表达性原则

3)类目的排列:许许多多的类目按照一定的顺序排列起来的体系,类目的排列直接影响到分类法的质量。

类目的排列应该体现出系统性、整体性、等级性、逻辑性、连续性和一致性。尤其是在体系分类法中,类目的排列应坚持相关排列准则,其中,同位类的排列次序反映了客观事物本身发展和联系的排列次序,具有重要的意义。

4)类名的确定:类名是体系分类法的“语词”,起着表达类目含义的作用。类名的选择和确定应坚持科学性、确切性、简洁性。

5)类目之间相互关系的处理:分类法是依赖于类目之间的相互关系建立起来的。在体系分类法中,类目间的基本关系主要有从属关系、并列关系、交替关系和相关关系

②宏观结构
按功能分,类目体系、标记系统、说明与注释、类目索引


1)类目体系:类目体系是按照类目之间关系建立起来的类目集合
大多数体系分类法的类目体系由主表和复分表组成
主表是指由基本部类、基本大类、简表、详表逐级展开而形成的类目表。
复分表,又称辅助表或者附表,是将详表中按相同标准划分某些类所产生的一系列相同子目抽出来,配以特定号码,单独编列,供主表有关类目进一步细分用的类目表。

2)标记系统:标记系统是分类语言所有标记符号的集合

分类语言的标记符号即分类号,是用于标记某一分类体系各类目的序数系统。

理想的分类标记应符合简短性、容纳性、灵活性、表达性、助记性和适应性等要求。

分类号有两种,一种是单纯式号码,主要使用的是纯数字标记
另一种是混合式号码,通常是字母和数字结合使用。

标记制度是指标记符号构成分类标记的基本方法,可以分为顺序制、层累制、混合制和分面标记制四种。

特殊的标记方法:八分法、双位法、借号法、组配法、空号法。


3)说明与注释:说明与注释是对分类表结构及使用方法的揭示,用它来进一步阐述分类法的编制原理、特点和使用方法,明确类目之间的关系,确定类目的性质和范围,确定类分图书时的方法等。

主要包括编制说明、大类说明和类目注释3种形式。


4)类目索引:类目索引是从类目名称字顺查找相应分类号的类表辅助工具,是分类表的重要组成部分。类目索引的主要作用是帮助不熟悉分类表的使用者从主题名称速度找到相应的类目。另外,类目索引还能集中分类表中被分散的有关同一事物不同方式的类目,弥补分类表依学科集中,却将同一事物的不同方面分散的不足。类目索引可分为直接索引、相关索引和主题分类对照索引。

主要体系分类法介绍


国内常见的体系分类法有

  • 《中国人民大学图书馆图书分类法》,简称《人大法》
  • 《中国图书馆图书分类法》,更名为《中国图书馆分类法》
  • 《中国科学院图书馆图书分类法》,简称《科图法》。

国外常见的体系分类法有

  • 《杜威十进分类法》(DC或DDC)Dewey Decimal Classification
  • 《美国国会图书馆分类法》(LC)Library of Congress Classification
  • 《国际十进制分类法》(UDC)Universal Decimal Classification

①《中国图书馆分类法》:简称《中图法》《中国图书馆图书分类法》,并更名为《中国图书馆分类法》,是新中国成立后编制出版的一部具有代表性的大型综合性分类法

它是由国家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特性所编制的分类法。它将学科分成五大部类,基本序列是:马克思主义、列宁主义、毛泽东思想、邓小平理论,哲学,社会科学,自然科学,综合性图书,由5大部类、22个大类、6个总论复分表、30多个专类复分表、4万余条类目组成一个完善的分类体系标记制度,采用拉丁字母与阿拉伯数字相结合的混合号码制,用一个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本上遵从层累制原则。

中图法(2014简答)

它是由国家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特性所编制的分类法。它将学科分成5大类,基本序列是:马克思主义、列宁主义、毛泽东思想、邓小平理论、哲学、社会科学、自然科学、综合性图书,由5大部类、22个大类等组成一个完善的分类体系。

杜威十进分类法

②《杜威十进分类法》:由美国的威尔·杜威编制,是一部在国际上出现最早、流行最广、影响最大的图书分类法。1876年出版,当时取名为《图书馆图书小册子排架和编目用分类法及主题索引》,收入近1000个类目。之后不断修订更新,到2003年已出版第22版,四卷本。卷一为编制说明和通用复分表,卷二、卷三为类表,卷四为索引和使用手册。

它依据哲学家培根的知识分类思想,将图书分为十大类:总论,哲学,宗教,社会科学,语言学,自然科学,技术科学,美术,文学,史地。它采用纯阿拉伯数字作为基本标记符号,基本上按照层累制展开。除了印刷版以外,其Web环境下的电子版也于2003年推出。目前,DDC已被全球超过135个国家的图书馆使用,并且被法医逾30中语言,包括阿拉伯文、中文、法文、希腊文、俄文等。在美国大部分的公共图书馆及学校图书馆都在使用这种分类法

③《国际十进制分类法》:《国际十进制分类法》(UDC)也称《通用十进分类法》,由比利时的奥特勒和拉封丹在《杜威十进制分类法》的基础上扩充而成,1905年以法文出版UDC第1版,当时称为《世界图书总目手册》。伺候,UDC以23种语言出版了不同的版本。UDC是一种文献分类表,其分类对象为各种类型文献,包括小册子、科技报告和期刊论文等。目前,UDC主要用于欧洲各国的专业图书馆、文献中心和情报机构。

UDC的主表是在DDC基本结构的基础发展起来的一个层层展开的十进制系统,其基本大类序列如下:0总论、科学与知识;1哲学、心理学;2宗教、神学;3社会科学;4(暂空)5数学、自然科学;6应用科学、医学、技术;7艺术、文娱、体育;8语言、语言学、文学;9地理、传记、历史。

UDC的标记符号式小数制的阿拉伯数字,大类用一位数字标记,二级类用两位数字,三级类用三位数字,以此类推,大多数分类号的长短反映类目之间的从属关系。为了醒目,处有其他辅助符号间隔外,每达三位数字就用小圆点隔开。

【四】组配分类法


(1)组配分类法的定义:组配分类法又称分面分类法分面组配分类法

是基于概念的可分析性和可综合性,即复杂的主题概念可以分析为若干简单的主题概念,若干简单的主题概念可以综合表达复杂的主题概念,将一个复杂的文献主题概念用若干个表达简单概念的标识组配来表达的一种文献分类法。

在组配分类法中,一般只将简单主题概念设为类目,标引时,从类目中找出与主题概念相对应的各个类目,用相应的类号组配表达所标引的主题概念

(2)组配分类法的分类:可分为全分面分类法和半分面分类法两种。
全分面分类法是纯粹的组配分类法,一般仅在较小的学科或专业范围内使用。
半分面分类法是全分面分类法与体系分类法相结合的混合式分类法,一般综合性或多学科的分类法,如《冒号分类法》、《布利斯书目分类法》等,这种分类法一般是综合性或者多学科的分类法。

(3)组配分类法的特点
通过简单主题概念的组配,一方面可以简化分类表,缩小类表体积,另一方面能够表达各种复杂主题概念和专深主题概念,并且能够揭示主题因素之间的相互关系。
②可以对信息所表达的主题概念进行多方面标引,从而可以实现多途径检索
③可以较为及时地增补新的主题概念,类表修订灵活、方便

组配分类法是体系分类法思想的改进,弥补了体系分类法存在的一些不足之处,如难以揭示细小的主题概念、检索途径单一、造成“集中与分散”的矛盾,难以及时修订类表等,但其自身仍然也存在不足,主要表现在:类目体系不如体系分类法直观,标引和检索有一定的难度,使用不太方便。非专业人员使用难度较大等。因此,不适合图书馆、资料室组织文献分类排架。

(4)组配分类表
组配分类表是由编制说明、基本类表、分面类表和分面公式以及通用辅表组成,它的建立,主要采用了分面分析法

它由两个层次的分面结构所组成,第一层次的分面结构是对整个知识领域进行分面所形成的基本分面结构;第二个层次的分面结构是以第一层次的分面结构为依据,对某一知识领域进一步进行分解所形成的分面结构

在组配分类表的编制过程中,需要考虑到分面的引用次序与排列次序、标记符号与标记制度等方面的问题。

①分面的引用次序与排列次序:
分面的引用次序是指组配表达主题概念时,各分面被引用的先后次序。同一组配分类表的引用次序应力求明确、规范。

分面排列次序是指组配分类表中各分面以及分面内各类目的排列先后顺序

分面排列次序可以采取与分面引用次序相同或相反的两种排列方法。
当分面排列次序与分面引用次序相同时,称为顺排法。
当分面排列次序与分面引用次序相反时,称为倒排法。

②标记符号与标记制度:
组配分类表中的标记制度主要采用的是分面标记制和回归标记制
分面标记制是用分面符号把类号分成若干段,使每一段的号码代表主题的一个方面,以实现类目组配结构的一种标记制度。采用分面标记制所标引出的主题能够直观显示类目的组配结构,揭示各个主题因素及其联系。

分面标记制所采用的分面符号有两种基本形式:采用数字或字母作为分面符号;采用标点符号作为分面符号

回归标记制也称回溯标记制,是通过将分类表中位于前面的分面类目号码直接加在位于后面的分面类目号码之后,组配表达复杂主题概念的标记制度。回归标记制的号码较简短,并且具有较强的表达容纳性,不过其配号比较复杂,后面分面类号不能与前面类号相同,不能进行分段轮排,不能提供多途径检索。

(5)主要组配分类法介绍
最早提出分面组配思想的是比利时的奥特莱。系统的分面组配分类理论是由印度图书馆家阮冈纳赞提出的。阮冈纳赞认为图书分类的主要作用,在于给予每一个特定的主题以一个特定的类号,从而使每个不同的主题都能区别开来,并在类号中把主题的组成要素反映出来。

《冒号分类法》

《冒号分类法》是阮冈纳赞编制的一部分面分类法,初版于1933年,提出了分面标记符号,只用“:”作为分段符号。目前已出至第7版。《冒号分类法》提出了五个基本范畴的理论。它们依次是:本体personality、物质material、动力energy、空间space、时间time。通过这五个基本范畴来分析、归纳和组织文献。每个基本范畴都采用特定的指示符表示P/M/E/S/T。在第7版中,又将物质面进一步分解成3个方面:物质M, 物质性质MP,物质方法MM。冒号分类法创立了分面标记制度,使每一特定的主题有一个特定的类号,并在号码中把主题的组成要素反映出来,针对列举式的类表和单线式的标记还提出了一些其他的标记方法,如八分法、百分法(双位法)等。阮冈纳赞还成功地创造了相的标记法,把它运用于不同学科之间的相互联系。

《冒号分类法》具有标记表达性强、类表简练、容纳性强、适应性好、易于揭示复杂主题等优点,对今天的知识组织产生了一定的影响。其不足之处有,类目体系不够直观,标记符号种类繁杂、规则繁多,使用起来比较复杂等。因此,在实践中,冒号分类法并没有得到广泛的使用。

主题检索语言/主题法


(1)主题检索语言的含义:主题检索语言又称主题法。它采用语词直接作为文献主题标识,按字顺排列主题标识,提供各种检索词语的途径。

主题检索语言从描述事物的特性角度出发,按文献所论述的事物(即主题)集中文献,用规范化的名词术语标引和表达文献的主题概念,用参照系统显示事物概念主题词之间的关系。

(2)主题检索语言的特点
它具有较好的按事物集中文献和便于从事物出发检索文献的功能。目前,在机检数据库的检索中,主题法是最常用的检索语言

主题检索语言与分类检索语言相比,具有明显的优点
①专指性高:主题语言主要以规范化的名词术语为基础,着眼于事物及事物的各个方面。凡是论述某一事物的文献,几乎都被标引在表达该事物概念的语词标识之下。从一个语词标识下即能检索到它所表达的事物的比较完全的有关文献。

②直观性好:主题语言直接采用主题词作标识,可以直呼其名,依名查检。对用户来说,易读、易记、易理解。而且按照字顺排列主题标识,更突显出了它的直接优点。

③灵活性强:主题语言根据需要对主题词进行灵活组配,特别适合计算机的逻辑组配功能。主题语言对于从事物出发的比较狭小检索提问,以及关于新事物、新概念、新学科的检索提问,检索效果特别好。

主题语言的主要缺点表现为:由于是按字顺排列,所以同一门类学科的文献易被分散在各处,在族性检索方面不及分类语言

主题检索语言的特点和类型

主题法的类型很多,一般都具有下述特征
①以特定事物、问题、对象,即主题为中心集中信息资源;
②直接以语词作为信息的组织和检索标识
③以字顺作为主要检索途径

根据选词原则、词的规范化处理规则的不同,主题检索语言可分为标题词语言、单元词语言、叙词语言和关键词语言

标题词语言

标题词语言是一种先组定组式语言,它选择标题词作为文献内容的标识和检索依据,具体表现为标题词表的利用。
标题词语言是主题检索语言中使用最早的一种类型。
标题词语言的主要优点体现在:
①词表直接用事物名称列举出表达事物的主题,直观性强;
②采用先组定组式方法,因而词表中标题结构固定,含义明确;
③用参照系统显示主题之间的相互关系。其不足之处是先组定组式的方法使得标题词表检索途径较为单一,无法实现多因素、多途径检索。另外,词表一般收词量大并且专指度相对不足,修订量大。

标题词一般分为主标题和副标题两级,通过主标题词和副标题词的固定组配来构成检索标识,因而只能选用“定型”标题词进行标引和检索,所反映的主题概念必然受到限制,并且无法从多因素、多途径进行检索。尤其是现代科技主题的内涵与外延越来越复杂,几乎不可能用一对主、副标题完全、确切地表达出来。因此标题词语言已不适应时代发展的需要,目前已较少使用。比较典型的标题词表有《工程标题词表》。

单元词语言

单元词语言是以单元词作为语词标识对文献进行标引与检索的主题检索语言,是一种后组式语言。单元词法采用后组配的方式,在标引时不组配单元词,在检索时才对单元词下所列的文献号进行对比,号码相同的就表示有组配关系。单元词具有相对的独立性,词与词之间没有隶属关系和固定组合关系,标引时可根据需要加以组配。在单元词法中,组配功能得到了充分的应用。克服了标题词法的不足,比较适合机械检索系统。单元词语言的主要优点第:①通过单元词的组配可以表达大量专指概念和新概念,适应性强。②不存在词序问题,表达信息或文献标识中每一个单元词都可以做为检索入口,并且通过对单元词的增减,可以自由地扩大、缩小或改变检索范围。③单元词词表体积一般比较小,编制、更新和修订所需工作量小。其不足在于:①单元词法的字面分拆和字面组配,容易造成语义失真。②单元词法缺乏完善的参照系统,难以满足族性检索的要求。③单元词法的直观性和系统性较差。单元词语言只适用于标识单元方式检索系统,它目前已经发展成为叙词语言。

关键词语言

关键词语言作为信息存储和检索依据的一种检索语言,是直接从原文的标题、摘要或全文中抽选出来,具有实质意义的,未经规范化处理的自然语言词汇。关键词语言的原理是:运用关键词语言编制的关键词索引,其关键词按字顺排列构成索引款目,所抽选的关键词都可以作为标引词在索引中进行轮排,作为检索“入口词”进行检索。关键词语言的主要优点是:①直观性强。关键词法直接采用自然语言进行标引和检索,符合普通用户的检索习惯。②检索途径多。关键词法采用的轮排方式,可以多途径检索文献。③标引简单。关键词接近自然语言,是由计算机自动抽取的。不用人工标引,不但节省人力,而且可以降低对人员的水平的要求。④关键词表达事物、概念直接、准确,不受词表控制,能及时反映新事物新概念。其主要缺点是:①不揭示关键词之间的等级关系和相关关系,使得相同主题的信息或文献因作者用词不同而导致漏检,影响查全率。②难以进行族性检索。③由于关键词法采用机械抽词和轮排,有可能会导致不少关键词款目失去检索作用而徒增篇福。关键词语言只有与计算机结合起来才能发挥它的独有优势,随着计算机的深入发展与应用,它的作用越来越突出,已被称为使用最广泛的检索语言。
关键词索引的主要类型有题内关键词索引、题外关键词索引、词对式关键词索引等。题内关键词索引又称为上下文关键词索引,它以文献篇名为基本素材,以篇名中的关键词做索引款目的标目,以关键词的上下文做说明语。题外关键词索引改进和精简了题内关键词索引。这时的关键词不局限于从篇名当中抽取,可以根据需要从其他地方抽取。同时,改变了题内关键词索引检索入口在中间的做法,将关键词作为独立目标排在题目的前头。词对式关键词索引即将篇名关键词相互组配,从某一篇名所含的全部关键词中每次取两个来做一个款目的标目。

叙词语言

1)叙词语言的原理
叙词语言是以表示单元概念的规范化语词为基础,以概念组配为基本原理,对文献主题进行描述的后组式检索语言。叙词是指一些以概念为基础的、经过规范化的、具有组配功能并可以显示词间关系和动态性的词或词组。叙词有这样一些特点:①直观性。叙词标识比较直观,按字顺排列,序列明确。②规范性。叙词都经过了规范化处理,包括对词义、词类、词形等的规范。③组配性。叙词可以灵活、自由地组配在一起表达各种复杂的概念,比较适合于计算机检索,在检索中可以充分采用布尔逻辑检索法、加权检索法等。
①叙词语言吸收了其他多种检索语言的原理与方法,吸纳了体系分类法的基本原理,编制了叙词范畴索引和词族索引,从多方面来反映主题词之间的等同关系、等级关系和相关关系等;②保留了单元词语言的组配原理,采用了组配分类语言的概念组配来代替单元词语言的字面组配,并取代了单元词语言;③吸收了关键词语言的轮排方法,编制了各种叙词索引;④采用了标题词语言对语词进行严格规范化的方法,保证了词与概念的一一对应,采用并进一步完善了标题词语言的参照系统。
2)叙词语言的性能
叙词语言继承和发展了体系分类语言、组配分类语言、标题词语言、单元词语言、关键词语言等多种检索语言的思想、原理和优点,具有多方面的优势,并且已经成为了当今互联网时代应用最为广泛的人工检索语言之一。
叙词语言吸收了单元词语言用组配来表达主题概念的方法,但摒弃了单元词语言采用字面分解和字面组配而容易造成语义失真等消极因素,将字面分解和组配完善为概念组配。叙词语言适当借鉴了标题词语言的先组方式,将一些通用的专称、俗语、专指作用很强的词组、专业文献中出现频率较高的经常用以检索的词组等先组词的方式直接收入叙词表中。叙词法继承了组配分类语言分面组配的思想,形成了自身概念组配思想。体系分类法通过类目的层层划分所形成等级、标记制度、编撰说明和注释来标识类目之间的相互关系,而叙词语言参考了体系分类法的思想,建立了范畴索引、词族索引和参照系统来揭示主题之间的相互关系。叙词语言还借鉴了关键词语言的轮排技术,通过编制轮排索引,从而加强了叙词语言的族性检索功能,同时也增加了检索途径。
总之,叙词语言是一种非常优秀的检索语言,并且已经成为在当今互联网时代应用最广泛的人工检索语言之一。但是,它也有不足之处,主要表现在:叙词表的编制工作难度较大、标引复杂、标引速度慢、族性检索功能不够强、使用人员需要较多的专业知识等。

叙词表的编制

叙词表是叙词语言的核心体现。
叙词表一般由一个主表和若干个附表构成。

在叙词表的编制过程中尤其要注意以下问题

  • 主题词的选择与规范:在编制叙词表的过程中,主题词的选择要以所编制叙词表规定的专业或职能范围为依据。选词要考虑文献检索的具体要求,以及被标引文献的数量和增长速度。还要考虑被选词的使用频率和检索意义,一般不选用使用频率过高或过低的词做为主题词。另外,基本词汇要完备而精练,要注意选用词义明确、符合科学性和通用性的词作主题词。叙词法规范化处理的内容包括四个方面词形规范、词义规范、词类规范和先组度规范
  • 主题词之间关系的显示:参照系统对于主题词的语义关系的揭示,是通过制订各种符号来加以联系和反映的,具体表现在同义关系、属分关系和相关关系
  • 主题词的组配:叙词语言的组配吸收了组配分类语言的概念组配原理,采用了单元词法的后组方式,超越了单元词的字面组配,实现了概念组配。主题词的组配可分为交叉组配、限定组配和联结组配。概念组配是叙词语言的基本原理。概念组配依据概念的分析与综合,与字面组配有时相同,有时不同。通过组配可以增强叙词语言的表达能力,控制词表的词汇量,提升叙词法的匹配能力,提供多途径检索,提高查全率,还可以及时反映新事物、新学科。

主要主题词表介绍

国外使用最广的综合标题词表《美国国会图书馆主题词表》、专业叙词表《医学主题词表》
国内比较有影响的主题词表有《汉语主题词表》、《中国分类主题词表》、《社会科学检索词表》《中国档案主题词表》等。其中,《汉语主题词表》在国内的影响最大。

《汉语主题词表》

《汉语主题词表》是我国第一部大型的综合性的叙词表。
中国科技信息研究所和北京图书馆负责主持,1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册。
其结构体系比较全面,由主表(字顺表)、附表、词族索引、范畴索引和英汉对照索引组成。

  • 主表(字顺表)包括社会科学和自然科学两部分,是词表的主体部分,由全部正式叙词款目和非正式叙词款目组成,所有款目严格按汉语拼音音序排列。每一个叙词款目的结构包括叙词、汉语拼音、英文译名、范畴号、注释项及其语义关系项等。
  • 附表包括4种专有词汇表:世界各国政区名称、自然地理区划名称、组织机构名称和人物。词族索引又称族系索引、等级索引,是将主表中具有属分关系的正式主题词集中在一起,显示词间从属关系的一种索引系统。
  • 词族索引用来揭示主题词之间族系关系,满足族性检索的需要
  • 范畴索引是主表中全部叙词的分类索引。它将全部叙词和非叙词按社会科学和自然科学两大范畴划分为58个大类,方便人们从分类角度查找与某一范围内容相关的主题词。
  • 英汉对照索引是将主表和附表中的正式和非正式主题词的英文按字母顺序排列的一种索引,是通过英译名来选择主题词的辅助工具。

《汉语主题词表》《中国分类主题词表》比较

主题检索语言与分类检索语言的相同点

【看相关论文:主题法与分类法的比较】
(1)主题检索语言与分类检索语言同样都是表现文献内容特征的检索语言
(2)描述和揭示的对象都是各种各样的文献
(3)它们都是建立在概念逻辑、知识分类和术语学的基础上,即利用区分概念的各种逻辑规则来显示词与词之间的关系,利用概念分析与综合的逻辑方法来构造标引语词;
(4)在应用知识分类方面主要是应用事物分类原理。

分类主题一体化检索语言

(1)分类主题一体化检索语言的定义
分类主题一体化检索语言,又称为分类主题一体化词表,是指在一个检索语言系统中,对它们的分类表部分和叙词表部分的术语、参照、标识及索引实施统一的控制,使两者有机地融合为一体,从而能够同时满足分类和主题标引、检索的需要,发挥其最佳的整体效应。
(2)分类主题一体化检索语言的原理
分类检索语言与主题检索语言两者之间的区别主要是表现在形式、结构和应用不同等方面。分类检索语言是按学科、专业集中信息或文献,以分类号作为主题概念的标识,经过类目的层层划分与排列,形成了等级式的学科与逻辑体系。而主题检索语言是按事物来集中信息或文献,以受控的主题词直接作为主题概念的标识,通过参照系统和范畴索引、词族索引来揭示主题词相互关系的字顺系统。
分类主题一体化检索语言的原理建立在分类检索语言与主题检索语言相通的原理基础之上。首先,分类检索语言与主题检索语言都是建立在概念逻辑、知识分类和术语学的理论基础之上,都应用了概念划分与概括、概念分析与综合的方法。其次,所采用的表达信息或文献主题概念的标识在本质上是相同的,只是表现形式不同而已,即分类检索语言是用分类号作标识,而主题检索语言是用主题词作标识的。最后,分类检索语言与主题检索语言的处理对象都是语义单元,所类集的内容是相同的,表达的都是主题概念。
(3)分类主题一体化检索语言的功能
分类主题一体化检索语言除了单独具有分类检索语言与主题检索语言的功能外,还具有如下功能:
①标引人员可以同时完成分类标引和主题标引,通过标引数据之间的对应转换,可以节省人力物力,并且可以减少标引错误和标引不一致性。
②用户既可以从学科、专业出发来进行分类检索,也可以从事物主题出发进行字顺检索,并且可以加以比较,从而较大程度地提高查全率和查准率。
③可以为进行过分类标引而未进行过主题标引的书目数据库通过主题词与分类号的转换而提供主题标引,同样,也可以为进行过主题标引,而未进行过分类标引的书目数据库通过主题词而进行分类标引。
(4)分类主题一体化检索语言的类型
按照兼容互换的方式,可分为三种类型:分面叙词表、分类表—叙词表对照索引和集成词表。
①分面叙词表:是以艾奇逊等主编的世界上第一部一体化词表的名称命名的,它也是最典型,影响最大的分类主题一体化检索语言。一般由分类表和叙词表两大部分组成,有的还附有轮排索引及英汉对照索引。分类表和叙词表通过分类号相联系,分类表主要起字顺索引的作用,而叙词表则不仅起着传统叙词表范畴和词族索引的作用,还可以直接用于主题标引。我国编制出版的分面叙词表有《教育主题词表》、《农业科学叙词表》、《音像资料叙词表》等。
②分类表—叙词表对照索引:通常由分类号与主题词对应表、主题词与分类号对应表两部分组成。前者为每个类目列出其对应的一个或多个主题词,后者为每个主题词列出对应的一个或多个分类号。这种对照索引是分类检索语言和主题检索语言兼容互换的工具,通常用作情报检索查词选类的辅助工具,便于分类标引数据与主题标引数据的相互转换。我国编制出版的《中国分类主题词表》、《中图法教育专业分类表》等就属于此类型的词表。
③集成词表:是将某些特定主题领域的若干叙词表和分类表汇编而成的一种词表,可以用于联合分类标引和主题标引,用于实现分类表和叙词表之间的兼容互换。

《中国分类主题词表》

《中国分类主题词表》是在《中图法》编委会主持下,经全国约40个单位160位专家学者的共同努力,历时8年编制而成的,于1994年6月正式出版。
《中国分类主题词表》是在《中图法》第三版和《汉语主题词表》的基础上编制的我国第一部分类检索语言和主题检索语言相互兼容对照索引式的一体化词表。全表共分两卷6册,包括《分类号—主题词对应表》和《主题词—分类号对应表》两部分。
第1卷《分类号—主题词对应表》以《中图法》的类目体系为基础,将《汉语主题词表》的全部主题词以及增加的主题词兼容对应于各级类目之下,可视为一部以主题词作注释的新版《中图法》。其主要功能是文献分类标引和通过分类的途径查找主题词。进而进行主题标引。第2卷《主题词—分类号对应表》是从主题词到分类号的对照索引体系。它按主题词的字顺排列,其后列出对应的分类号。其主要功能是进行文献主题标引和通过主题查找相关的分类号,作为分类标引的辅助手段。
(优点)《中国分类主题词表》是分类与主题、先组式检索语言与后组式检索语言相结合的一体化检索语言体系。使用该表不仅可以使分类标引、主题标引在经过同一主题分析、采用同一标引工具的过程中一次完成,而且能够降低主题标引的难度,提高标引的一致性。同时,由于分类号和主题词之间建立了对应联系,有利于在检索系统中实现分类号与主题词之间的相互转换,从而提高检索效率。
(不足)《中国分类主题词表》也存在一些不足,如没有编制主题词轮排索引和英汉对照索引,标引组配不够灵活,而且,在分类号和主题词的对应过程中,受到主观因素的影响,也很难做到完全的科学和准确。

网络信息检索语言

(一)检索语言面临的网络环境
随着互联网技术的快速发展与广泛应用,受控的检索语言面临着巨大的挑战,主要表现在以下四个方面:
(1)信息类型的变化:传统环境下,检索语言所面临的信息类型主要表现为文献资料,并且其类型基本上都是纸质文本型信息。而网络环境下的信息类型多样,除了有电子化的传统文献资料外,还出了许多新的类型。既有大量的电子文本型信息,也有图形、图像、音频、视频、动画等形式的信息。
(2)信息数量与质量的变化:传统环境下的信息数量尽管是庞大的,但仍然无法与网络环境下的信息数量势相比。另外,网络信息内容范围极其广泛涵盖了人类所有社会生活领域。传统环境下的信息在传播之前一般都经过较为严格的规范和控制,因此,信息质量较高。而在网络环境下,任何组织和个人都可以自由地发布信息,不需要经过规范和控制,使得网络信息质量参差不齐,既有质量非常高的学术信息,也存在着大量质量低下的垃圾信息。
(3)信息检索技术的变化:传统环境下的信息检索是依靠目录、索引、工具书、年鉴等进行的,检索到的信息只有文本信息,并且检索范围比较狭窄,检索效率较低。由于计算机技术、多媒体技术、网络技术、数据库技术等以及相应硬件技术的发展和应用,新的检索技术不断出现,如全文检索技术、多媒体检索技术、超文本和超媒体检索技术等,这些信息检索技术的应用,大大方便了用户的检索行为,提高了检索的效率。
(4)信息用户的变化:分类检索语言、主题检索语言的规范性与复杂性,使得传统的信息检索用户一般为专业性情报检索人员,或者是受过专业培训的人员,并且他们进行信息检索的目的多为科学研究需要。而伴随互联网的广泛应用,信息技术和信息检索系统的易用性使得信息检索用户从专业人员扩大到广大的普通用户,并且用户信息需要也不再仅仅是为了学习和科学研究,而是呈现出多样化、个性化。

网络环境下的分类检索语言的特点

在网络环境下,分类检索依然有着强大的生命力,只是由于分类语言描述对象和利用对象都发生了变化,分类检索语言为适应这些变化必须作出相应的调整,主要表现在形式和内容两方面:
(1)在形式上,实现了电子化和体系结构的多维化
①分类法的电子化:印刷版分类法翻阅、携带不方便,维护管理困难、更新周期长,以及分类法本身的复杂性,大大影响了标引和检索的速度与效率。分类法的电子化由于其直观方便的浏览、显示功能,超文本链接功能和完善的检索功能,提高了标引与检索的速度与效率,减少了标引成本,其修订也较为方便,更新周期缩短。
②分类体系结构的多维化:传统分类法的体系是以一种典型的线性结构来揭示类目之间内在关系的,表现出明显的单维特征。超文本技术在分类语言中的应用,彻底改变了类目之间的线性关系,同时,新型的网络分类目录在类目划分标准、横向关系揭示和类目设置方面表现出明显的多维化趋势。
(2)在内容上,编制方法作了很大的调整,主要表现为聚类标准的主题化、类目划分的随意性、类目排列的非逻辑性和类名的通俗化等。
①聚类标准的主题化:传统分类检索语言以信息的学科属性作为聚类依据,网络分类法则是以网络信息的主题作为聚类的主要依据,这样更符合普通用户的使用习惯。
②类目划分的随意性:传统分类语言中类目的划分是按照严格的逻辑划分规则。网络分类语言中类目划分是根据用户的需要和习惯,一般没有按照严格的划分规则,注重开放性和可变性,所划分的类目之间隶属关系比较模糊,类目体系不太严密,列类较杂。此外,网络分类法的划分层次比传统分类法的划分层次要少得多。
③类目排列的非逻辑性:传统分类检索语言同位类的排列注重类目之间的内容关系和逻辑关系,系统性、整体性、科学性、逻辑性、连续性和一致性较强。网络分类检索语言中同位类的排列不局限于使用逻辑排列法,往往为了方便、快速、自动地排列类目,而使用字顺排列、按重要性排列等方法。
④类名的通俗化:传统分类检索语言中类名的确定有比较严格的规范,类名稳定性高。网络分类检索语言中类名的确定是从用户的角度出发,关注普通用户的一般思维方式、检索习惯和需求特点,力求简单和通俗易懂,并且类名会根据社会发展和用户检索习惯而进行调整,因此,类名的稳定性不强。
在新的网络环境下,分类语言沿着两个方向继续得到发展。一个方向是积极地调整传统分类法自身,以满足信息资源数量的迅速增长;另一个方向是抛开传统的分类法,重新建立新的分类体系,即网络分类目录。

网络环境下的主题检索语言

主题语言使用语词对信息进行揭示和组织,直接用语词标识信息内容,可以较好地满足用户的特性检索需要,主题语言在网络环境下仍然是一种重要的检索语言。互联网的普及、网络信息资源的迅猛增长和信息检索用户的改变对主题语言的发展产生了较大的影响,网络环境下的主题检索语言主要表现为以下几种形式:
(1)传统主题检索语言在网络信息检索系统中的应用
传统主题检索语言在网络信息检索中的应用主要表现在标题语言、叙词语言和关键词语言在网络信息检索系统中的应用。采用主题词表,叙词表的网络检索系统一般是学术性较强的专业网站。如图书馆网站的书目信息检索系统、网络联机数据库检索系统等。关键词语言在网络环境中的主要应用形式是搜索引擎的关键词搜索。搜索引擎的易用性和良好的检索性能,使得其已成为目前世界上最流行的检索方式。

辅助词表

辅助词表的主要类型有哪些

辅助词表的主要类型有后控词表、禁用词表、同义字词典和反义字词典等。

后控词表

也称为词间关系表,是利用受控语言的基本原理和方法编制的自然语言检索用词表。后控词表的主要特点是
①词汇只用于检索,不能用于标引。
②词汇控制不如先控词表严格,一般只对同义词、近义词和不同书写形式进行控制,适当处理部分与相关关系。
③收词丰富,包括同义词、近义词、俗称、缩写、流行俚语等。
④动态性强,及时更新和增补新主题概念。
⑤有较强的灵活性和自由度,标引工作简单、编制简便。
⑥具有面向文献和用户的特点,文献保障和用户保障能力强。
后控词表只对系统的输出阶段进行控制,它的控制处理相对受控语言检索系统比较简单,无需标引人员花费很长时间去分析文献的主题概念,选用合适的检索词进行标引、归类,检索者也不必花太大的精力分析检索要求,考虑用符合标准的检索语言来表达自己的信息需求。后控词表展现了比较完整的语义关系,用户通过浏览词表选用检索词,大大减轻了构造检索策略的负担,提高了检索速度,节省了检索时间。

后控词表作为自然语言和受控语言相结合的产物,对于提高自然语言检索系统查全率和查准率具有重要的意义,为用户准确选词、精确检索、扩检和缩检、改变检索范围、进行相关检索提供了捷径。

禁用词表

也称停用词表、禁用词典、禁用单元词表等,是将一些单独使用时无检索意义,或者出现频率过高的词作为检索系统的非检索用词,以对检索词的有效性进行控制。禁用词表按收入词的类型,一般可分为普通禁用词表和条件禁用词表。普通禁用词表是指在任何情况下都无实际检索意义的词所构成的词表,如包含介词、连词、代词等的词表。条件禁用词表是指由在一定条件下才成为禁用词的词汇构成的词表。这种禁用词表主要出现在专门性的检索系统中,因此,不同网络检索系统在理论上其禁用词表不会兼容。条件禁用词表除了收录条件禁用词外,通常还包括无实际检索意义的普通禁用词。

同义字词典和反义字词典

是根据把用户检索标识转换成规范性叙词,或者扩展出所有可能出现的同义词、近义词和反义词以提高查全率的目的编制,基于主题语言,显示概念等同关系原理而产生的。同义字词典和反义字词典除了能够提高用户的查全率外,对自然语言与受控词表的一体化、系统与检索用户的交互选择、自动扩展的智能化检索的发展也起到非常重要的作用。

自然语言

随着计算机技术的发展,计算机信息检索系统的广泛使用,自然语言在信息检索领域的应用开始流行起来。传统的采用受控语言(人工语言)的信息检索系统要求检索者必须具备一定的检索理论和实践技能,熟悉系统的检索功能与操作命令、检索语言的特点及有关的检索策略与检索技巧等方面的知识。随着信息资源的海量化、信息需求的不断扩大,越来越多的非专业人士开始涉及信息检索领域,人们开始不满意传统受控语言的严格与规范,渴望信息检索更加简洁和易用

自然语言指直接取自文献本身,不经加工和规范的语言,它包含词、词组或句子,没有繁琐规则的约束,不添加任何人工的色彩

自然语言具有许多人工语言所没有的优点

(与人工语言相比,自然语言在信息检索系统中的应有有什么优点)
①自然语言检索方便,不受人工语言的各种限制,不需要复杂的检索规则,使用者能够较快适应,易用性突出。
②自然语言采用从文献中直接抽词的方式,避免了人工标引过程中的失真现象。
③自然语言非常容易吸纳新的词语、新的概念。

采用自然语言检索新出现的事物可以获得较好的检索效果,使用者可以直接使用这一新词作为检索入口,不必像传统的人工语言那样,必须将该词先转换成另一规范词,再进行检索。

自然语言的优势(特点)与不足(01北大、07华南师范简答)

自然语言检索是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言

优点

  • 自然语言检索方便,不受人工语言的种种限制,不需要复杂的检索规则,不经加工和规范。
  • 直接从文献中抽词,避免了人工标引的失真现象
  • 非常容易吸纳新词、新概念,可以获得较好的检索效果。

缺点

  • 对同义词、近义词、多义词及与其相关的一些词没有进行规范和统一,词间缺乏有机的联系,影响查全率
  • 由于选词没有严格限制,词量势必过多过杂,从而影响查准率,并且会过多地占有磁盘的存贮空间。因此在实际操作中,必须对自然语言采取一些辅助措施,以弥补其缺陷

自然语言信息检索系统 与 受控语言信息检索系统 的不同。

受控语言信息检索系统是在文献信息和用户信息需求输入系统之前进行控制,控制的工具是人工编制的词表或分类表,而且需要对检索的课题进行主观的思考和分析,检索结果的优劣在很大程度上取决于用户对规范化词表或分类表的掌握程度及经验技巧。文献信息的输入(前控)和检索提问的输入(后控)都采用同一词表,前控和后控的程度相等。但自然语言信息检索系统主要是在输入系统之后,在系统内部进行控制,文献信息输入时基本不做处理,而主要依赖后控,即将自然语言转换为系统的提问,并对同义、近义、相关等关系的词进行组织。同时,自然语言检索系统与计算机自动标引和自动分词等技术紧密地联系在一起。

全文检索

自然语言在信息检索中的应用主要表现为使用关键词的全文检索

  • 全文检索是指不经过任何标引,而直接通过计算机以自然语言的形式在文本中进行匹配查找。文本中任何字符和字符串均可作为检索入口。因此,全文检索是一种不依赖叙词表而直接使用自由词的检索方法。
  • 全文检索具有直观性、详尽性和广泛的适应性等特点。

采用全文检索技术的检索系统一般具有如下优势

方便易用。采用用户所熟悉的自然语言进行检索,用户使用检索系统之前一般不需要进行培训和学习。
查全率高。全文检索系统可以对文本中任意字符都进行匹配检索,不受标引限制,因此,可以实现较高的查全率,并且用户可以直接查看文本中的任何章节、段落、句子、词或字,而不只是索引或摘要。
检索功能强大。一般的全文检索系统都能进行布尔检索、截词检索、位置检索、相关检索等能够满足用户不同的检索需求。

国外著名的全文检索系统

ProQuest系列数据库、EBSCO数据库、SpringerLink全文数据库、Alta Vista全文搜索引擎等

国内比较著名的全文检索系统

《中国期刊全文数据库》、《中文科技期刊数据库》、万方数据资源系统等。

【829】【02检索语言】【理解】相关推荐

  1. 《预训练周刊》第5期:智源等研究力证:GPT语言理解能力不输BERT、盘点NLP预训练「兵器谱」...

    No.05 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第5期< ...

  2. 斯坦福SAIL负责人Christopher Manning:语言理解是人机灵魂的桥梁

    自然语言处理是人工智能的重要领域,伴随着2020年的到来,我们也正翘首以盼这个领域将发生哪些重要变化.为此我们特别推荐斯坦福大学人工智能实验室负责人Christopher Manning去年10月底在 ...

  3. GPT语言模型:通过生成式预训练改善语言理解 OpenAI 2018

    论文链接:https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf 代码链接:https://github.com ...

  4. 干货!任务型对话中语言理解的鲁棒性测试 |清华刘劼西

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 本期AI TIME PhD直播间,我们邀请到了清华大学计算机科学与技术系的硕士生--刘劼西,带来分享--<任务型对话中语言理解的鲁 ...

  5. NLPer福利-中文语言理解基准测【CLUEbenchmark】

    NLPer福利-中文语言理解基准测[CLUEbenchmark] 公众号:ChallengeHub 官方链接:https://www.cluebenchmarks.com Github链接:https ...

  6. 02 数据库语言SQL

    02 数据库语言SQL SQL语言概述 SQL语言是集DDL.DML和DCL于一体的数据库语言,SQL语言主要由以下9个单纯引导的操作语句来构成,但是每一种语句都能表达复杂的操作请求. DDL语句引导 ...

  7. 数据结构与算法:02 C#语言基本语法结构

    02 C#语言基本语法结构 知识结构: 1.数据类型 第一种分类: 简单数据类型:byte.short.int.long.float.double.char.bool 组合数据类型:struct.en ...

  8. OpenAI NLP最新进展:通过无监督学习提升语言理解

    编译 | reason_W 编辑 | 明 明 出品 | AI科技大本营 [AI 科技大本营导读]近日,OpenAI 在其官方博客发文介绍了他们最新的自然语言处理(NLP)系统.这个系统是可扩展的.与任 ...

  9. 谁说GPT只擅长生成?清华研究力证:GPT语言理解能力不输BERT

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者|张倩.小舟 来源|机器之心 一直以来,GPT 模型的语言生成能 ...

最新文章

  1. python秒表游戏代码_用20行Python代码实现2048小游戏,你会吗?
  2. 神策游戏解决方案:赋能游戏产业精品化研运升级
  3. RabbitMQ工作队列
  4. Springboot-data-jpa
  5. 关于面向对象设计中类的方法是否应该使用boolean类型的参数
  6. 已有Unity工程升级到LWRP/HDRP后材质都变洋红色了,怎么办?
  7. 遥感数字图像处理-----第一章---数字图像基础
  8. 泰安本地话听不懂,为何后来能勉强听懂?
  9. Android模拟器的建立以及HelloWorld的编写
  10. 【windows服务器使用cwRsync实时同步】
  11. UE4搭建场景与特效文档—地形、水体、植被、雨雾效果
  12. 三人表决器逻辑表达式与非_正则表达式 - 驰念
  13. 电压监测器:线性稳压IC 台湾合泰LDO系列
  14. 三星32英寸智能电视试用 功用全部对得起高价
  15. 中山大学南方学院计算机专业分数线,中山大学南方学院历年录取分数线多少及各省最低投档线统计表...
  16. 3 万字,关系型数据库性能体系,设计和效率提升
  17. JQuery获取父,子,兄弟节点
  18. 游戏美术设计师需要什么学历背景?主要做什么?
  19. 基于51单片机电子密码锁门禁开关设计全套资料
  20. 计算机表白那个视频教程,表白软件制作_表白软件制作教程_表白软件制作视频教程 _课课家...

热门文章

  1. 网站外链篇,外链网站集合范本第一集
  2. python绘制圣诞树、烟花、爱心及节日倒计时
  3. MSM8909 平台camera移植
  4. .word的意思是什么?
  5. k8s的rbac授权操作
  6. 一篇NDSS的关于SDN缓冲区漏洞的论文
  7. 如何用python制作樱花_用python绘制樱花树
  8. apollo自动驾驶进阶学习之:如何调试TrafficLight红绿灯交通规则参数调整
  9. 2023麦肯锡中国消费者报告
  10. CCIR601和CCIR656标准