第1章 信息检索基础
1.1 有关信息检索的一些概念
1.2信息检索的类型及特点
1.3信息检索的基本步骤
1.4检索工具
1.5 检索语言
1.6 信息检索的发展趋势
2008-6-27 3
1.1.1信息、文献、知识
1.信息的定义、特征和分类
信息的定义
信息是所有事物的存在方式和运动状态的反映,是
频率变化的一种感知,并且总是借助于一定的物质载
体传输和存储(或者说信息是指消息接受者来说预先不
知道的报道)。对于这个定义可以从两个方面理解:其
一,客观世界中不同的事物是千差万别的,呈现出不同
的状态和特征,从而在人们认识的过程中形成不同的信
息。其二,人们感知外部世界,通常是通过声频或视频
的变化而产生的,正如我们能听到雷鸣,鼓乐,能看到
闪电,图像…
2008-6-27 4
2.信息的特征
(1)传递性
(2)时效性
(3)共享性
(4)客观性
其他的特性还有开发性、存储性、价值的
不定性、变换性、可伪性等。
2008-6-27 5
信息的分类
(1)以存在环境为依据分为:
• 自然信息
• 生物信息
• 机器信息(自动控制系统)
• (人类)社会信息。
(2)以认识主体为依据分为:
• 客观信息,是指对事物不加判断的如实和公正的报
道,即关于认识对象的信息。
• 主观信息,一般是依据事实和分析,阐明个人对论题
的观点和见解,是经过思维主体加工的信息。
2008-6-27 6
(3)以信息的逻辑意义和利害关系划分:
• 有益信息:对社会发展有积极作用的、能够消
除人们对未知事物不确定性的信息,它是人类
社会的资源和财富。
• 无用信息:指对信息使用者所从事的某种活动
没有作用的、多余的信息。
• 有害信息:指对社会发展和信息用户有消极和
阻碍作用的不真实或庸俗、媚俗的信息,主要
有虚假信息和色情信息等。
2
2008-6-27 7
(4)按信息表现形式划分为:
• 文字信息
• 图像信息
• 数值数据信息
• 语音信息
(5)按信息的媒体形式分为:
• 文本信息,按线性顺序排列的,阅读时,人们跟随文本的线性流
向吸收其中的知识单元。
• 超文本信息,按知识单元及其关系建立的知识结构网络。其数据
库由结点和链路组成,查阅超文本信息时,以知识片段及其关系
作为追踪、检索的依据。
• 多媒体信息,多媒体是包括文本、图像和声音在内的各种信息表
达或传播形式的总称。多媒体信息系统能针对用户的需求提供各
种形式的信息。
• 超媒体信息,是指通过计算机控制,把各种文献载体和各种内容
综合为一个整体,从而向读者提供各种形式和各种内容的资料。
超媒体是超文本与多媒体两种技术的结合,即在信息浏览环境下
超文本的信息管理方式与多媒体的信息表现方法结合在一起时,
就称为超媒体。
2008-6-27 8
2.知识的定义和分类
知识的定义
• 知识,是人类对于客观世界的认识。在这里,
知识作广义的理解,包括消息、情况、事实、
数据。知识可分为理性知识和感性知识。理性
知识,是对客观事物的本质和规律性的认识,
是经过思维、逻辑加工的知识,构成知识体
系;感性知识,是对客观事物的描述和对现象、
事实的感知,是未经逻辑加工的知识。
2008-6-27 9
知识的分类
知识按不同标准可作如下分类:
• (1)依照反映对象的深刻性和系统性程度,知识分为
生活常识和科学知识;
• (2)按知识的成熟程度,分为经验知识、理论知识。
• (3)按领域:哲学知识、社会科学知识和自然科学知
识;
• (4)按用途:科学知识、技术知识、文化知识;
• (5)按水平:低级知识、中级知识和高级知识;
• (6)按性质,普通知识、专业知识;
• (7)按载体:隐性知识、显性知识。
2008-6-27 10
3.文献的定义和分类:
文献的定义
• 文献是记录有知识和信息的一切载体,是固化
在载体(纸张、光盘)上的知识。文献是物化
的精神产品,或者说,文献是知识信息的物化
形态。其中,信息内容是文献的知识内核,载
体材料是文献的存在形式和外壳,而符号系统
和记录方式则是二者联系的桥梁和纽带。这4
个要素相互联系就构成了文献的四维框架结构。
2008-6-27 11
文献的分类
根据其内容性质和加工程度的不同,文献可分为以下四个级别:
• (1)零次文献:未经出版发行的文献,包括手稿、个人通信、原
始记录等。
• (2)一次文献:首次出版的各种文献,也称原始文献。如期刊论
文、科技报告、会议论文、专利说明书等。一次文献是以科研生
产活动的第一手成果为依据而创作的文献,内容丰富,参考价值
大,是我们利用的主要对象。
• (3)二次文献:报道和查找一次文献的检索书刊,如各种目录、
题录和文摘等。二次文献是图书情报工作者在大量收集原始文献
的基础上,经过分析、归纳、重组后出版的。二次文献是一次文
献的集约化、有序化的再次出版,是贮藏、利用一次文献的主要
的、科学的途径。
• (4)三次文献:利用二次文献提供的线索,选用大量一次文献的
内容,经综合、分析和评述再度出版的文献,如各种述评、进展
报告、动态综述、手册、年鉴和百科全书等。我们使用的各种教
科书也属三次文献。
2008-6-27 12
文献按存储载体可分为:
• (1)印刷型:通过铅印、油印和胶印等手段,将知识固化在纸张
上的一类文献。例如,图书、期刊以及各种印刷资料。这是一种
有着悠久历史的传统文献形式,至今仍广为应用。它的主要优点
是便于阅读和流传,缺点是体积大,信息密度低。以纸张为存储
介质,用印刷技术出版。如:书、刊等。
• (2)缩微型:以印刷型文献为母本,采用光学摄影技术,把文献
的影像固化在感光材料上的一类文献。常见的缩微型文献有缩微
平片和缩微胶卷两种。这种文献的优点是体积小,信息密度高,
缺点是阅读必须借助阅读机或利用缩微复印机。
• (3)声像型:这是一种非文字形式的文献。常见的有各种视听资
料,如唱片、录音带、电影胶片、激光声视盘(CD-ROM)、幻
灯片等。这类文献记录声音和图像,通过唱机、录音机、录像机、
放影机和投影机等予以重现,可以使人闻其声、观其形。
• (4)机读型:这是近年来由于计算机的广泛应用而产生的一种新
文献。常见的是各种已录有内容的磁带、磁盘和光盘。这种文献
的存贮、阅读和查找利用都须通过计算机才能进行,所以既有信
息量大、查找迅速的优点,又有设备昂贵、使用费用高的缺点。
3
2008-6-27 13
按出版方式,文献可分为:
• 图书 Book:对已有的研究成果或生产经验作概括论述。
• 期刊Periodical:特点:名称固定,定期出版、并计划无限期出
版;出版周期短、报道快;数量大、内容丰富。
• 报纸Newspaper:出版周期最短的定期连续出版物。特点:内容
新、涉及面广,读者最多,影响面广。
• 专利文献Patent Literature:纪录有关发明创造信息的文献。一
般分为国际标准、地区标准、国家标准、行业标准、企业标准。
• 会议文献Conference Literature :在各种会议上宣读和交流的
论文、报告和其他有关资料。
• 科技报告Scientific & Technical Report:对科学技术研究结果
的报告或研究进展的纪录。目的:向上级主管部门汇报。
• 学位论文Dissertation for Academic Degree:作者为获取某
种学位而撰写的科学论文。硕士博士论文具有较高的参考价值;
• 政府出版物Government Publication:各国政府部门及其所属
机构颁布和出版的文献资料。
• 产品样品资料Product Sample Book:厂商为向用户宣传和推销
其产品而印发的介绍产品情况的文献。如:水利水电出版社教材
目录与简介。
• 此外档案ArchivesRecords、Music Score、Map等都是文献家
族中的重要成员。
2008-6-27 14
4.信息、文献、知识三者的关系:
三者之间的联系:
(1)信息概念不仅包括人与人之间的消息的交换,而且
还包括人机之间、机器与机器之间的消息交换,以及
动、植物界信号的交换。
(2)知识是人类通过加工吸收信息,对自然界、人类社
会以及思维方式与运动规律的认识与掌握,是人的大
脑通过思维重新组合的系统化信息的集合。
三者之间转换:
(1)物质运动发出信息;
(2)信息经人脑加工变成知识;
(3)知识被记录形成文献、被传递成为情报;
2008-6-27 15
1.1.2信息检索的定义和分类
信息检索:简单地说就是将信息按照一定的方式组织和存
储起来,并根据信息用户的需要找出有关信息的过程。
信息检索的类型,按检索手段分为:
• (1)手工检索(简称手检):例:以前到图书馆使用卡片目录找
书。
• (2)计算机检索(简称机检):又分为几个阶段:脱机信息检索、
联机信息检索、光盘信息检索、网络信息检索。
按信息检索手段划分:
• (1)传统信息检索:就是手工信息检索,是利用各种印刷型检索
工具来查找文献的一种方法。
• (2)现代信息检索:现代信息检索即计算机信息检索,是指利用
计算机和网络来处理和查找文献信息的检索方式。
2008-6-27 16
1.1.3 信息检索的几个技术指标
(1)检索的方便性
(2)收录全面性
(3)检索效率。
• 检索效率主要用查全率和查准率两个指标来衡
量。
(4)报导及时性
2008-6-27 17
1.2信息检索的类型及特点
1.2.1 手工信息检索
• 以人工方式查找和提供情报的系统。其特点是
人直接参与检索过程。所使用的情报检索工具
包括书本式目录、文摘、索引以及各种卡片
(穿孔卡片、元词卡片)。手工信息检索具有
操作简单、费用低廉、查准率高等优点,但耗
时较多效率低。随着计算机的普及,手工信息
已逐渐被计算机信息检索所代替。
2008-6-27 18
1.2.2 脱机信息检索
以批处理方式进行的脱机检索,即检索只能在检
索系统所在地进行,由检索人员定期将用户课题
汇总,批量输入计算机,用户不能参与检索过
程,不能即时浏览检索结果,修改检索方案,即
不能人机对话。
脱机检索所存在的几点不足表现在:
• (1)地理上的障碍,指用户与检索人员距离较远时,
不便于检索要求的表达,也不便于检索结果的获取。
• (2)时间上的迟滞,指检索人员定期检索,用户不能
及时获取所需信息。
• (3)封闭式的检索,指检索策略一经检索人员输入系
统就不能更改,更不能依据机检应答来修改检索式。
4
2008-6-27 19
1.2.3 联机信息检索
建立在计算机联机处理方式上的信息检
索,即检索者通过检索终端和通信线路直
接查寻检索系统数据库的计算机检索方式。
用户采用终端并通过通信线路,以与检索
系统对话的方式直接访问数据库,进行存
储、检索、打印、修改数据等处理。
2008-6-27 20
1.2.4 光盘信息检索
光盘检索具有储量极大而体积微小,要求
设备简单,可随地安装,使用方便、易于
操作,检索费用低(不需要昂贵的联机检
索通讯费用),因可随时修改检索策略而
具有很高的查全率和查准率等优点
2008-6-27 21
1.2.5 网络信息检索
(1)交互式作业方式
(2)用户透明度
(3)信息检索空间的拓宽
(4)友好的用户界面
2008-6-27 22
1.3信息检索的基本步骤
1课题分析,明确检索范围
2选择检索系统和检索工具
3确定检索点和检索途径
4构造检索式
5选定检索方法
6索取原始文献
2008-6-27 23
1.4检索工具
1.4.1 检索工具概念及作用
• 检索工具泛指查找信息所使用的一切工具和设
备,包括检索工具书、穿孔卡片、电子计算机
等。
• 检索工具的作用:
1)报道作用
2)存储作用
3)检索作用。
2008-6-27 24
1.4.2 检索工具基本类型
按照信息加工的手段或设备划分:
(1)手工检索工具;(2)机械检索工具;(3)计算机检索工具。
按照信息载体形态划分:
(1)书本式检索工具,包括期刊式、单卷式和附录式;
(2)卡片式检索工具;
(3)缩微式检索工具;
(4)磁性材料式检索工具。
按收录范围划分:
(1)综合性检索工具;(2)专科性检索工具;
(3)专题性检索工具;(4)全面性检索工具;
(5)单一性检索工具。
按时间范围划分:
(1)预告性检索工具;(2)现期通报性检索工具;
(3)回溯性检索工具。
按编制方法划分:目录、文摘和索引等。
5
2008-6-27 25
1.5 检索语言
定义
• 检索语言是保证和检索一致的一种共同性的人
工语言,它把文献的存储与检索联系起来,使
文献的标引者和检索者取得共同理解,从而实
现检索。检索语言是应文献信息的加工、存贮
和检索的共同需要而编制的专门语言,它是表
达概括文献信息内容和检索课题内容的概念及
其相互关系的一种概念标识系统。
2008-6-27 26
1.5.2 检索语言的类型
(1)分类语言。
• 所谓分类,是按事物的性质将客观事物加以区
别,并按逻辑顺序将其排列,用以区别事物,
认识事物的一种方法。以文献为对象的分类,
即为文献分类。
• 目前,我国社会科学文献的分类与检索,主要
根据三种分类语言,即《中国图书馆图书分类
法》(简称《中图法》)、《中国人民大学图
书馆图书分类法》(简称《人大法》)和《科
学院图书馆图书分类法》(简称《科图法》)
2008-6-27 27
(2)主题语言
① 标题词语言。是从文献的题目和内容中抽出来,经过规范化处理
的主题语言。从标题词作为文献信息内容的标引标识和检索标识。标
题词一般分为主标题和副标题,词表中按级一一列举各级标题,把主
标题和副标题加以组配,作为标引和检索使用中的依据;
② 叙词语言。是以表达文献主题内容的概念单元为基础,经过规范
化处理,可以进行逻辑组配的一种主语语言。以规范化的标引词形成
词表,各词独立,标引时根据需要进行组配,可表达文献内容方面的
复杂概念,属后组配式,适用于机检和手检;
③ 关键词语言。直接从文献信息的标题、摘要或内容本身抽取出来
的用于揭示信息主题内容的自由词。是一种无词表的自然语言。关键
词选自文献的题目和内容,属于非规范的后组配式;
④ 单元词语言。以文献中的单元词表达文献信息的内容性质,一般
无词表。单元词是文献内容中最基本的不能再加复分的知识单元,单
元词之间可以进行组配,属后组配式;
⑤ 引文语言。利用文献的引文关系而建立的一种自然语言,无词
表,标引词为文献中的主要著录项目,属后组配式。
2008-6-27 28
1.6 信息检索的发展趋势
1.6.1 信息检索的最新技术
• 1.推技术
• 2.集合数据挖掘技术
• 3.自然语言理解技术
• 4.人机交互界面技术
2008-6-27 29
1.6.2 新一代信息检索的特点
智能化搜索
个性化搜索
结构化搜索
垂直化专业领域搜索
本土化的搜索__

第1章 信息检索基础相关推荐

  1. 【研究生论文写作指导】第 1 章 文献信息检索基础

    [研究生论文写作指导]第 1 章 文献信息检索基础 1.1 文献信息检索概述 1.1.1 文献信息检索简史 1.1.2 文献信息检索的基本概念 1.1.3 文献信息检索的类型 1.2 文献信息检索的途 ...

  2. 信息系统项目管理师知识点(第 1 章)-信息系统基础知识

    信息系统基础知识 第 1 章信息系统基础知识 1.1 信息系统 1.1.1 信息系统的概念 1.1.2 信息系统的类型 1 . 2 信息系统建设 1.2.1 信息系统的生命周期 1.2 . 2 信息系 ...

  3. 972信息检索 | 第一章 信息检索概述

    文章目录 第一章 | 信息检索概述 信息检索基本概念 信息检索的含义 信息检索的种类 信息检索的原理 信息检索的历史 手工检索(1876-1945) 机械信息检索(1945-1954) 脱机批处理检索 ...

  4. 《零成本实现Web自动化测试--基于Selenium》第一章 自动化测试基础

    第一篇 Selenium 和WebDriver工具篇 第一章 自动化测试基础 1.1    初识自动化测试 自动化测试有两种常见方式 1.1.1 代码驱动测试,又叫测试驱动开发(TDD) 1.1.2 ...

  5. 第02章 PyTorch基础知识

    文章目录 第02章 Pytorch基础知识 2.1 张量 2.2 自动求导 2.3 并行计算简介 2.3.1 为什么要做并行计算 2.3.2 CUDA是个啥 2.3.3 做并行的方法 补充:通过股票数 ...

  6. 《Python数据分析与挖掘实战》一第1章 数据挖掘基础1.1 某知名连锁餐饮企业的困惑...

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  7. [Spring 深度解析]第2章 Spring基础

    第2章 ◄Spring基础► ​ 在上一章节中,我们学习了Java的注解与反射,在这一章节我们将了解一下Spring框架,并学习Spring框架中重要的编程思想控制反转(IOC).面向切面编程(AOP ...

  8. [Spring 深度解析]第1章 Java基础

    第1章 ◄Java基础► 在学习Spring之前我们需要对Java基础语法有一定的了解,Java中最重要的两个知识点是注解和反射.注解和反射在Spring框架中应用的最广泛.掌握注解和反射,有助于后面 ...

  9. 【Vue.js 牛刀小试】:第九章 - 组件基础再探(data、props)

    系列目录地址 一.基础知识概览 第一章 - 一些基础概念(posted at 2018-10-31) 第二章 - 常见的指令的使用(posted at 2018-11-01) 第三章 - 事件修饰符的 ...

最新文章

  1. 性能超强悍 戴尔 R920服务器
  2. java限频_单个用户及Ip请求频率限制思路(附java实现)
  3. koa2 mysql增删改查_react+koa2+mysql零门槛的全栈体验,附上完整项目分享
  4. tensorflow学习笔记:tf.control_dependencies,tf.GraphKeys.UPDATE_OPS,tf.get_collection
  5. 6个步骤卸载wine
  6. 一个炫酷的仿雷达扫描和扩散效果——自定义View就是这么简单
  7. 惠普台式电脑引导不了系统_远程系统重装电脑维修笔记本台式xpwin7810系统启动安装64位32位专业版家...
  8. mongodb创建图书管理_基于MongoDB的云数据库管理系统的设计与实现
  9. 从 Google 代码库找到的好东西【web开发方面】
  10. xcode object c 函数注释
  11. Redis数据结构之——跳表skiplist
  12. 2020Android手机专业摄影,这 7 款手机,就是 2020 上半年的拍照巅峰
  13. java用poi操作excel,2003,2007,2010
  14. 科学计算机怎么调试,用科学的方法调节用电脑之后的眼睛视力
  15. 红米k40怎样开启NFC步骤分享
  16. (配对问题)一个屋子有一个门(门是关闭的)和3盏电灯。屋外有3个开关,分别与这3盏灯相连
  17. CAD图纸集具体操作步骤
  18. 解决Windows英文版中文软件乱码的问题
  19. 6个常用的React组件库
  20. 向大家介绍一位牛逼的IT老师 => 廖神

热门文章

  1. 12月12日学习内容整理:Ajax中的contentType参数,csrf跨域请求处理,serialize方法...
  2. MySQL Binlog解析
  3. MVP模式在Android中的应用之图片展示选择功能的框架设计
  4. 月英爱耀承(帮别人名字作诗)
  5. CANOE入门(一)
  6. 【133天】尚学堂高淇Java300集视频精华笔记(71-72)
  7. javascript基础系列(入门前须知)
  8. UBI系统原理-中【转】
  9. syntax error near unexpected token
  10. Linux文本比较命令:diff