目前,主题自动标引形成的索引均为关键字或关键词的索引.关键词在选择的时候,可以是主题词,也可以是没有经过任何规范化处理过的任意词汇,也就是自由词.用自由词作为关键词进行标引时,用户检索文献的时候就很容易造成误检或者漏检.

如果将近义词、同义词以及多义词规范化地统一处理,将会提高查准率和查全率,而规范处理即为将关键词转换为主题词.

1、汉语关键词自动转换主题词问题的提出

为提高检索效率,主题词有着重要的地位.所以,用主题词作为文献标引,形成检索标识进行检索具有明显优点.

首先,主题词属于规范化词汇,具有单一性的特点,一个词能够准确地表达一个概念,不随时间变化,不被使用者的主观理解和上下文左右,是十分理想的分析元素.

其次,主题词所反应的概念并不是孤立的,它可以通过逻辑组合形成索引标识,来表达文献的中心内容这就有效避免了标引词对文献主题表达不清,检索率不高的问题.用主题词作为检索词进行对中文文本数据的分析与研究,能有效避免由于检索词的不规范性所导致检索数据库中主题标识的冗余或缺失.

主题词是一种专门从自然语言中挑选出来的表达文本内容的词汇,用于文献的标引或检索,再加以规范化,达到了一个词语一个意义的要求的语词.

例如,“玉米”与“苞米”为同义词,在建立主题索引系统时,如果不进行规范和区分,那么在检索时,就会出现检索不全的情况,为此就必须选择“玉米”这个具有使用频率高而又具有单种含义的规范性词语作为主题词.

目前关键词-主题词转换实现方式主要包括3种:人工方式、计算机辅助方式和自动转换方式.1)人工方式,主要依赖智力劳动人工完成对应转换的操作,效率较低,但质量较高.2)自动转换方式,即由计算机根据释义词典、同义词表等各种语义工具通过各种相似度算法自动完成,效率较高,但质量参差不齐.3)计算机辅助方式,即由人与计算机共同完成,是当前各种关键词-主题词转换采用的主要编制形式.

如李纲在《基于词汇链的关键词自动标引方法》中,利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引.程肖、路蓓等在《热点主题词提取方法研究》中,基于多特征的融合提出热点主题词权重计算方法,构造出热点主题词判断公式HK,实现对热点主题词的提取.将关键词自动转换为主题词是计算机中文信息处理一直关注和力争解决的问题.

2、汉语关键词自动转换主题词方法的步骤

在海量的数据库文献中,并不能保证每篇文章的题名都能反映文章的主题,有的甚至再加上关键词也不能准确地表达文章的主旨.笔者是将文章的题名和摘要两者中的关键词抽出并转换为主题词,这样能有效地防止存取的主题词不能完全表达文章主旨问题的产生.

关键词自动转换主题词的过程可以分为以下几个步骤:第1步,利用已有的词法分析工具对文献进行分词处理和词性标注;第2步,将经过分词处理后的词汇信息根据词语的词性标注进行筛选和词频统计;第3步,将筛选和统计好的词与现有主题词表进行匹配,并重新进行词频统计;第4步,经过人工干预选择出能表达该文献主旨的相关主题词,并进行存储.

其主要的简单的设计流程如图1所示.

在此模块中所应用的是中国科学院计算技术研究所开发的分词工具ICTCLAS(institute of computing technology,Chinese lexical analysis system),应用此工具对数据库中的中文文献进行分词处理和词性标注.ICTCLAS(institute of computing technology,Chinese lexical a-nalysis system)是中国科学院计算技术研究所研制出的基于多层隐马模型的汉语词法分析系统,该系统的功能主要有:中文分词,词性标注,未登录词识别.

分词正确率高达97.58%(最近的973专家组评测结果).

其最主要特点是把分出的词都进行了词性标注,且标注详细,不仅把词类分得很详细,而且把每一类又分成若干更详细的类别.在文献中,具有实际意义的词就是名词(n),还有与名词组合起来的形容词等等,这些词是描述性的词,可以对主题起到更好地表达,而其他的词比如量词(q)、代词(r)、介词(p)、助词(u)、标点符号(w)等等,则不具有实际意义.

所以对文献中词语的筛选与统计,其实就是对文献中名词、动词等的筛选与统计,避免数据的繁杂和冗余,降低了工作量,提高主题词提取的准确性.应用电子版中国分类主题词表将分词出的关键词转换为主题词,具体步骤包括文献分词处理、词频统计、关键词转换主题词和主题词存储.由于在前人研究中文献分词处理和词频统计技术已经比较成熟,本文着重讨论关键词转换成主题词的方法和步骤.

2.1关键词自动转换主题词过程描述

本方法使用国家图书馆出版社所出版的电子版中国分类主题词表来具体操作,其界面如图2所示.

对于不规范的检索词,比如同义词、多义词等,利用电子版中国分类主题词表能将其规范化.例如学名为玉米的事物,在现实生活和文献中,有好多其他的别称,如:苞谷、苞米、棒子,玉蜀黍等等.在此主题词表的检索框中输入此类词汇的别称时,该词表系统会自动地将规范化的主题词汇输出.将所有的筛选出来的词汇经过规范化处理后,就可以得到所有有关文本的主题词.针对可能存在主题词重复的情况,再将其词频进行统计.经过人工筛选出确实能表达该文献主题的主题词,并进行数据存储.

2.2汉语主题词存取的处理流程

首先,数据库中的表包括文献的名称、作者、出版社报刊名称、出版或发表日期以及存取出来的主题词等数据项.

其次,主题词存取的数据处理流程体现在主题词存取过程中,通过计算机编程实现文献信息的读取,并利用分词工具对文献汉语语句做出分析并进行分词处理,处理过的词语信息经过词频统计,以方便主题词匹配时的重点选择,再人工干预选出能概括该文献主旨的主题词.

其流程见图3.

3、关键词自动转换主题词的分词、统计和存储

本方法的重点就是汉语语句的分词处理和分词后对词语进行的筛选统计,以及主题词的录入.其实现使用了C#作为其主要编程语言,目的是减少其繁琐与易错性.使用Microsoft SQL Server 2000数据库实现标引词的提取和存储.

3.1分词处理

在中科院计算所汉语词法分析系统ICTCLAS中,对中文文本数据进行分词处理和分析.如果仅对某些语句进行分词处理,可以将要分析的语句输入到上面的检索框中,再点击“运行”即可得到详尽的分词结果和词语信息.如图4所示.如果对整个文件进行分析处理的话,点击“处理文件…”按钮,会弹出打开文件的对话框,系统会自动将分好的词语保存在相应的目录下,得到的文件留作后面统计处理用.

3.2统计处理

将汉语词法分析系统分析的词语信息进行统计,其算法如下:

1)初始化cizu,cixing,设定标示符flag,以及字符暂存zz,flag等于0时,表示算法在统计过程中,flag不等于0时,表示一个词组识别结束.

2)读取文件,用字符串(s)记录.

3)设定循环次数i(i在(0,s.Length-1)区间).当flag等于0时,如果s[i]为空,则继续,i++;若s[i]是'/',则将cizu赋给zz,设置flag等于1,同时置cizu为空,i++;若s[i]是字,则将s[i]赋给cizu,i++.否则,若s[i]为空格,申请fenci类ci,将zz、词性赋值给ci,同时置zz为空,之后在fenci类中查找当前加入的词是否有记录,若有记录,则更新记录,数目加1,若没有记录,则新建.置flag为0,cixing为空,i++.若s[i]不是空格,则将s[i]赋值给cixing,i++.

3.3主题词存储

将文本的基本信息和提取的主题词保存在数据库中,就得到主题词标引的结果.存储过程其相关代码如下:

4、结论

本文取得的结果是通过中国科学院计算技术研究所开发的汉语分词工具和电子版的中国分类主题词表这2个现有工具,利用计算机编程语言实现中文文献的分词、筛选统计,将分出的词语记录并加以统计词频,词频合适的词被视为能代表文本主旨词语,将其与主题词表进行匹配,从而自动转换成主题词进行存储.

对分词得到的关键词进行主题词匹配所用到的电子版中国分类主题词表,存在加密的情况,所以在探讨阶段还需要人工干预,但是如果真正投入使用,与国家图书馆合作将其接口实现即可.

参考文献:

[1] 章洪流,徐伟,吴倩,等.关键词标引常见问题探讨[J].中国专利与发明,2008(8):66-67.

[2] 顾潇华,姜亦强,崔涛.中文自动标引、全文检索及搜索引擎三者关系的探讨[J].图书馆学研究,2011(17):88-89.

主题词是计算机自动提取,汉语关键词自动转换主题词方法的步骤相关推荐

  1. php文件怎么转换jpg文件怎么打开方式,heic文件如何打开 heic格式转换JPG方法【步骤教程】...

    heic文件怎么打开?heic格式怎么转换JPG?自iOS 11正式版发布,iPhone 7及其以上的新机型在拍摄照片后,图片自动保存成HEIC格式.HEIC是一种高保真画质的图片封装格式,这种格式在 ...

  2. 怎么为计算机硬盘备份,老司机教你win7系统让硬盘实现数据自动备份的方法

    电脑现已成为我们工作.生活和娱乐必不可少的工具了,在使用电脑的过程中,可能会遇到老司机教你win7系统让硬盘实现数据自动备份的方法的问题,如果我们遇到了老司机教你win7系统让硬盘实现数据自动备份的方 ...

  3. Word中标题、图表自动编号的方法

    转自:http://blog.sciencenet.cn/blog-344887-543229.html 一般情况下,Word文档需要为标题提供连续编号,默认的标题样式并没有自动编号的功能,系统默认的 ...

  4. 解决开机后要等待很久才能连接宽带的方法,让宽带自动连接设置方法(转)...

    有的朋友遇到了这样的问题,他用的是联通ADSL的宽带, 开机后要很久才能连接宽带,要在桌面双击"宽带连接"才能连接上,不知道有没有什么方法 让宽带自动连接?我的"本地连接 ...

  5. 汉字拼音计算机,拼音_汉字计算机自动转换系统

    拼音_汉字计算机自动转换系统 夕 年一 月 计 算 机 学 报 第 ! 期 拼音汉 字计算机自动转换系统 凌潘 云杨长 生江大浙学计算机#系 . . % & ( )丫 ) +, ( . %(/ ...

  6. 扫描到计算机怎么转换为文字,通过扫描仪对文稿进行扫描,并将其自动转换成计算机可以识别的文字,称为()...

    需要借助OCR, (光学字符识别,Optical Character Recognition),是通过图像处理和模式识别技术对光学的字符进行识别的意思,是自动识别技术研究和应用领域中的一个重要方面.它 ...

  7. 计算机毕业设计 汉语多音字注音研究

    文章目录 0 项目说明 1 准确率 2 调研阶段 3 数据统计 4 语料处理 5 模型搭建 6 按照多音字的读音的分类方法 7 仿照词性标注问题的分类方法 8 项目源码 0 项目说明 汉语多音字注音研 ...

  8. jupyter分割代码块_科研分享—Python根据关键词自动抓取Pubmed文献标题(附全部代码)文末有福利...

    写在前面:接触Python应该是8月初的一篇公众号文章,大致内容是使用py爬取数据库并汇总到本地.正好手头需要对某个领域的文献进行调研,不妨学习一下. 什么是Python? 百度说:Python (计 ...

  9. 京东智能内容创作算法的演进与实践:基于关键词自动生成摘要

    来源 | 京东智联云开发者 导读:京东商城背后的 AI 技术能力揭秘: 基于关键词自动生成摘要 过去几十年间,人类的计算能力获得了巨大提升:随着数据不断积累,算法日益先进,我们已经步入了人工智能时代. ...

  10. php 转换数组的字符集,PHP 自动转换字符集(支持字符串和数组)功能实例

    这篇文章主要为大家详细介绍了PHP 自动转换字符集(支持字符串和数组)功能实例,具有一定的参考价值,可以用来参考一下. 感兴趣的小伙伴,下面一起跟随512笔记的小编罗X来看看吧. 经测试代码如下: / ...

最新文章

  1. c语言复杂性,C语言复杂函数
  2. Android10.0 Binder通信原理(四)-Native-C\C++实例分析
  3. django 连接mysql 数据库
  4. vim调用python显示json数据
  5. python PyQt5 QtWidgets.QWidget.setLayout()(将布局中的小部件重新父级化,以将窗口作为父级)
  6. 服务器raid卡装虚拟机,DELLR730服务器阵列卡配置、VMware安装、WIN2008安装.docx
  7. The J2EE Architect's Handbook
  8. android switch 未定义,在switch语句中初始化时未定义的变量?
  9. Ubuntu18.04安装最新版Docker
  10. 信息学奥赛C++语言:奇数统计与输出
  11. 判断用户用手机访问还是用电脑访问网页
  12. 5.携程架构实践 --- 框架中间件
  13. react随笔-1(为什么在react使用jq无法正确渲染组件位置)
  14. 华为eNSP Windows10安装教程及错误讲解
  15. SPSS Modeler 自动分类器学习笔记
  16. Retinanet论文解读
  17. 使用php-rdkafka错误总结: version `GLIBC_2.14‘ not found; rdkafka.so: undefined symbol: zend_object_alloc
  18. 如何把catia完全卸载干净_catia卸载不了怎么解决-解决catia无法卸载的方法 - 河东软件园...
  19. myeclipse下使用maven搭建SSM(spring、springmvc、mybatis)框架
  20. 生育登记服务制度啥意思?生育服务证和准生证一回事吗?生育那些事

热门文章

  1. office2019初体验与kms服务器搭建
  2. 学术随笔(二):一篇好论文的标准
  3. PPT设置自动生成页码
  4. pmp项目变更的流程图_【PMP】变更流程图与说明
  5. 全国计算机等级考试三级网络技术知识点考点
  6. NOIP模拟赛 魔方
  7. 数字孪生是什么?以山海鲸智慧园区三维可视化系统为例说明
  8. 如何让自己每天按时睡觉
  9. c# mysql分页_c#-数据库分页查询
  10. 股权转让要交哪些税?增值税、企业所得税、个人所得税