中文问答系统中问题分类技术研究

【摘要】:问答(Question Answering, QA)系统允许用户以自然语言形式进行提问,并直接返回精确的答案。与传统搜索引擎相比,问答系统的查询方式更加人性化,较好地满足了用户快速、准确地获取信息的需求,代表着下一代智能搜索引擎的发展方向。

问题分类通过确定问题的目标答案类型,为后续答案抽取和选择提供语义限制和约束,缩小候选答案的查找范围,并针对不同的问题类型选择不同的答案选择策略,对提升问答系统的整体性能具有特别重要的意义。

问题分类类似于文本分类,但问题分类比文本分类更难。问题分类的处理对象是简短的问句,所含特征信息相对较少。对于当前基于监督学习的问题分类来说,其关键在于特征提取,所提取的特征越丰富,分类的精度也就越高。但是,现有研究存在以下两点不足:

(1)特征提取很大程度上依赖于自然语言处理技术。无论是从现阶段的自然语言处理技术水平来看,还是从问答系统的实时性要求方面考虑,这种特征提取方式不仅会遇到实现技术上的限制,而且也难以满足实际问答系统的需求。

(2)忽视了对所提取特征的组合优化。现有工作大都根据所提取特征本身的分类精度,将一些认为比较重要的特征组合到一起。这种单纯依据特征本身重要性的特征组合方法具有一定的主观性,进而也影响了实际的问题分类效果。

对于中文问题分类,上述两点更加明显。由于中文自然语言处理技术相对于英文还远远不够成熟和完善,加之相应的语言处理基础资源(知识库、语料库等)等的缺乏,与英文问题分类相比,问句特征的提取更加困难。同时,由于中文语言表达的多样性和复杂性,所提取的中文问题特征之间的关联性更强,对这些特征进行组合优化就显得更为重要。

本文针对中文问题分类精度偏低的现状,从丰富特征集合及优化特征组合等层面,来探讨提升当前中文问题分类性能的具体实现途径。具体工作如下:

(1)针对中文问题分类缺乏丰富的特征,提出一种融合基本特征和词袋绑定特征的问句特征模型。在词袋、词性和词义等基本特征的基础上,通过将词性、词义等基本特征与词袋特征分别进行绑定,自动获取一类新的问句特征——词袋绑定特征,并将基本特征与词袋绑定特征进行融合,以获取更加高效的问句特征集合。这种新的问句特征模型不仅具有实现简单、处理开销小的优点,而且有效弥补了基本特征在句法、语义表达方面的不足。实验结果表明,在基本特征基础上融入词袋绑定特征以后,取得了与目前同类型问题集上已知最好的分类精度相当的分类效果。

(2)针对(1)中词袋绑定操作只是将词性、词义等基本特征单独绑定到词袋上,将其扩展为可以将词性、词义等若干基本特征同时绑定到词袋上的多重词袋绑定(multi-ple bag_of_words binding,MBWB)操作。通过在普通词袋和主干词词袋(trunk_BOW, T_BOW)上分别应用MBWB操作,自动生成两类潜在的问句特征——MBWB特征和T MBWB特征。MBWB操作可以更加充分地挖掘蕴含于基本特征之间的潜在特征,定程度上缓解了现有特征提取方法所面临的语言技术限制问题。实验结果表明,在基本特征基础上加入MBWB特征、T_MBWB特征以后,问题分类精度获得了较大的提升。

(3)针对依据特征重要性分析(importance analysis,ⅠA)的特征组合方法具有一定的主观性,提出一种基于重要性和抑制性分析(importance-inhibition analysis,ⅡA)的特征组合方法。该方法在组合问句特征时不仅考虑了单个特征本身的重要性,还考虑了待组合特征之间的抑制性。实验结果表明,与IA特征组合方法相比,ⅡA方法总体上要更加高效。

(4)考虑到ⅡA特征组合方法在特征数量较大时实现效率较低,进一步提出一种基于差异性和重要性的特征组合(diversity and importance based feature combination, DIFC)方法。借鉴分类器集成领域中的分类器互补指数来度量特征之间的差异性,并将差异性的定义由仅考虑样本集被错误分类时的差异(错分差异),扩展为同时考虑样本集被正确分类时的差异(正分差异);将互补性的定义扩展为同时考虑待组合特征与当前特征组合的差异性,以及待组合特征本身的重要性。实验结果表明,与ⅡA等其他特征组合方法相比,DIFC方法灵活高效,准确率更高。

【相似文献】

中国期刊全文数据库

前20条

1

卢志坚,张冬茉;中文问答系统中的问句理解[J];计算机工程;2004年18期

2

王树西;问答系统:核心技术、发展趋势[J];计算机工程与应用;2005年18期

3

贾君枝;毛海飞;;汉语框架网络问答系统问句处理研究[J];图书情报工作;2008年10期

4

胡小华;刘轩;刘丹;陆伟;;基于冗余的仿真问答系统的轻量级局部文本分析[J];图书情报知识;2009年01期

5

张中峰;李秋丹;;社区问答系统研究综述[J];计算机科学;2010年11期

6

陈玉;;基于“为什么”问句的中文问答系统研究[J];农业网络信息;2010年11期

7

陈玉;;基于关键词距离的中文问答系统研究[J];电脑开发与应用;2011年01期

8

翟菊叶;马吴迪;;电子商务问答系统的研究[J];科技信息;2011年18期

9

李季;浅谈中文问答系统[J];辽宁经济职业技术学院.辽宁经济管理干部学院学报;2004年01期

10

林鸿飞;丁洪文;杨志豪;赵晶;;基于概念和统计的问答系统实现机制[J];大连理工大学学报;2006年02期

11

杜玮;邸书灵;孙树静;;基于互联网技术的问答系统研究[J];微计算机信息;2007年36期

12

张晓孪;王西锋;李乃乾;;中文问答系统中问题理解的研究与实现[J];西华大学学报(自然科学版);2008年02期

13

姜东洋;;中文问答系统中问题理解的研究[J];电脑知识与技术;2008年05期

14

刘杰;樊孝忠;王涛;;基于本体的受限领域问答系统研究[J];广西师范大学学报(自然科学版);2009年01期

15

陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期

16

刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期

17

黄莉;;浅析汉语问答系统中的句子检索方法[J];价值工程;2010年14期

18

曾庆鹏;吴水秀;;网络教学平台中问答系统的关键技术研究[J];计算机与现代化;2010年07期

19

刘高军;马砚忠;段建勇;;社区问答系统中“问答对”的质量评价[J];北方工业大学学报;2012年03期

20

张永奎,赵辄谦,白丽君,陈鑫卿;基于互联网的中文问答系统[J];计算机工程;2003年15期

中国重要会议论文全文数据库

前10条

1

何靖;陈翀;闫宏飞;;开放域问答系统研究综述[A];第六届全国信息检索学术会议论文集[C];2010年

2

栾家阳;张文波;姚天昉;;基于汽车领域的情感问答系统设计与实现[A];第五届全国青年计算语言学研讨会论文集[C];2010年

3

张琼;陈群秀;;面向网络的问答系统研究综述[A];第一届学生计算语言学研讨会论文集[C];2002年

4

王树西;刘群;白硕;王斌;程学旗;姜吉发;;基于动态知识库的问答系统研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

5

吴友政;赵军;段湘煜;徐波;;构建汉语问答系统评测平台[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

6

王树西;白硕;;中文问答系统中的模式推理[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

7

栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年

8

陈志峰;朱巧明;;面向课程教学的中文问答系统研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

9

高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年

10

李茹;王文晶;梁吉业;宋小香;刘海静;由丽萍;;基于汉语框架网的旅游信息问答系统设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

中国博士学位论文全文数据库

前10条

1

路遥;用户交互式问答系统中问题推荐机制的研究[D];中国科学技术大学;2012年

2

王树西;基于文本模式推理的问答系统研究[D];中国科学院研究生院(计算技术研究所);2005年

3

4

刘松;基于全信息的问答系统研究[D];北京邮电大学;2014年

5

呼大为;面向问答系统的答案获取方法研究与实现[D];中国科学技术大学;2008年

6

李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年

8

刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年

9

黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年

10

倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年

中国硕士学位论文全文数据库

前10条

1

崔艳敏;限定领域内问答系统的设计与实现[D];内蒙古大学;2010年

3

张可培;基于阅读理解模式的中文问答系统研究[D];宁波大学;2011年

4

薛冰;一种基于知网的社会化问答系统研究与实现[D];西安电子科技大学;2011年

5

申晨;中草药问答系统的设计与实现[D];浙江大学;2014年

6

刘渊杰;社区问答系统最佳回答机制的研究[D];上海交通大学;2010年

8

常毅;开放领域的问答系统研究[D];中国科学院研究生院(计算技术研究所);2004年

9

韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年

10

王永芳;面向农民的问答系统设计与实现[D];山西大学;2011年

徐波 博士 计算机,中文问答系统中问题分类技术研究相关推荐

  1. 徐波 博士 计算机,徐波教授:医工联合促进智能肿瘤学发展——探秘肿瘤精准治疗中的AI技术...

    原标题:徐波教授:医工联合促进智能肿瘤学发展--探秘肿瘤精准治疗中的AI技术 编者按:近年来,人工智能(AI)技术在医学领域得到广泛应用.在肿瘤精准治疗时代,AI技术的应用进一步促进了肿瘤患者个体化精 ...

  2. 徐波 博士 计算机,徐波医生(博士 广州市第一人民医院主任医师)简介

    徐波医生 医学百事通志愿者医师 广州市第一人民医院甲状腺外科行政主任 徐波医生个人简介: 徐波,籍贯湖北孝感,广州市第一人民医院甲状腺外科行政主任,主任医师,教授,医学博士.担任广州医科大学硕士研究生 ...

  3. 计算机中文字体的独创性,计算机中文字体中单字的著作权保护研究(2)

    计算机中文字体中单字的著作权保护研究(2) 发布时间:2015-06-04 13:55点击率: 固然,计算机中文字由于自身结构和笔画顺序的限制,其设计空间较小,"独创性"也不如其他 ...

  4. 计算机在材料科学中的应用电子版,计算机在材料科学中的应用技术

    计算机在材料科学中的应用技术 (4页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 9.9 积分 材料学院 <计算机在材料化学中的应用技术>课程 ...

  5. 计算机操作系统的备份和快速恢复,计算机操作系统维护中的还原技术分析

    计算机操作系统维护中的还原技术分析 人们在日常的生活和工作中,对于计算机应用已经非常普遍,下面是小编搜集整理的一篇探究计算机操作系统维护还原技术的论文范文,供大家阅读参考. 摘 要:在科学技术不断发展 ...

  6. 华为诺亚方舟实验室—推荐系统中的前沿技术研究与落地报告

    来源:专知 [导读]9月6-7日,2019中国AI开发者大会(AI ProCon 2019) 在北京拉开帷幕.本次大会由新一代人工智能产业技术创新战略联盟(AITISA)指导,鹏城实验室.北京智源人工 ...

  7. 华为在推荐系统中的前沿技术研究与落地(附PPT下载链接)

    今天给大家分享华为诺亚方舟实验室唐睿明在2019年AIProCon开发者大会上的主题演讲<推荐系统中的前沿技术研究与落地----深度学习.AutoML与强化学习.pdf>,希望对您有用. ...

  8. 武汉大学计算机学院李俊,GML空间数据存储技术研究.pdf

    GML空间数据存储技术研究.pdf 第41卷增刊 计算机研究与发展 v01.41,Suppl. 2004年10月 OFCOMPUTER Oct.2004 JOI瓜NAL RESEARCHANDDEVE ...

  9. 推荐系统中的前沿技术研究与落地:深度学习、AutoML与强化学习 | AI ProCon 2019...

    整理 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 个性化推荐算法滥觞于互联网的急速发展,随着国内外互联网公司,如 Netflix 在电影领域,亚马逊.淘宝.京东等在电商领域,今日头 ...

  10. 中文事件抽取关键技术研究(谭红叶 博士毕业论文)

    中文事件抽取关键技术研究(谭红叶 博士毕业论文) 事件抽取的定义 ACE2005 将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型.事件论元角色 ...

最新文章

  1. 关于sysobjects这个表
  2. Python如何实现单步调试
  3. 实验long raw 和 blob两种数据类型遇到dblink的表现
  4. Java 并发专题 : Semaphore 实现 互斥 与 连接池
  5. 已解决:pod资源清单yaml中各字段详解
  6. Vue+Openlayers实现显示图片并分优先级多图层加载
  7. c++ 类 A类调用B类
  8. css箭头超链接,css超链接
  9. 一本通【例4-10】最优布线问题
  10. 借博客发泄一下对ExtJs的不满
  11. BZOJ1047B Cover Points
  12. 用计算机处理机读卡上,改卷子和登分程序及其注意事项以及一些操作
  13. chap4Web服务器-入门学习笔记
  14. Qt编写的项目作品11-带频谱的音乐播放器
  15. 消防应急照明和疏散指示系统——集中控制型系统的设计与应用
  16. 关于memset(G,0x3f,sizeof(G))的说明
  17. HTML图片不能上下铺满屏幕_边学边做网页篇------初识HTML
  18. C#为listview选中的项添加右键菜单
  19. c语言循环计算分式加减乘除混合运算,计算()_分式的加减乘除混合运算及分式的化简_中学题库-沪江中学学科网...
  20. 给微信好友批量发图片

热门文章

  1. dpi,分辨率,屏幕尺寸,dp,px,dip
  2. C语言程序设计 - 积分兑换
  3. ABAP 关于 delete adjacent duplicates from的小心得
  4. CSS 3之 文本样式(三)
  5. 《深度学习:走向核心素养》学习体会
  6. CCProxy+Proxifier代理手机连接电脑(玩网游)支持VIST(防QQ不掉线)本文转载
  7. 记录使用mybatis-plus时遇到的错误
  8. BiliDuang(哔哩哔哩视频下载器)
  9. 古风一棵桃花树简笔画_唯美意境桃花古风句子
  10. 许巍的故乡到底想表达什么?是写给谁的?