模块名称:中文文本自动断句模块

哈工大信息检索研究室 语言技术平台相关技术简介

平台总指导:刘挺教授

平台架构及程序实现负责人:郎君

下列模块按平台处理顺序列出

模块名称:中文文本自动断句模块

负责人姓名:高立琦

曾经开发人员:陈儒

模块简介:将中文文本按照有分割意义的标点符号(如句号)分开,以句子

的序列方式返回。

基本功能:输入为中文文本,输出为中文句子的序列。模块采用迭代子

(iterator)的方式,可以方便地配合STL等标准组件使用。

方法简介:首先实现一个分隔符(Separator)的实例,然后实现句子迭代子(sentence_iterator)的实例。例如:

Separator sep;

sentence_iterator si(&sr, sep), send;

while( si != send )

{

cout << *si << endl; //输出句子

si++;

}

模块名称:词法分析系统

模块开发者:张会鹏

模块负责人:廖先桃

曾经开发人员:高立琦、和为、王卓然

模块简介:词法分析系统IRLAS具有分词、时间数词识别、未登录词识别和词性标注等功能,支持多线程,具有良好的可配置性和健壮性。该系统参加了第二届SIGHAN分词评测,获北大语料封闭测试第3名(共16家机构23个结果,和第一名的F值相差0.1%)。获北大语料开放测试第4名(共14家机构17个结果,和第一名的F值相差0.4%)。系统实现方法是以Unigram和Bigram为基础,利用规则的方法识别时间和数词,以基于HMM的角色标注方法识别未登陆词,以HMM进行词性标注,最后寻优得到最佳的结果。系统利用人民日报6月份语料测试,准确率、召回率、F值分别达到97.2%、97.7%、97.4%。

模块名称:NE识别系统

模块负责人:廖先桃

曾经开发人员:于海滨

模块简介:命名实体识别系统可识别人名、地名、机构名、专有名词、时间、日期、数量短语等七类实体。该模块采用统计和规则相结合的方法实现。先利用基于HMM的方法对文本进行初始标注,然后再利用规则的方法对错标或漏标的结果进行修正,使规则和统计相结合,达到最佳的识别效果。我们抽取的规则包括NE的内部结构特征,上下文特征,用字特征等。利用人民日报语料测试,总的F值为86.93%。

模块名称:中文词义消歧模块

负责人姓名:杨宇娜

指导老师:卢志茂副教授

模块简介:词义消歧是一项词义理解技术,让机器代替人去分析、判断和识别特定语言环境中的词义信息,这就是此模块要完成的任务。

基本功能:词义消歧模块,输入是经过分词的句子,经过词义消歧系统,输出是所有的词汇都标注了词义的句子。模块可以进行全文的词义消歧。

方法简介:此模块采用了基于单纯贝叶斯概率模型的有指导词义消歧方法,封闭测试准确率93.388%,开放测试准确率可以达到89.667%。

模块名称:中文依存句法分析

负责人姓名:马金山

基本功能:由于句法分析识别出句子的语法结构,对语言的处理不再局限于表层的匹配,而是深入语言的内部结构。其分析结果为信息检索、机器翻译、信息抽取等应用领域提供有力的支持。

模块简介:依存句法分析系统用于对汉语进行句法分析,将句子由一个线性序列转化为一棵结构化的依存分析树,通过依存弧反映句子中词汇之间的依存关系,例如:“武汉取消了49个收费项目”,依存分析的结果如下:

方法简介:有效利用句法结构和词汇化是句法分析建模所面临的两个主要困难,本系统在这两方面做了有益的探索。首先,实验室标注了6万句的大规模依存树库,提供较为丰富的词汇信息来源。通过对大规模依存树库的统计学习,获取其中的词汇依存信息,建立了一个词汇化的概率分析模型。然后引入词汇支配度的概念,充分利用了句子中的结构信息。该词汇化方法有效地弥补了以前工作中词性信息的粒度过粗问题,同时词汇支配度增强了对句法结构的识别,有效地避免了非法结构的生成。

在分析算法上,我们使用一个确定性的搜索算法,在线性时间内对句子进行解码。使分析结果的准确率和运行的时空效率上都达到了较高的水平。

以下是该依存分析模块所使用的依存关系标记含义,为XML系统的介绍提供参考

依存关系标记(共24个)

定中关系ATT(attribute)

数量关系QUN(quantity)

并列关系COO(coordinate)

同位关系APP(appositive)

前附加关系LAD(left adjunct)

后附加关系RAD(right adjunct)

动宾关系VOB(verb-object)

介宾关系POB(preposition-object)

主谓关系SBV(subject-verb)

比拟关系SIM(similarity)

核心HED(head)

连动结构VV(verb-verb)

关联结构CNJ(conjunctive)

语态结构MT(mood-tense)

独立结构IS(independent structure)

状中结构ADV(adverbial)

动补结构CMP(complement)

“的”字结构DE

“地”字结构DI

“得”字结构DEI

“把”字结构BA

“被”字结构BEI

独立分句IC(independent clause)

依存分句DC(dependent clause)

模块名称:语义角色标注(SRL)

负责人姓名:刘怀军

指导老师:车万翔

模块简介:找到给定输入句子中所有动词的句法成分,并且用一定的语义角色参数来填充这些句法成分,最后输出能在一定程度上反映句子意义的某种表示形式

基本功能:对于给定的句子,标注所有动词的句法成分为对应的语义角色类型。目前模块只标注7类语义角色:施事,受事,数量词性质的施事和受事,附加成分时间、地点和方位

方法简介:基于依存句法分析和对应的一些规则。考虑语义角色和目标动词的依存关系,以及和动词的相对位置,对上述的7类语义角色分别制定对应的识别规则。

模块名称:单文档文摘模块

负责人姓名:龚诚

曾经开发人员:于海滨

模块简介:通过此模块可以得到一篇文本的文摘

基本功能:输入XML格式的文本,将单文档文摘加入XML格式的文本中

方法简介:基于句子权重的文摘生成方法。首先计算词的权重,然后根据句子中的词的权重和句子在文本中的位置信息产生句子权重,然后根据句子权重选择备选文摘句,最后根据要求的文摘字数生成文摘。

模块名称:单一文本分类系统

负责人姓名:林建国

曾经开发人员:赵世奇、陈毅恒

模块简介:本模块为文本分类模块。应用文本分类技术对给定的未知文本根据设定的文本类别系统,自动标记该给定文本的类别信息。现在该模块共有两套文本系统可供选择,一个是中图分类系统,共有包括机械,经济,哲学等36个类别另一个是新闻文本分类系统,包括财经,生活,教育,军事等11个类别。

基本功能:在有一个规定的类别系统的情况下,我们可以根据文本的内容给该文本一个所属的类别信息。比如网易就把新闻文本根据内容分为财经,生活,军事等14个类别。而该模块的功能就是在设定一个文本分类体系的前提下,对一个未知文本自动标示出该文本的所属类别。

方法简介:使用向量空间模型表示一个文本信息,使用文本的词条作为特征信息,在对特征的降维之后,使用SVM分类器进行分类。

模块名称:指代消解

负责人姓名:李正华

指导老师:郎君

基本功能:对文本中出现的第三人称代词单数形式“他”或“她”进行消解,识别出代词所指的人的姓名。

模块简介:

指代消解功能举例:

李四现在是哈工大计算机系大四的学生。他非常的喜欢体育运动。

其中,“他”所指的是“李四”。指代消解要做的工作就是识别出这种指代关系。

方法简介:现在系统是一个最基本的系统。采用的方法也非常简单。

哈工大信息检索研究室 语言技术平台相关技术简介相关推荐

  1. mysql数据库系统配置文件_跟我学虚拟机系统平台相关技术及应用——在CentOS系统中的MySql数据库系统配置文件中进行配置定义...

    跟我学虚拟机系统平台相关技术及应用--在CentOS系统中的MySql数 据库系统配置文件中进行配置定义 1.1.1MySql5.6数据库系统的配置文件 1.不同作用范围内的系统配置文件 (1)/et ...

  2. 计算机网络相关技术,计算机网络相关技术知识.ppt

    计算机网络相关技术知识 计算机网络相关技术知识 * * DNS-域名管理系统DNS(Domain Name System) 是域名解析服务器的意思.它在互联网的作用是:把域名转换成为网络可以识别的ip ...

  3. [TI TDA4 J721E] TDA4平台 相关技术文章 汇总

            首先感谢阅读,如果您也对TDA4相关的开发感兴趣,我们这边有个学习交流微信群,可以入群和大家一起交流学习. 资历较浅,水平有限,如遇错误,请大家多指正! 保持开源精神,共同分享.进步! ...

  4. 无人驾驶汽车的相关技术,无人驾驶相关技术知识

    无人驾驶涉及哪些技术 无人驾驶汽车依靠人工智能.视觉计算.雷达.监控装置和全球定位系统协同合作,通过电脑实现无人驾驶,可以在没有任何人类主动的操作下,自动安全地操作机动车辆. 无人驾驶依赖几种先进技术 ...

  5. 液位检测技术的相关技术术语

    一.液位测量仪表 通常把能够连续或断续测量液位变化的仪表称为液位测量仪表.它包括液位计和液位信号器. 二.液位计 能够连续测量液位变化的仪表称为液位计,如电容液位计.超声波液位计等,而不称为" ...

  6. 中间件学习——技术平台三步曲

    在前面两篇文章中,我们了解了中间件的基本概念和中间件的主要技术分类,在这篇文章中我们了解下基于中间件的主流技术平台. 技术平台 现有的基于中间件的主流技术平台一般典型的应用是为三层/多层结构的分布式软 ...

  7. 浅谈大数据及相关技术在计算机专业的应用

    信息时代,各种高新科技高速发展,现代科学技术发展进入了"快车道",科学技术的实践化应用改变了人们的生活,其中就包括人工智能技术的应用,如智能家居系统.智能汽车.智慧城市等. 所谓人 ...

  8. ATAC-seq以及相关技术(DNase-seq,MNase-seq,NOMe-seq)的发展

    ATAC-seq技术及相关技术的发展 Reveling in the Revealed这篇文章中,对DNase-seq和ATAC-seq还有MNase-seq相关技术原理以及优缺点进行了总结.具体如下 ...

  9. 数字中台视角下的企业技术平台规划与实践

    数字中台是基于云原生.大数据和人工智能等新技术打造的共享服务平台,是数字新基建的新形态.数据中台包括业务中台和数据中台双中台,基于双中台的数字中台建设,对企业IT规划提出了更高的架构设计要求.技术要求 ...

最新文章

  1. typedef用法小结
  2. 如何将qlv格式倚天屠龙记转换为MP4格式
  3. Pair Project: Elevator Scheduler Report By Hu Renjun
  4. STL Deque 容器
  5. https证书pfx 生成 pem,crt,key
  6. 驱动开发中常用的操作和小知识
  7. CLIP-ViL:CLIP对视觉和语言任务有多大的好处?UC BerkeleyUCLA团队给出了答案!
  8. .Net转Java自学之路—Spring框架篇二(IOC注解、AOP)
  9. IIS——MIME介绍与添加MIME类型
  10. java编程 数组的中位数中枢_Java算法题1:找出两个有序数组的中位数?
  11. JSON七彩影视双端二开修复源码
  12. 关联分析购物篮案例python_购物篮分析案例_关联分析算法_如何做销售数据分析 – 帆软...
  13. 信息论基础 原书第二版 中文版
  14. 绘图工具 Gliffy 使用简介
  15. 雨人系统ORA-01821,时间无法识别
  16. 自学编程的30岁男人,能按应届生那样找工作吗?
  17. 癫痫的神经行为和临床共病:白质网络中断/损伤的作用
  18. UIView相对坐标转换
  19. TMS320F28379D——时钟系统
  20. 创建型模式——原型模型(Prototype Pattern)

热门文章

  1. Win10出现身份验证错误,要求的函数不受支持 可能是由于CredSSP加密Oracle修正。
  2. 微信小程序|系统配送员如何登陆抢单?同城配送、预约服务
  3. Python解题-计算sinx
  4. 江西学校计算机排名2015年,江西截止2021年共计107所大学,排名前22名是这些院校...
  5. 帧间预测:运动估计和运动补偿
  6. csol永恒python评测_反恐精英Online情报中心 - CSOL - 官方网站 - 世纪天成游戏 - 火爆战场真实体验!...
  7. 安全服务工程师的自我修养
  8. edis集群之二——具体使用
  9. 2011年05月14日
  10. 用项目管理的方法管理考研