1、几个早期的自动分词系统

自80年代初中文信息处理领域提出了自动分词以来,一些实用性的分词系统逐步得以开发,其中几个比较有代表性的自动分词系统在当时产生了较大的影响。

CDWS分词系统是我国第一个实用的自动分词系统,由北京航空航天大学计算机系于1983年设计实现,它采用的自动分词方法为最大匹配法,辅助以词尾字构词纠错技术。其分词速度为5-10字/秒,切分精度约为1/625。

ABWS是山西大学计算机系研制的自动分词系统,系统使用 “两次扫描联想-回溯”方法,运用了较多的词法、句法等知识。其切分正确率为98.6%(不包括非常用、未登录的专用名词),运行速度为48词/分钟。

CASS是北京航空航天大学于1988年实现的分词系统。它使用正向增字最大匹配,运用知识库来处理歧义字段。其机械分词速度为200字/秒以上,知识库分词速度150字/秒(没有完全实现)。

书面汉语自动分词专家系统是由北京师范大学现代教育研究所于1991前后研制实现的,它首次将专家系统方法完整地引入到分词技术中。

2、清华大学SEG分词系统

此系统提供了带回溯的正向、反向、双向最大匹配法和全切分-评价切分算法,由用户来选择合适的切分算法。其特点则是带修剪的全切分-评价算法。经过封闭试验,在多遍切分之后,全切分-评价算法的精度可以达到99%左右。

3、清华大学SEGTAG系统
此系统着眼于将各种各类的信息进行综合,以便最大限度地利用这些信息提高切分精度。系统使用有向图来集成各种各样的信息。通过实验,该系统的切分精度基本上可达到99%左右,能够处理未登录词比较密集的文本,切分速度约为30字/秒。

4、国家语委文字所应用句法分析技术的汉语自动分词

此分词模型考虑了句法分析在自动分词系统中的作用,以更好地解决切分歧义。切词过程考虑到了所有的切分可能,并运用汉语句法等信息从各种切分可能中选择出合理的切分结果。

5、复旦分词系统
此系统由四个模块构成。一、预处理模块,利用特殊的标记将输入的文本分割成较短的汉字串,这些标记包括标点符号、数字、字母等非汉字符,还包括文本中常见的一些字体、字号等排版信息。二、歧义识别模块,使用正向最小匹配和逆向最大匹配对文本进行双向扫描,如果两种扫描结果相同,则认为切分正确,否则就判别其为歧义字段,需要进行歧义处理;三、歧义字段处理模块,此模块使用构词规则和词频统计信息来进行排歧。最后,此系统还包括一个未登录词识别模块,实验过程中,对中文姓氏的自动辨别达到了70%的准确率。系统对文本中的地名和领域专有词汇也进行了一定的识别。

6、哈工大统计分词系统

此系统能够利用上下文识别大部分生词,解决一部分切分歧义。经测试,此系统的分词错误率为1.5%,速度为236字/秒。

7、杭州大学改进的MM分词系统
系统的词典采用一级首字索引结构,词条中包括了“非连续词”(形如C1…* Cn)。系统精度的实验结果为95%,低于理论值99.73%,但高于通常的MM、RMM、DMM方法。

8、Microsoft Research 汉语句法分析器中的自动分词

微软研究院的自然语言研究所在从90年代初开始开发了一个通用型的多国语言处理平台NLPWin,据报道,NLPWin的语法分析部分使用的是一种双向的Chart Parsing,使用了语法规则并以概率模型作导向,并且将语法和分析器独立开。 实验结果表明,系统可以正确处理85%的歧义切分字段,在Pentium 200 PC上的速度约600-900字/秒。

9、北大计算语言所分词系统

本系统由北京大学计算语言学研究所研制开发,属于分词和词类标注相结合的分词系统。系统的分词连同标注的速度在Pentium 133Hz/16MB内存机器上的达到了每秒3千词以上,而在Pentium II/64MB内存机器上速度高达每秒5千词。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
现代汉语文本的自动分词算法和基本概念,都在这里了
http://www.duozhishidai.com/article-4170-1.html
1.人工智能时代,AI人才都有哪些特征?
http://www.duozhishidai.com/article-1792-1.html
2.大数据携手人工智能,高校人才培养面临新挑战
http://www.duozhishidai.com/article-7555-1.html


多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

目前国内汉语自动分词系统的研究现状相关推荐

  1. iOS系统越狱研究现状梳理

    姓名:李泽涛       学号:20202132034   背景及意义 为了方便讲述,现在为以下几个名词提供一个便于理解的别称 监狱=iOS操作系统 囚犯=iOS系统应用 检察官=系统用户 监狱长=i ...

  2. 错误: 句法分析器6行里不能有多字节字符_汉语自动分词,对搜索引擎有多大影响?...

    目前,国内的每个行业.领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文搜索引擎是必然的产物.中文搜索引擎与西文搜索引擎在实现的机制和原理上大致雷同,但由于汉语本 ...

  3. 汉语自动分词研究评述

     汉语自动分词研究评述 [作者]孙茂松/邹嘉彦 [作者简介]孙茂松,清华大学     邹嘉彦,香港城市大学     孙茂松,100084 北京.清华大学计算机系 Email:lkc-dcs@mail. ...

  4. 数字图书馆系统架构研究评述

    [题]数字图书馆系统架构研究评述 [作者]侯三军.严明 [出处]<数字图书馆论坛>2011年9期 摘要:软件系统架构设计处于软件系统开发的早期,是系统开发的重要组成部分.是否有一个稳定的软 ...

  5. NLP之汉语自动分词

    汉语自动分词就是让计算机识别出汉语文本中的'词',在词与词之间自动加上空格或其他边界标记. 目录 一.汉语自动分词中的基本问题 1.1分词规范问题 2.2歧义切分问题 3.未登录词问题 二.汉语分词方 ...

  6. 《拜占庭系统技术研究综述_范捷》笔记

    <拜占庭系统技术研究综述_范捷>笔记 文献信息:清华大学,期刊,2013,范捷 Abstract 分析了目前拜占庭系统的研究现状,并探讨了拜占庭系统的发展趋势 Conclusion 成果涌 ...

  7. java国外研究综述,国内外研究现状_毕业论文

    心电信号采集分析系统的研究现状 随着电子与信息技术的不断发展及其在医疗系统中应用的深入,世界各地尤其是欧美国家相继提出了心电检测设备的小型化.家用化要求和建立远程医疗体系的设想.从1980年代开始,国 ...

  8. 基于机器学习的古代汉语自动分词标注算法及语料库研究

    摘 要 近年来,深度学习的浪潮渗透在科研和生活领域的方方面面,本文主要研究深度学习在自然语言处理,尤其是古汉语自然语言处理方面的应用.本文旨在利用计算机帮助古文研究者对古汉语完成断代.断句.分词及词性 ...

  9. VR的国内研究现状及发展趋势

    转载请声明转载地址:http://www.cnblogs.com/Rodolfo/,违者必究. 一.国内研究现状 我国虚拟现实技术研究起步较晚,与发达国家还有一定的差距. 随着计算机图形学.计算机系统 ...

  10. 国内的P2P研究现状http://motiandashao.spaces.live.com/blog/cns!CFE80CFB9E5942DA!150.entry

    1.2.2 国内的P2P研究现状 学术机构研发 北京大学-Maze Maze 是北京大学网络实验室开发的一个中心控制与对等连接相融合的对等计算文件共享系统,在结构上类似Napster,对等计算搜索方法 ...

最新文章

  1. matlab多维数组、结构体数组
  2. SwiftSuspenders 1.6 浅出深入 深入 2
  3. 世界经济增速统一放缓,网络拓扑发现统一增速
  4. lua-resty-iputils, 在Openresty中,用于处理IP地址的实用程序函数
  5. setresult()java_Java ResultSet getType()方法与示例
  6. LeetCode 1685. 有序数组中差绝对值之和(前缀和)
  7. 基本linux命令vi,基本linux和vi命令.pdf
  8. oracle 拉链表 计算和,Oracle拉链表和流水表如何按照时间匹配求新的计算项
  9. 34.Odoo产品分析 (四) – 工具板块(5) – 设备及联系人目录(1)
  10. 57. mysqli 扩展库(4)
  11. qconbeijing2017
  12. 网络对战五子棋(web-gobang)项目
  13. 吉林大学珠海学院计算机录取分数线,大学介绍 | 吉林大学珠海学院(附录取分数线,重点专业)...
  14. Python - 摄氏度华氏度转换
  15. html中阳历生日转换成农历,农历转阳历换算(阴历和阳历生日转换器)
  16. react项目中使用sass
  17. 清华计算机408考研真题资料经验分享
  18. elasticsearch _cat命令使用详情
  19. Win11的两个实用技巧系列之自动开机、麦克风声音设置
  20. 大气采样器的结构介绍

热门文章

  1. DICOM学习(3)——python实现worklist获取
  2. 资深人士关于PIFA天线的理解与讨论
  3. ezcad旋转轴标刻参数_激光打标机软件ezcad中菜单下的旋转角度标刻2功能介绍及其操作设置...
  4. 盘点全球8K视频直播的解决方案和成果
  5. 计算机网络课程设计小型企业局域网的组建,计算机网络课程设计小型企业局域网的组建.doc...
  6. quartus 13.1自带仿真测试流程
  7. 杂记——淘宝/京东 商品/评论爬取+词云图制作
  8. android开机自动打开微信小程序,Android应用启动微信小程序
  9. 反编译工具Reflector下载(转)
  10. 最容易扩展的光立方程序设计