中文分词 及发展现状(总结的不错)
目录
-
-
1基本信息
- 背景
- 作用
- 影响
-
2算法分类
- 字符匹配
- 理解法
- 统计法
-
3技术难点
- 歧义识别
- 新词识别
-
4应用
-
5常见项目
- SCWS
- FudanNLP
- ICTCLAS
- HTTPCWS
- CC-CEDICT
- IK
- Paoding
- MMSEG4J
- 盘古分词
- Jcseg
- friso
-
6中文分词API
-
1基本信息
背景
作用
影响
2算法分类
字符匹配
理解法
统计法
3技术难点
歧义识别
新词识别
4应用
5常见项目
SCWS调用示例
SCWS
FudanNLP
ICTCLAS
HTTPCWS
CC-CEDICT
IK
Paoding
MMSEG4J
盘古分词
Jcseg
friso
6中文分词API
- 参数说明可传参数,如下:
参数
|
类型
|
是否可选
|
意义
|
枚举
|
备注
|
---|---|---|---|---|---|
text
|
String
|
是
|
需要分词文字或文章
|
默认:
Foxapi 是一个针对开发者提供一些预先定义的接口,通过该接口开发者可以获取到相应的数据信息,方便开发者调用数据,从而间接减少代码编写。 |
|
separator
|
String
|
是
|
分词符号
|
默认:/
|
|
freqfirst
|
Boolean
|
是
|
优先判断词频。
如果一个长的单词由多个短的单词组成,而长的单词词频较低则忽略长的单词。 如:香格里拉酒店的词频比香格里拉和酒店的词频都要低,则忽略香格里拉酒店。 |
默认:true
|
|
matchname
|
Boolean
|
是
|
是否匹配汉语人名
|
默认:true
|
|
multiselect
|
Boolean
|
是
|
多元分词选项,分词将更细致。
如:微软是大公司。 true 则分为 微软/是/大/公司 false 则分为 微软/是/大公司 |
默认:false
|
|
apiid
|
String
|
否
|
API标识码
|
FOXAPI的每个应用都必须使用APIID,用来记录API操作。
请到用户中心获取APIID |
|
alt
|
Alt
|
是
|
返回的数据格式
|
1.xml → XML形式展示数据;
2.json → json形式展示数据; |
默认:xml
|
- 返回内容该API返回的网站信息,如下:<?xml version="1.0" encoding="UTF-8"?><root><text>Foxapi/ /是/一个/针对/开发者/提供/一些/预先/定义/的/接口/,/通过/该/接口/开发者/可以/获取/到/相应/的/数据/信息/,/方便/开发者/调用/数据/,/从而/间接/减少/代码/编写/。/</text></root>参数说明:
参数
|
类型
|
意义
|
备注
|
---|---|---|---|
text
|
String
|
返回的分词后内容
|
|
errormsg
|
String
|
API错误信息
|
当访问API出现错误时,数据里面将出现此节点,否则不出现。
|
一、什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。
中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。
目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。
Google的中文分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。
二、 ICTCLAS中国科学院计算技术研究所
中文词法分析是中文信息处理的基础与关键。
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)。
主要功能包括:
中文分词;词性标注;命名实体识别;新词识别;
同时支持用户词典。
我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。
下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。
(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载
(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine
三、海量智能分词研究版
海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。
下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8
四、其他
(1)CSW中文智能分词组件
运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。
简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。
下载页面: http://www.vgoogle.net/
(2) C# 写的中文分词组件
据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。
下载页面: http://www.rainsts.net/article.asp?id=48
中文分词 及发展现状(总结的不错)相关推荐
- Macropodus中文分词方法综述详解(CWS, chinese word segment)
一.Macropodus简介 Macropodus自然语言处理工具(Albert+BiLSTM+CRF) 拥有中文分词 命名实体识别 新词发现 关键词 文本摘要 计算器 中文 数字阿拉伯数字转换等算法 ...
- 中文分词工具-IKAnalyzer下载及使用
最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查. 关于IKAnalyzer的介绍,网 ...
- HMM、Viterbi与中文分词
基于实际工作经验和网络.书籍资料查询,记录的学习笔记.主要关于中文分词中HMM(隐马尔可夫模型).Viterbi算法及其在中文分词中的应用. 前言 在处理题库去重采用了关键词提取+simhash的办法 ...
- 如何实现BiLSTM实现中文分词?与jieba、LSTM进行对比如何?【文档型详解】
目录 1 本文算法 1.1 算法概述或框架图 1.1.1 标注序列 1.1.2 模型训练 1.1.3 维特比算法求解最优路径 1.2 算法各模块流程图等或公式文字描述等 1.3 算法细节 2 实验结果 ...
- 中文分词最佳记录刷新了,两大模型分别解决中文分词及词性标注问题丨已开源...
伊瓢 发自 中关村 量子位 报道 | 公众号 QbitAI 中文分词的最佳效果又被刷新了. 在今年的ACL 2020上,来自创新工场大湾区人工智能研究院的两篇论文中的模型,刷新了这一领域的成绩. WM ...
- Python中文分词--jieba的基本使用
中文分词的原理 1.中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词. 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 2.现有的 ...
- 中文分词_中文分词及其应用
一.中文分词原理 中文分词是指将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.现有的分词方法可分为三大类,分别是基于字符串匹配的分词方法.基于理解的分 ...
- 中文路径_中文分词的原理、方法与工具
海德格尔说"词语破碎处,无物可存在".中文句子不像英文那样的词与词之间有显示空格边界,使得词和词组边界模糊. 为了让计算机更容易理解文本,通常中文信息处理的第一步是中文分词.中文分 ...
- 中文分词入门之字标注法4
http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5%AD%97%E6%A0%8 ...
- 为什么中文分词比英文分词更难?有哪些常用算法?(附代码)
导读:人类文明的重要标志之一是语言文字的诞生.数千年来,几乎人类所有知识的传播都是以语言和文字作为媒介. 自然语言处理是使用计算机科学与人工智能技术分析和理解人类语言的一门学科.在人工智能的诸多范畴中 ...
最新文章
- es6的Promise(承诺)
- 数字IC—FPGA同行交流
- TCP/IP详解--第十章
- (android硬件应用实战)摄像头拍照实现和总结
- Linux安装及服务控制
- java基础之抽象类和接口
- 【星球知识卡片】视频分类与行为识别有哪些核心技术,对其进行长期深入学习...
- Qwt中如何在曲线上标定特定点
- JAVA学习(十)__MessageFormat用法
- Ansible-playbook 学习
- 【机房收费系统】---上下机
- [C++] C/C++结构体的区别
- 如何成为一名优秀的技术工程师?
- python开发抢票软件_12306抢票软件run python版
- that being said
- 计算机网络的硬件系统包含那些部件,计算机的硬件系统主要包括哪五大部件
- 关于chm提示 已取消到该网页的导航的解决方法
- python,在格式化字符串中使用半个大括号
- ipad上编程方法,服务器安装vscode
- Oracle新建的用户看不到表,oracle中用命令行新建的用户没法建表