seg:NLP之正向最大匹配分词

已迁移到我新博客,阅读体验更佳seg:NLP之正向最大匹配分词
完整代码实现放在我的github上:click me

一、任务要求

实现一个基于词典与规则的汉语自动分词系统。

二、技术路线

采用正向最大匹配(FMM)方法对输入的中文语句进行分词，具体的实现可以分为下面几个步骤：
1. 对输入的一个中文语句，首先在程序中判断并确保语句中不包含数字或者字母
2. 在句子中的当前位置开始取与词典dic_ce.txt中最大匹配长度的词作为一个分词段，如果没有在词典中成功匹配到就将句子在当前匹配位置的这个字作为一个分词段并将匹配位置向前挪一个位置
3. 重复第2步直到匹配位置移到句末
下面是用FMM方法分词的具体实现:

//param@seg:保存分词段结果的vector
//param@st:带分词的中文语句
void segment(vector<string> &seg, string st) {int pos = 0;int sz = st.length();string t;int cnt = 0, spos;while (pos < sz) {cnt = pos;spos = pos;t = "";while (st[cnt]) {t += st.substr(cnt, 2);if (wordmap.find(t) != wordmap.end())pos = cnt + 2;cnt += 2;}if (pos == spos) {seg.push_back(st.substr(spos, 2));pos += 2;}else {seg.push_back(st.substr(spos, pos - spos));}}return;
}

三、数据说明

汉英词典dic_ce.txt，读取其中的汉词用于与句中词进行匹配，词典采用GBK编码，下面是给出文件内容示例：

//gbk编码，每行第一个词是汉词，后面是它对应的英译单词，以','分隔
阿弥陀佛,Amitabha
阿米巴,amoeba,amoebae
阿姆斯特丹,Amsterdam
阿斯匹林,aspirin

四、性能分析

假设输入中文语句长度为n，程序时间复杂度最坏情况下是O(n^2)，最好情况是O(n)，下面是程序分析结果及分词耗时评测的截图：

五、运行环境

将执行文件seg.exe与数据字典dic_ce.txt放在同一个目录下，然后点击seg.exe即可正常运行，进入运行窗口后根据提示进行输入即可得到分词结果。

转载于:https://www.cnblogs.com/brooksj/p/10765656.html

seg:NLP之正向最大匹配分词相关推荐

python最大分词_python正向最大匹配分词和逆向最大匹配分词的实例
正向最大匹配 # -*- coding:utf-8 -*- CODEC='utf-8' def u(s, encoding): 'converted other encoding to unicode ...
前向最大匹配分词FMM
def getSeg(text,lib_trie):if not text:return ''if len(text) == 1:return textif lib_trie.find(text):r ...
java 最大分词算法_Java实现的最大匹配分词算法详解
本文实例讲述了Java实现的最大匹配分词算法.分享给大家供大家参考,具体如下: 全文检索有两个重要的过程: 1分词 2倒排索引我们先看分词算法目前对中文分词有两个方向,其中一个是利用概率的思想对文 ...
java正向最大匹配算法_java中文分词之正向最大匹配法实例代码
前言基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典. 所谓词典正向最大匹配就是将一段字符串进行分隔,其中分隔的长度有限制,然后将分隔的子 ...
基于词典的正向最大匹配中文分词算法，能实现中英文数字混合分词
基于词典的正向最大匹配中文分词算法,能实现中英文数字混合分词.比如能分出这样的词:bb霜.3室.乐phone.touch4.mp3.T恤第一次写中文分词程序,欢迎拍砖. publicclass MM ...
词法分析-中文分词技术-正向最大匹配法与逆向最大匹配法
词法分析-中文分词技术-正向最大匹配法与逆向最大匹配法 Type真是太帅了于 2018-12-31 13:20:07 发布 1930 收藏 1 分类专栏: 编程版权编程专栏收录该内容 15 ...
Python实现中文分词--正向最大匹配和逆向最大匹配
编译原理实验二:Python实现中文分词–正向最大匹配和逆向最大匹配最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数 ...
正向最大匹配中文分词算法
中文分词一直都是中文自然语言处理领域的基础研究.目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率.而且不少中文分词软件支持Lucene扩展.但不管实现如何,目前而言的分 ...
@分词算法FMM（正向最大匹配）
@分词算法FMM(正向最大匹配) b.addActionListener(new ActionListener() { //b是一个按钮,给按钮添加的事件.Connection conn = DB.g ...

seg:NLP之正向最大匹配分词

一、任务要求

二、技术路线

三、数据说明

四、性能分析

五、运行环境

seg:NLP之正向最大匹配分词相关推荐

最新文章

热门文章