FMM和BMM的python代码实现

FMM和BMM的编程实现，其实两个算法思路都挺简单，一个是从前取最大词长度的小分句，查找字典是否有该词，若无则分句去掉最后面一个字，再次查找，直至分句变成单词或者在字典中找到，并将其去除，然后重复上述步骤。BMM则是从后取分句，字典中不存在则分句最前去掉一个字，也是重复类似的步骤。

readCorpus.py

import sys
output = {}
with open('语料库.txt', mode='r', encoding='UTF-8') as f:for line in f.readlines():if line is not None:# 去除每行的换行符t_line = line.strip('\n')# 按空格分开每个词words = t_line.split(' ')for word in words:# 按/分开标记和词t_word = word.split('/')# 左方括号去除tf_word = t_word[0].split('[')if len(tf_word) == 2:f_word = tf_word[1]else:f_word = t_word[0]# 若在输出字典中，则value+1if f_word in output.keys():output[f_word] = output[f_word]+1# 不在输出字典中则新建else:output[f_word] = 1big_word1 = t_line.split('[')for i in range(1, len(big_word1)):big_word2 = big_word1[i].split(']')[0]words = big_word2.split(' ')big_word = ""for word in words:# 按/分开标记和词t_word = word.split('/')big_word = big_word + t_word[0]# 若在输出字典中，则value+1if big_word in output.keys():output[big_word] = output[big_word]+1# 不在输出字典中则新建else:output[big_word] = 1f.close()with open('output.txt', mode='w', encoding='UTF-8') as f:while output:minNum = sys.maxsizeminName = ""for key, values in output.items():if values < minNum:minNum = valuesminName = keyf.write(minName+": "+str(minNum)+"\n")del output[minName]
f.close()

BMM.py

MAX_WORD = 19
word_list = []
ans_word = []
with open('output.txt', mode='r', encoding='UTF-8')as f:for line in f.readlines():if line is not None:word = line.split(':')word_list.append(word[0])
f.close()
#num = input("输入句子个数：")
#for i in range(int(num)):
while True:ans_word = []try:origin_sentence = input("输入：\n")while len(origin_sentence) != 0:len_word = MAX_WORDwhile len_word > 0:# 从后读取最大词长度的数据，若该数据在字典中，则存入数组，并将其去除if origin_sentence[-len_word:] in word_list:ans_word.append(origin_sentence[-len_word:])len_sentence = len(origin_sentence)origin_sentence = origin_sentence[0:len_sentence-len_word]break# 不在词典中，则从后取词长度-1else:len_word = len_word - 1# 单词直接存入数组if len_word == 0:if origin_sentence[-1:] != ' ':ans_word.append(origin_sentence[-1:])len_sentence = len(origin_sentence)origin_sentence = origin_sentence[0:len_sentence - 1]for j in range(len(ans_word)-1, -1, -1):print(ans_word[j] + '/', end='')print('\n')except (KeyboardInterrupt, EOFError):break

FMM.py

MAX_WORD = 19
word_list = []
with open('output.txt', mode='r', encoding='UTF-8')as f:for line in f.readlines():if line is not None:word = line.split(':')word_list.append(word[0])
f.close()
#num = input("输入句子个数：")
#for i in range(int(num)):
while True:try:origin_sentence = input("输入：\n")while len(origin_sentence) != 0:len_word = MAX_WORDwhile len_word > 0:# 读取前最大词长度数据，在数组中则输出，并将其去除if origin_sentence[0:len_word] in word_list:print(origin_sentence[0:len_word]+'/', end='')origin_sentence = origin_sentence[len_word:]break# 不在字典中，则读取长度-1else:len_word = len_word - 1# 为0则表示为单词，输出if len_word == 0:if origin_sentence[0] != ' ':print(origin_sentence[0]+'/', end='')origin_sentence = origin_sentence[1:]print('\n')except (KeyboardInterrupt, EOFError):break

效果图

BMM.py（不含大粒度分词）

BMM.py（含大粒度分词）

FMM.py（不含大粒度分词）

FMM.py（含大粒度分词）

我们可以观察到含大粒度分词的情况将香港科技大学，北京航空航天大学等表意能力强的词分在了一起而不是拆开，更符合分词要求。

转载于:https://www.cnblogs.com/FZfangzheng/p/10952070.html

FMM和BMM的python代码实现相关推荐

用python实现FMM和BMM
词是自然语言中能够独立运用的最小单位,是自然语言处理的基本单位. 自动分词分析就是利用计算机对自然语言的形态进行分析,判断词的结构和类别等. 最大匹配法(Maximum Match Method) 正 ...
关于创建zeromq消息队列，设置和更改IP地址，远程可以访问，不只是本地链接。python代码。
关于zeromq的创建,绑定本地,和绑定其他客户端的方法. 网上一大堆关于zmq的通信模式的介绍,包括三种类型,具体我就不在描述. 但是他们给的demo,都是创建本地作为server服务端,也作为cl ...
python代码怎么写出色_如何写出更具有Python风格的代码，五分钟教会你！
我们都喜欢 Python,因为它让编程和理解变的更为简单.但是一不小心,我们就会忽略规则,以非 Pythonic 方式编写一堆垃圾代码,从而浪费 Python 这个出色的语言赋予我们的优雅.Pytho ...
OpenCV中图像以Mat类型保存时各通道数据在内存中的组织形式及python代码访问各通道数据的简要方式...
OpenCV中图像以Mat类型保存时各通道数据在内存中的组织形式及python代码访问各通道数据的简要方式以最简单的4 x 5三通道图像为例,其在内存中Mat类型的数据组织形式如下: 每一行的每一列 ...
主成分分析(PCA)Python代码实现
主成分分析(Principal Components Analysis, PCA)简介可以参考: http://blog.csdn.net/fengbingchun/article/details/7 ...
resnet keras 结构_Wandb用起来，一行Python代码实现Keras模型可视化
大数据文摘出品来源:wandb 编译:邢畅.宁静在训练神经网络的过程中,我们可能会希望可视化网络的性能和中间的结构,很多可视化代码的冗长复杂使得我们望而却步,有没有一行代码就能解决可视化的所有问题 ...
c# typescript_在任何IDE中从C＃，Java或Python代码获取TypeScript接口的简单方法
c# typescript by Leonardo Carreiro 莱昂纳多·卡雷罗(Leonardo Carreiro) 在任何IDE中从C#,Java或Python代码获取TypeScript接 ...
Python代码编写过程中有哪些重要技巧?
近几年,转行做Python技术岗的人越来越多,大家对于Python的关注越来越高,尤其是工作后,很多人都想知道Python代码编写过程中有哪些重要技巧?小编告诉大家,在编写Python代码过程中,除了 ...
Python 代码规范
前言 Python 学习之旅,先来看看 Python 的代码规范,让自己先有个意识,而且在往后的学习中慢慢养成习惯目录 Python代码规范一.简明概述 1.编码如无特殊情况, 文件一律使用 U ...

FMM和BMM的python代码实现

FMM和BMM的python代码实现

FMM和BMM的python代码实现相关推荐

最新文章

热门文章