结巴分词有前空格_jieba英文空格分词问题

1.对于关键词存在空格或者特殊符号的情况下，jieba无法分出该词

2.在github上找到了一个解决方案，修改jieba源码

__init__.py

免费分享，造损免责。

打开默认词典(根目录)或自定义词典，把所有用来间隔词频和词性的空格间隔符改成@@

(选用@@是因为一般关键词里遇到这个分隔符的几率比较小吧)

继续，打开jieba根目录下init.py搜索

re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)", re.U)

改成

re_han_default = re.compile("(.+)", re.U)

搜索

re_userdict = re.compile('^(.+?)( [0-9]+)?( [a-z]+)?$', re.U)

改成

re_userdict = re.compile('^(.+?)(\u0040\u0040[0-9]+)?(\u0040\u0040[a-z]+)?$', re.U)

搜索

word, freq = line.split(' ')[:2]

改成

word, freq = line.split('\u0040\u0040')[:2]

补充：若用的全模式继续改。

搜索

re_han_cut_all = re.compile("([\u4E00-\u9FD5]+)", re.U)

改成

re_han_cut_all = re.compile("(.+)", re.U)

但是这样导致分词的结果出现大量的emoji表情或者不需要的类似 =，()的符号,

3.期望输出

我只想让jieba能够识别自定义词中存在空格的中英文关键词或者以 -连接的关键词并且去除其他特殊字符比如emoji等表情符该怎么修改呢?string = 'my dog is a happy dog'

jieba.add_word('happy dog')

jieba.cut(my dog is a happy dog)

outputs: ['my','dog','is','a','happy','dog']

期望输出: ['my','dog','is','a','happy dog']

对正则表达式实在头大，希望有经验的大佬能告诉我有什么办法...

结巴分词有前空格_jieba英文空格分词问题相关推荐

将中文空格转换为英文空格_通过使用空格来为您的设计提供动力
将中文空格转换为英文空格 When we are designing, it may be customary to want to place a large amount of content i ...
【Lucene】分词器详解，常用的分词器，IKANalyzer
[Lucene]分词器详解,常用的分词器,IKANalyzer 1. 分词器详解 1.1 分词器的作用 1.2 分词器API 1.2.1 示例 1.2.2 Analyzer 1.2.3 createC ...
结巴分词有前空格_NLP 分词的那些事儿
作者: 乐雨泉(yuquanle),湖南大学在读硕士,研究方向机器学习与自然语言处理.欢迎志同道合的朋友和我在公众号"AI 小白入门"一起交流学习. 本文谈一谈分词的那些事儿,从定 ...
trim函数去除空格（所有空格，前后，前，后）以及字母大小写切换
trim函数去除空格(所有空格,前后,前,后): //value:要去除空格的字符串 //type: 1-所有空格 2-前后空格 3-前空格 4-后空格 function trim(value, ty ...
word批量删除除英文间空格外的空格
word批量删除除英文间空格外的空格方法一方法二后记在网上复制粘贴大段文字,调整排版格式等等之后,发现还有一些多余的空格留在文章中,这对强迫症患者很不友好,如下. 如果直接使用"查找 ...
js 去除前后、前、后所有空格
var strr=" 1 ad dertasdf sdfASDFDF DFG SDFG "// type 1-所有空格,2-前后空格,3-前空格,4-后空格function tri ...
python输出去空格_python不空格
广告关闭腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 退格(backspace) e 转义 000 空 n 换行 v 纵向制表符 t ...
NLP-基础任务-中文分词算法(1)-基于词典：机械分词（词典字符串匹配）：前向最大匹配、后向最大匹配、双向最大匹配【OOV：基于现有词典，不能进行新词发现处理】
分词与NLP关系:分词是中文自然语言处理的基础,没有中文分词,我们对语言很难量化,进而很能运用数学的知识去解决问题.对于拉丁语系是不需要分词的. 拉丁语系与亚系语言区别拉丁语言系不需要分词,因为他们 ...
“结巴”中文分词：做最好的 Python 中文分词组件
jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...

结巴分词有前空格_jieba英文空格分词问题

结巴分词有前空格_jieba英文空格分词问题相关推荐

最新文章

热门文章