结巴分词有前空格_jieba英文空格分词问题
1.对于关键词存在空格或者特殊符号的情况下,jieba无法分出该词
2.在github上找到了一个解决方案,修改jieba源码
__init__.py
免费分享,造损免责。
打开默认词典(根目录)或自定义词典,把所有用来间隔词频和词性的空格间隔符改成@@
(选用@@是因为一般关键词里遇到这个分隔符的几率比较小吧)
继续,打开jieba根目录下init.py搜索
re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)", re.U)
改成
re_han_default = re.compile("(.+)", re.U)
搜索
re_userdict = re.compile('^(.+?)( [0-9]+)?( [a-z]+)?$', re.U)
改成
re_userdict = re.compile('^(.+?)(\u0040\u0040[0-9]+)?(\u0040\u0040[a-z]+)?$', re.U)
搜索
word, freq = line.split(' ')[:2]
改成
word, freq = line.split('\u0040\u0040')[:2]
补充:若用的全模式继续改。
搜索
re_han_cut_all = re.compile("([\u4E00-\u9FD5]+)", re.U)
改成
re_han_cut_all = re.compile("(.+)", re.U)
但是这样导致分词的结果出现大量的emoji表情或者不需要的 类似 =,()的符号,
3.期望输出
我 只想让jieba能够识别自定义词中存在 空格的中英文关键词 或者以 -连接的关键词并且去除其他特殊字符比如emoji等表情符 该怎么修改呢?string = 'my dog is a happy dog'
jieba.add_word('happy dog')
jieba.cut(my dog is a happy dog)
outputs: ['my','dog','is','a','happy','dog']
期望输出: ['my','dog','is','a','happy dog']
对正则表达式实在头大,希望有经验的大佬能告诉我有什么办法...
结巴分词有前空格_jieba英文空格分词问题相关推荐
- 将中文空格转换为英文空格_通过使用空格来为您的设计提供动力
将中文空格转换为英文空格 When we are designing, it may be customary to want to place a large amount of content i ...
- 【Lucene】分词器详解,常用的分词器,IKANalyzer
[Lucene]分词器详解,常用的分词器,IKANalyzer 1. 分词器详解 1.1 分词器的作用 1.2 分词器API 1.2.1 示例 1.2.2 Analyzer 1.2.3 createC ...
- 结巴分词有前空格_NLP 分词的那些事儿
作者: 乐雨泉(yuquanle),湖南大学在读硕士,研究方向机器学习与自然语言处理.欢迎志同道合的朋友和我在公众号"AI 小白入门"一起交流学习. 本文谈一谈分词的那些事儿,从定 ...
- trim函数去除空格(所有空格,前后,前,后)以及字母大小写切换
trim函数去除空格(所有空格,前后,前,后): //value:要去除空格的字符串 //type: 1-所有空格 2-前后空格 3-前空格 4-后空格 function trim(value, ty ...
- word批量删除除英文间空格外的空格
word批量删除除英文间空格外的空格 方法一 方法二 后记 在网上复制粘贴大段文字,调整排版格式等等之后,发现还有一些多余的空格留在文章中,这对强迫症患者很不友好,如下. 如果直接使用"查找 ...
- js 去除前后、前、后所有空格
var strr=" 1 ad dertasdf sdfASDFDF DFG SDFG "// type 1-所有空格,2-前后空格,3-前空格,4-后空格function tri ...
- python输出去空格_python不空格
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 退格(backspace) e 转义 000 空 n 换行 v 纵向制表符 t ...
- NLP-基础任务-中文分词算法(1)-基于词典: 机械分词(词典字符串匹配):前向最大匹配、后向最大匹配、双向最大匹配【OOV:基于现有词典,不能进行新词发现处理】
分词与NLP关系:分词是中文自然语言处理的基础,没有中文分词,我们对语言很难量化,进而很能运用数学的知识去解决问题.对于拉丁语系是不需要分词的. 拉丁语系与亚系语言区别 拉丁语言系不需要分词,因为他们 ...
- “结巴”中文分词:做最好的 Python 中文分词组件
jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...
最新文章
- 【Qt】新安装的虚拟机,使用QtCreator第一次编译时报错:g++: Command not found
- 决策树算法(四)——选取最佳特征划分数据集
- jQuery 标签切换----之选项卡的实现
- html内容显示重叠了,HTML:将DIV内容并排放置而不重叠
- php实现数字英文验证码,PHP英文数字验证码生成类
- 云小课|三大灵魂拷问GaussDB(DWS)数据落盘安全问题
- 使用viewPage实现图片轮播
- 第二部分 python基础 day10\11\12 运算符与基本数据类型
- Android完全关闭(退出)应用程序
- php微信公众号登录
- html画布抗锯齿,javascript – Node-Canvas图像抗锯齿似乎不起作用
- Optimizing the Transition Waste in Coded Elastic Computing(实现0浪费弹性编码计算)
- Essay-One Piece海贼王每集剧情介绍
- 计算机网络实训心得总结,计算机网络实训心得体会_计算机网络学习经验总结...
- 区块链组适应不断变化的监管环境
- 转:标准差(Standard Deviation) 和 标准误差(Standard Error)
- 联想ghost重装系统_联想笔记本重装系统图文教程
- fiddler连接手机
- Simon Game实现过程记录
- 网页中滑动导航菜单制作