1.对于关键词存在空格或者特殊符号的情况下,jieba无法分出该词

2.在github上找到了一个解决方案,修改jieba源码

__init__.py

免费分享,造损免责。

打开默认词典(根目录)或自定义词典,把所有用来间隔词频和词性的空格间隔符改成@@

(选用@@是因为一般关键词里遇到这个分隔符的几率比较小吧)

继续,打开jieba根目录下init.py搜索

re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)", re.U)

改成

re_han_default = re.compile("(.+)", re.U)

搜索

re_userdict = re.compile('^(.+?)( [0-9]+)?( [a-z]+)?$', re.U)

改成

re_userdict = re.compile('^(.+?)(\u0040\u0040[0-9]+)?(\u0040\u0040[a-z]+)?$', re.U)

搜索

word, freq = line.split(' ')[:2]

改成

word, freq = line.split('\u0040\u0040')[:2]

补充:若用的全模式继续改。

搜索

re_han_cut_all = re.compile("([\u4E00-\u9FD5]+)", re.U)

改成

re_han_cut_all = re.compile("(.+)", re.U)

但是这样导致分词的结果出现大量的emoji表情或者不需要的 类似 =,()的符号,

3.期望输出

我 只想让jieba能够识别自定义词中存在 空格的中英文关键词 或者以 -连接的关键词并且去除其他特殊字符比如emoji等表情符 该怎么修改呢?string = 'my dog is a happy dog'

jieba.add_word('happy dog')

jieba.cut(my dog is a happy dog)

outputs: ['my','dog','is','a','happy','dog']

期望输出: ['my','dog','is','a','happy dog']

对正则表达式实在头大,希望有经验的大佬能告诉我有什么办法...

结巴分词有前空格_jieba英文空格分词问题相关推荐

  1. 将中文空格转换为英文空格_通过使用空格来为您的设计提供动力

    将中文空格转换为英文空格 When we are designing, it may be customary to want to place a large amount of content i ...

  2. 【Lucene】分词器详解,常用的分词器,IKANalyzer

    [Lucene]分词器详解,常用的分词器,IKANalyzer 1. 分词器详解 1.1 分词器的作用 1.2 分词器API 1.2.1 示例 1.2.2 Analyzer 1.2.3 createC ...

  3. 结巴分词有前空格_NLP 分词的那些事儿

    作者: 乐雨泉(yuquanle),湖南大学在读硕士,研究方向机器学习与自然语言处理.欢迎志同道合的朋友和我在公众号"AI 小白入门"一起交流学习. 本文谈一谈分词的那些事儿,从定 ...

  4. trim函数去除空格(所有空格,前后,前,后)以及字母大小写切换

    trim函数去除空格(所有空格,前后,前,后): //value:要去除空格的字符串 //type: 1-所有空格 2-前后空格 3-前空格 4-后空格 function trim(value, ty ...

  5. word批量删除除英文间空格外的空格

    word批量删除除英文间空格外的空格 方法一 方法二 后记 在网上复制粘贴大段文字,调整排版格式等等之后,发现还有一些多余的空格留在文章中,这对强迫症患者很不友好,如下. 如果直接使用"查找 ...

  6. js 去除前后、前、后所有空格

    var strr=" 1 ad dertasdf sdfASDFDF DFG SDFG "// type 1-所有空格,2-前后空格,3-前空格,4-后空格function tri ...

  7. python输出去空格_python不空格

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 退格(backspace) e 转义 000 空 n 换行 v 纵向制表符 t ...

  8. NLP-基础任务-中文分词算法(1)-基于词典: 机械分词(词典字符串匹配):前向最大匹配、后向最大匹配、双向最大匹配【OOV:基于现有词典,不能进行新词发现处理】

    分词与NLP关系:分词是中文自然语言处理的基础,没有中文分词,我们对语言很难量化,进而很能运用数学的知识去解决问题.对于拉丁语系是不需要分词的. 拉丁语系与亚系语言区别 拉丁语言系不需要分词,因为他们 ...

  9. “结巴”中文分词:做最好的 Python 中文分词组件

    jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...

最新文章

  1. 【Qt】新安装的虚拟机,使用QtCreator第一次编译时报错:g++: Command not found
  2. 决策树算法(四)——选取最佳特征划分数据集
  3. jQuery 标签切换----之选项卡的实现
  4. html内容显示重叠了,HTML:将DIV内容并排放置而不重叠
  5. php实现数字英文验证码,PHP英文数字验证码生成类
  6. 云小课|三大灵魂拷问GaussDB(DWS)数据落盘安全问题
  7. 使用viewPage实现图片轮播
  8. 第二部分 python基础 day10\11\12 运算符与基本数据类型
  9. Android完全关闭(退出)应用程序
  10. php微信公众号登录
  11. html画布抗锯齿,javascript – Node-Canvas图像抗锯齿似乎不起作用
  12. Optimizing the Transition Waste in Coded Elastic Computing(实现0浪费弹性编码计算)
  13. Essay-One Piece海贼王每集剧情介绍
  14. 计算机网络实训心得总结,计算机网络实训心得体会_计算机网络学习经验总结...
  15. 区块链组适应不断变化的监管环境
  16. 转:标准差(Standard Deviation) 和 标准误差(Standard Error)
  17. 联想ghost重装系统_联想笔记本重装系统图文教程
  18. fiddler连接手机
  19. Simon Game实现过程记录
  20. 网页中滑动导航菜单制作

热门文章

  1. 鱼塘钓鱼 优先队列 多路归并排序 贪心
  2. 英语 词根 词缀 查询网址
  3. 金蝶全渠道营销列车,邀请您上车
  4. 西工大java高级网络编程_西工大16春《JAVA高级网络编程》平时作业
  5. java中高级面试_中高级面试常问:Java面向对象设计的六大原则
  6. [CUPOJ] 直角三角形周长 枚举优化 题解
  7. Android-MMS中彩信附件的格式及分析
  8. 【Unity3D】在Unity中实现UI指向箭头
  9. java开发中推荐的防御sql注入方法_Java防止SQL注入
  10. 在Vue中使用svg格式字体图标