最近又在迭代特征工程,发现jieba提取特征词有个需要注意的地方,直接看例子

例子1

>>> import jieba
>>> import jieba.posseg as pseg
>>> s = '我们喜欢支付宝, 苹果'
>>> ws = pseg.cut(s)
>>> for i in ws:
...     print i
...
我们/r
喜欢/v
支付宝/nr
,/x/x
苹果/n
>>> allow_pos = ('nr',)
>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos)
>>> for t in tags:
...     print t
...
支付宝>>> allow_pos = ('nr')
>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos)
>>> for t in tags:
...     print t
...
苹果
我们

allow_pos = (‘nr’,) 带逗号,allow_pos是tuple, 结果只选取’nr’词性的词
allow_pos = (‘nr’), allow_pos是一个string, 结果选取了’n’ 和’r’的词性
这个差别造成了关键词提取方法中词性选取的差异

jieba提取关键词时筛选词性时单词性选择的一点注意事项相关推荐

  1. 使用jieba 提取 关键词

    如何提取句子的关键词? 以前用textrank4zh https://blog.csdn.net/weixin_44510615/article/details/89548486 竟然不知道 jieb ...

  2. ajax提交输入内容,当输入用于提交时,AJAX表单提交

    我有一位设计师坚持通过点击回车和由AJAX提交的帖子和由Fancybox提供的回复提交的单个表单域.问题是return false不能阻止页面的提交.当输入用于提交时,AJAX表单提交 我在那里做错了 ...

  3. html表格输入框怎么左移动,当我向CSS中的文本框添加边框时,HTML表单输入会移动...

    我想在登录表单上的输入字段中添加边框,但是当我添加边框时:1px纯黑色;到#登录表单输入,然后所有的文本框移出位置.当我向CSS中的文本框添加边框时,HTML表单输入会移动 当用户输入不正确的凭据到表 ...

  4. 计划订单投放成生产任务单时修改生产任务单编号

    /* 计划订单投放成生产任务单时修改生产任务单编号 生产任务单编号 = 销售订单编号 + '-' + 生产任务单原单行号 + '(' + 物料代码 + ')' */ CREATE TRIGGER [d ...

  5. HTML表单事件,获取焦点时、失去焦点时、即将获取焦点时、即将失去焦点时、输入值时、选取文本时、表单元素的内容改变时、提交时....

    表单事件简介 onfocus 元素获取焦点时触发 onblur 元素失去焦点时触发 onfocusin 元素即将获取焦点时触发 onfocusout 元素即将失去焦点时触发 oninput 元素获取用 ...

  6. 基于高频方波电压注入的永磁同步电机无感FOC 采用方波电压注入,减少了提取dq轴基频电流时LPF的使用

    基于高频方波电压注入的永磁同步电机无感FOC 1.采用方波电压注入,减少了提取dq轴基频电流时LPF的使用,提高了系统的动态性能: 2.可实现带载起动和突加负载运行: 提供算法对应的参考文献和仿真模型 ...

  7. 扫码枪发商品快递时录入发货快递单号到对应产品订单明细

    运用场景:扫码枪发商品快递时录入发货快递单号到对应产品订单明细 准备:1/商品编号条形码,2/顺丰发货快递单号条形码 原理:扫码枪和键盘输入是一个效果,支持一次扫码输入13个字符,js的onkeydo ...

  8. 插入生产投料单时继承生产任务单编号

    /* 插入生产投料单时继承生产任务单编号 将BOM描述带到生产投料单上 */alter TRIGGER [dbo].[PPBom_luyu] --自定义出发器的名称ON [dbo].[PPBOMEnt ...

  9. python提取关键词分类_用Py做文本分析5:关键词提取

    1.关键词提取 关键词指的是原始文档的和核心信息,关键词提取在文本聚类.分类.自动摘要等领域中有着重要的作用. 针对一篇语段,在不加人工干预的情况下提取出其关键词 首先进行分词处理 关键词分配:事先给 ...

最新文章

  1. OpenCV resize函数源码解析——加速方法
  2. beanstalkd php扩展,PHP操作Beanstalkd队列(1)安装与基础
  3. 如何制作自己的gem
  4. VS2013(Visual Studio 2013)官方中文旗舰版安装激活方法
  5. Date - Java处理日期和时间
  6. 自动加密可序列化的类
  7. php mysql 菜鸟_PHP 和 MySQL 基础教程(四)
  8. js call(),apply(),对象冒充,改变变量作用域
  9. vue+vant 移动端H5 商城项目_04
  10. AWS RDS强制升级的应对之道——版本升级的最佳实践
  11. 九章算法 第七到九章 预习笔记
  12. PAT 乙级 1044. 火星数字(20) Java版
  13. node项目打包如何隐藏html后缀,详解webpack打包nodejs项目(前端代码)
  14. android条码扫描串口,串口条码扫描器的正确安装方法[图解]
  15. 3D建模的通用文件格式
  16. 网站木马修复网站漏洞修复方案
  17. C++秋招春招面试总结
  18. 腾讯云TCA运维认证考试题库
  19. 如何使用 Director 编写“拼图游戏”
  20. 前端工程师必须知道的网络知识(一)

热门文章

  1. 技嘉1080显卡体质测试软件,技嘉GTX1080 Xtreme Gaming显卡评测:创新的重峦式三风扇...
  2. 文件无法上传到ftp服务器,无法上传文件到FTP服务器使用C++
  3. 微信公众号授权绑定第三方应用
  4. 升级Ubuntu 13.04 有感
  5. 家用路由器被劫持?如何正确的分析与应对
  6. (二)双S型速度规划 曲线形状的讨论
  7. 微信小程序之兼容问题
  8. 【hdu 5512】【 2015ACM/ICPC亚洲区沈阳站】Pagodas 题意&题解&代码(C++)
  9. Android Studio部分汉化中文包
  10. nodejs发送邮件