转载自:https://forum.huaweicloud.com/thread-8391-1-1.html

词语提取工具

最近一直在使用华为云的云搜索服务。开心的是,华为云的云搜索服务,可以自定义自己的词库来做分词、停词。让他更意想不到的是,修改词库还可以热更新,不用重启即可生效。

但是,词库中的词从哪里来,哪些才是有用的词,这真是让人头疼的事情。每天苦读海量文章,才能从中找出几个自己认为还不错的词。只能自己写一个工具了。

下面,介绍下如何使用。

第一步,找到一篇最近大火的复仇者联盟的电影新闻,把它拷贝到小工具(文章很长也可以存储在txt文件后上传)。

第二步, 点击“Submit” ,后台就开始通过各种大数据算法计算。不一会,结果就显示出来啦。
恩~~~ 看来提词效果还不错,我们再来看看有没有其他一些有趣的结果呢
我们发现像“ 迪士尼” ,“ 漫威” 这样的词也能被很好地发现。
这样, 在使用华为云的云搜索服务的时候,可以把这些新发现的词语加入词库,方便分词,提高搜索结果了呢~
进一步, 如果用这个工具分析下一篇文章,“ 迪士尼” 或“ 漫威” 可能会重复出现。为了更有效率, 添加了一个过滤功能
这样,把已发现的词放在这里,下一次就不会出现,每次都能发现新词啦~~~
我们看下结果

“ 迪士尼” 和“ 漫威” 就真的没出现了哦
链接:

词语提取工具

【词库管理】新词提取小工具相关推荐

  1. 看到一个词语提取小工具,分享给有标签、词库需求的同学们

    关于词语小工具的描述快戳下面链接~~~ https://forum.huaweicloud.com/thread-8391-1-1.html 不想看文章,想立即试用小工具的,请戳下面~~~ http: ...

  2. java开发mac pro_U1S1,这个提取人声/歌曲伴奏的小工具很好用 Neural Mix | Mac软件天堂...

    小伙伴们,感谢关注「Mac软件天堂」,遇到"XX已损坏"."XX意外退出"."无法确认开发者"等问题记得点击菜单栏的「帮助」解决哦 !同时, ...

  3. 截屏、文字提取一气呵成,超实用 OCR 开源小工具

    点击上方"逆锋起笔",关注领取学习资源 ☞ 程序员进阶必备资源免费送「各种技术!」 ☜ 本文转载自机器之心 这个文本 OCR 小工具,能让你「所截即所得」. 在我们办公时,是不是经 ...

  4. 【Python应用】自制截图取词小工具-- 解锁文字识别新姿势

    大家好 我是Yhen 很久不见呀 今天给大家分享一个自制的小工具-截图取词 及其制作过程 本工具是用Python写的 程序及代码的获取方式会在文末 文章目录 一.创作缘由 二.项目简介 三.思路分析 ...

  5. 免费OCR图片文字识别小工具,一键提取图片中文字,支持多语言翻译和发票识别

    最近用周末和下班后的时间,开发了一款图片文字识别的小程序( 扫描识字宝 ),可以直接拍照或者扫描识别图片上的文字,并支持提取成文档.还加上了图片翻译功能,支持图片上文字提取后翻译成多国语言.也加入了增 ...

  6. [弹幕词云姬]硬核b站up主一周撸出来的小工具,根据b站弹幕生成词云(一)

    过去一周突然有个很不错的想法,想用b站的弹幕来生成一个词云的效果.于是辛苦奋战一周,大概花了十个小时左右,整出了这个全新的小工具--<词云弹幕姬>访问地址http://danmu.xiez ...

  7. 词达人小工具2.0 开放源码 C/Python

    词达人小工具2.0 开放源码 C/Python 使用前请阅读注意事项 还是老样子,工具连接:点此下载 配置Fidder:教程已更新:点此进入 参考第一版使用方法 第一版使用连接 额外注意事项 无法使用 ...

  8. 2345好压3款小工具提取版

    介绍 2345好压中提取的md5校验.批量文件名修改.批量字符替换小工具,是你办公处理文件的好帮手. 下载地址 http://www.bytepan.com/FpkVxtW8ufG 图片

  9. 小程序源码提取工具 完美解包,最新脚本,一键提取小程序源代码工具

    小程序源码提取工具 完美解包,最新脚本,一键提取小程序源代码工具 小程序解包工具,具体功能请百度一下,解码后直接换掉人家的地址就OK 那么如何才能在手机里找到小程序的源文件包呢? 具体目录位置直接给出 ...

最新文章

  1. OO真经——关于面向对象的哲学体系及科学体系的探讨(下)
  2. win7的python3.5安装numpy包
  3. springcloud(二):注册中心Eureka
  4. c++ 多核cpu序列号_详解CPU几个重点基础知识
  5. linux c 内存分配内存,Linuxc - 操作系统内存分配
  6. 苹果开发者_苹果优秀开发者实锤 微软VS Code将支持Apple Silicon
  7. 浅谈SQL Server 数据库的触发器
  8. 菜鸟学习笔记:Java提升篇6(IO流2——数据类型处理流、打印流、随机流)
  9. 贵州省获批开展公共资源交易区块链数据共享工作试点
  10. Servlet→DWR实现JAVA服务器端向客户端推送消息
  11. 椭球拟合的电子罗盘磁差补偿_NXP传感器融合笔记09(地磁,干扰及校准,椭球拟合)...
  12. ubuntu前置耳机孔没声音的解决办法
  13. 细胞穿膜肽( CPPs)偶联肽核酸H region-PNA|Arg-PNA|Lys-PNA|Cationic-PNA|47Tat57-PNA的特性
  14. HTML动态超炫酷的404页面源码
  15. 阿里云海外云服务器5折起,新老用户均可选购(免备案)
  16. windows录屏_电脑上的录屏软件有哪些?不如试试这两个方法
  17. 部署kubernetes官网博客
  18. 太理同学APP——个人比较有成就感的作品吧!
  19. Python判断时间
  20. WIFI基本知识及802.11协议整理

热门文章

  1. 面经---测试工程师web端自动化---大厂面试题
  2. no input file specified 三种解决办法
  3. 搭建自己的流媒体服务器-(1)服务器搭建篇
  4. Go 并发 | 数据竞争及竞争条件
  5. 云桌面及桌面虚拟化的功能
  6. 关于浏览器UA的一些介绍
  7. 【算法上车③】华为摄像头rpm签名校验并安装调试
  8. 评论区抽奖程序2.0
  9. AI Studio 飞桨 零基础入门深度学习笔记6.3-手写数字识别之数据处理
  10. 在c语言中 auto的作用,c语言中auto是什么意思