SCWS是个不错的中文分词解决方案,词库也是hightman个人制作,总不免有些不尽如人意的地方。有些词语可能不会及时被收入词库中。
  幸好SCWS提供了词库XDB导出导入词库的工具(phptool_for_scws_xdb.zip),下载后解压至任意文件夹,我解压至“E:/www/tools/scws_xdb/”目录下。在命令行下进入PHP的安装目录,我的目录是”E:/xampp/php“。

 步骤1:执行命令行,将词库先导出来,生成一个文本文件(dict.txt):

   
  命令格式为:php dump_xdb_file.php  <要导出的.xdb文件>  [要存入的文本文件]
  几秒后在E:/scws目录下我就获得了导出的纯文本文件dict.txt。
  用文本编辑器打开dict.txt文件,我建议用EditPlus,用windows的记事薄的话不能正常显示换行符。dict.txt中文本格式为:

  # WORD    TF    IDF    ATTR
  当机立断    14.01    8.10    i

  #开头的行是注释。每行是一个词。每个词分为四部分,WORD列是词本身,TF和IDF列是词权重,ATTR列是词性。
  在这里要解释下TF和IDF的意思,它们合起来称作TF-IDF(term frequency– inverse document frequency),是一种用于资讯检索与资讯探勘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用分类。说起来很不好理解,其实也不需要理解,SCWS也提供了新词生词的TF/IDF计算器,可以自动获得词语的权重值。
  ATTR是词性,也就是标示词语是名字、动词、形容词等等词性的。详细的词性标示方法请看SCWS的说明:词典词性标注详解
  我要添加的词语是”芽菜“,是名词,用n标示。得到的IF、IDF值分别是13.82和7.48,那么在dict.txt结尾我追加了如下一行:
  芽菜    13.82    7.48    n
  

  步骤2:再执行如下命令,将修改好的dict.txt重新生成xdb文件。

  
  命令格式为:php make_xdb_file.php  <要生成的.xdb>  [导入的文本文件]
  
  生成xdb文件的过程需要比较长的时间,请耐心等待,如下图:
    
   
  就这么简单,补充了新词的词库制作完成!
  

转载于:https://www.cnblogs.com/martinzhang/p/3209742.html

SCWS中文分词,向xdb词库添加新词相关推荐

  1. Elasticsearch配置ik中文分词器自定义词库

    1.IK配置文件 在config目录下: IKAnalyzer.cfg.xml:配置自定义词库 main.dic:分词器自带的词库,索引会按照里面的词创建 quantifier.dic:存放计量单位词 ...

  2. PHP中使用SCWS中文分词详解

    PHP中使用SCWS中文分词 SCWS 简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统). 这是一套基于词频词典的机械式中文分 ...

  3. SCWS中文分词,功能函数实例应用

    结合前文的demo演示,现写一个实用的功能函数,使用方法: header('Content-Type:text/html;charset=UTF-8'); $text        = '我是一个中国 ...

  4. 使用Python做中文分词和绘制词云

    使用Python做中文分词和绘制词云 李小璐出轨云词图 作为一门编程语言,Python的编写简单,支持库强大,应用场景多,越来越多的人开始将它作为自己的编程入门语言. Python一个比较重要的场景是 ...

  5. php scws 获取分词结果,php实现scws中文分词搜索的方法

    本文实例讲述了php实现scws中文分词搜索的方法.分享给大家供大家参考,具体如下: 1.4个文件(本站下载地址.)解压后,放到一个地方 eg:E:/wamp/scws 2.php.ini 中配置 e ...

  6. 用Python做中文分词和绘制词云图

    用Python做中文分词和绘制词云图 Python窗体布局 def __init__(self):self.root=Tk()self.root.wm_title('绘制词云')self.root.r ...

  7. Elasticsearch7.15.2 ik中文分词器 定制化分词器之扩展词库(远程)

    IK分词提供的两个分词器,并不支持一些新的词汇,有时候也不能满足实际业务需要,这时候,我们可以定义自定义词库来完成目标. 文章目录 一.静态web搭建 1. 安装nginx 2. 创建es目录 3. ...

  8. es ik 词库添加词语_Elasticsearch配置IK分词器的远程词库

    在生活中很多很多地方都涉及到了全文检索,最常见的就好比日常使用到的百度搜索等搜索引擎,也都是基于全文检索来实现的:全文检索种类较多,就好比Elasticsearch.Sorl等. 为Ealsticse ...

  9. scws sphinx mysql_Sphinx系列文章\SCWS中文分词

    软件清单 SCWS: 1.2.2,下载 XDB字典: 下载 安装 For Mac / Linux 请注意,我的系统是Mac OS X 10.11.2 假设你已经下载好了上面的软件. 第一步:编译和安装 ...

最新文章

  1. 操作系统导论第四章课后习题
  2. VOIP业务仿真建模,使用间歇泊松过程模型,能够图形显示业务的突发特性
  3. 简单的MapReduce项目,计算文件中单词出现的次数
  4. Foundation框架: 9.OC中的集合类之四 - NSMutableDictionary的基本认识
  5. 直接调用android原生接口实现点击直接拨打电话功能
  6. 简单搭建一个SSM项目(一)
  7. android inflate,Android 关于inflate
  8. http库cookiejar模块
  9. mysql防注入插件_mybatis-plus插件使用的一些问题
  10. php spl自动加载类,php – SPL自动加载最佳实践
  11. struts2 中的零配置
  12. Spring集成Quartz定时任务框架介绍和Cron表达式详解
  13. PAT1018. Public Bike Management (30)
  14. java冒泡排序代码简单_Java冒泡排序简单实现
  15. ubuntu20.04修改mac地址
  16. 钉钉回放被管理员禁止下载?别急我来帮你
  17. 无论多大年纪,请保留一份童真和幻想
  18. python生产环境部署
  19. 中英文职位对照之 会计与财务
  20. 项目实战No2 登陆注册

热门文章

  1. nodejs mysql 同步_NodeJS实现同步的方法
  2. Python数据结构与算法(2.4)——双向链表
  3. 数字电路反相器符号_数字电路器件——门电路——与门电路、或门电路、非门电路及实例...
  4. mongodb 批量插入_MongoDB批量插入– MongoDB插入很多
  5. C++基础知识(二)命名空间
  6. 我想自学C++,可以吗?需要注意些什么呢?
  7. 阿里云成立技术脱贫联盟,要用技术助力脱贫
  8. Windows安装MySQL 5.7.19及相关问题处理
  9. Linux安装的分区问题
  10. MVC生成CheckBoxList并对其验证