这个是基于scws另外一个版本的,我用的版本,没有scws_add_dict函数,得另外加

5. `int scws_add_dict(scws_t s, const char *fpath, int mode)` 添加词典文件到当前 scws 对象。

> **参数 fpath** 词典的文件路径,词典格式是 XDB或TXT 格式。

> **参数 mode** 有3种值,分别为预定义的:

>

> - SCWS_XDICT_TXT 表示要读取的词典文件是文本格式,可以和后2项结合用

> - SCWS_XDICT_XDB 表示直接读取 xdb 文件

> - SCWS_XDICT_MEM 表示将 xdb 文件全部加载到内存中,以 XTree 结构存放,可用异或结合另外2个使用。

>

> 具体用哪种方式需要根据自己的实际应用来决定。当使用本库做为守护进程时推荐使用 mem 方式,

> 当只是嵌入调用时应该使用 xdb 方式,将 xdb 文件加载进内存不仅占用了比较多的内存,

> 而且也需要一定的时间(35万条数据约需要0.3~0.5秒左右)。

>

> **返回值** 成功返回 0,失败返回 -1。

> **注意** 若此前 scws 句柄已经加载过词典,则新加入的词典具有更高的优先权。

测试环境:windows 2003 + php5.3.5 + apache2.2 + scws 1.1.9

自定义词库,words.txt 如下:

腾讯 1.0 1.0 @

C++ 1.0 1.0 !

中国人 1.0 1.0 !

就是 1.0 1.0 !

1.每行由4个字段组成,依次为“词语"(由中文字或3个以下的字母合成), "TF", "IDF", "词性", 字段之间用空格或制表符分开,数量不限 (注意,发现如果字段时间用空格隔开,然后用scws官方的php程序将txt词库转换xdb后,词库无效,但是txt词库有效,所以为了兼容性,字段之间最好仅用一个制表符分隔,且注意txt文件的编码要与程序要使用的编码一致)

2.词性设为“!“,则表示该词设为无效,即使在其它核心库中存在该词也视为无效

使用自定义词库,需要注意加载词库代码的位置

复制代码

$txt = '我就是一个中国人,我是会C++语言,我有很多T恤衣服';

$sh=scws_open();

//注意,加载词库的代码放在此处无效,但是按照官方的例子应该是放在这里

//scws_add_dict($sh, 'D:\Apache3W\words.txt', SCWS_XDICT_TXT);

scws_send_text($sh, $txt);

//加载词库的代码必须放在scws_send_text函之后才有效

scws_add_dict($sh, 'D:\Apache3W\words.txt', SCWS_XDICT_TXT);

while ($words = scws_get_result($sh)) {

foreach ($words as $word)

{

var_dump($word);

}

}

scws_close($sh);

复制代码

如果非要将 scws_add_dict 放到 scws_send_text 前面 还可以这样写:

复制代码

$txt = '我就是一个中国人,我是会C++语言,我有很多T恤衣服';

$sh=scws_open();

//scws_set_dict也可以改为scws_add_dict

scws_set_dict($sh, 'D:\Program Files\scws\etc\dict.utf8.xdb', SCWS_XDICT_XDB);

scws_add_dict($sh, 'D:\Apache3W\words.txt', SCWS_XDICT_TXT);

scws_send_text($sh, $txt);

while ($words = scws_get_result($sh)) {

foreach ($words as $word)

{

var_dump($word);

}

}

scws_close($sh);

复制代码

php scws自定义词库,scws分词 自定义词库的方法相关推荐

  1. 用python做词云 包含:处理词云形状+分词+绘制词云

    用python制作词云 包含:处理词云形状+分词+绘制词云 以下代码不超过100行 1.处理词云形状 你可能想把词云做成不同的形状,例如方形.圆形,甚至更复杂的,例如一个人体形状. 首先选一张背景为纯 ...

  2. ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...

    最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...

  3. 使用Docker快速安装部署ES和Kibana并配置IK中文分词器以及自定义分词拓展词库

    使用Docker快速安装部署ES和Kibana的前提:首先需要确保已经安装了Docker环境 如果没有安装Docker的话,可以参考上一篇的内容:Linux上安装Docker 有了Docker环境后, ...

  4. ElasticSearch 中文分词器ik的安装、测试、使用、自定义词库、热更新词库

    文章目录 # 实验环境 # ik分词器的下载.安装.测试 ## 安装方法一:使用elasticsearch-plugin 安装 ## 安装方法二:下载编译好的包进行安装 1.下载 2.安装 3.重启` ...

  5. docker下自定义分词器词库

    1.docker下自定义分词器词库 1.首先要安装nginx,在mydata目录下新建一个文件夹 nginx 随便启动一个 nginx 实例,只是为了复制出配置 docker run -p 80:80 ...

  6. 如何在jieba分词中加自定义词典_Pyspark Word2Vec + jieba 训练词向量流程

    摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程. 工具:python,pyspark,jieba,pandas,numpy 数 ...

  7. es自建搜索词库_ElasticSearch-IK拓展自定义词库(2):HTTP请求动态热词内容方式...

    上一章节(https://my.oschina.net/jsonyang/blog/1643032)我们介绍了使用热词文件形式拓展词库,这样的好处是方便简单,但是如果公司运营人员来直接管理这个东西的话 ...

  8. Lucene分词器,使用中文分词器,扩展词库,停用词

    2019独角兽企业重金招聘Python工程师标准>>> Lucene分词器,使用中文分词器,扩展词库,停用词 博客分类: 搜索引擎,爬虫 停止词:lucene的停止词是无功能意义的词 ...

  9. python--中文分词与词云制作--入门笔记(附停用词库及Mac字体资源)

    这里写自定义目录标题 一.中文分词基本说明 二.停用词库.自定义词典的使用 (一)停用词 (二)自定义词典 三.词云绘制 四.中文字体的使用说明 (一)Mac 字体使用说明 五.附件 (一)ttf字体 ...

  10. jieba分词 自定义词表简介

    一.jieba分词增加自定义词表 在使用jieba分词时经常会发现一些未登录词,因此增加领域词表就变得很重要,下面提供增加几种途径: 1.领域权威词汇字典 2.搜狗输入法领域词库.百度输入法领域词库 ...

最新文章

  1. R语言dplyr包使用recode函数进行数据列内容编码、转换实战:类似于pandas中的map函数(例如,将内容从字符串映射到数值)
  2. python电脑下载有问题-Python 解决火狐浏览器不弹出下载框直接下载的问题
  3. Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化(Regularization)”
  4. 设计模式(一)简单工厂(创建型)(JavaPHP)
  5. Jexus 5.8.2 正式发布为Asp.Net Core进入生产环境提供平台支持
  6. 使用python读取iphone文件_如何在连接的iPhone上用Python从windows7访问照片?
  7. jQuery的表单验证
  8. Ubuntu中DenyHosts清除黑名单IP地址
  9. python教程初级有什么用_学Python编程有什么用?Python基础教程!
  10. static关键字_乐字节Java|this关键字、static关键字、block块
  11. atmega168p与328p_atmega328P 写入 Boot Loader的那点事 之 互相伤害
  12. Mosquitto PHP 插件安装使用及中文手册
  13. ESP8285+WS2812+MAX9814制作的音乐律动氛围灯
  14. 毕向东Java笔记(全部)
  15. 互联网国家缩写代码一览表
  16. 第五节 电阻分压 蓦然回首,那人却在,灯火阑珊处
  17. 浅析欢乐时光(HAPPY TIME)病毒
  18. 清华大学计算机考研信息汇总
  19. APP推广第一步:五大ASO优化方法
  20. Linux之查看物理主机的CPU温度

热门文章

  1. 仓储管理之盘点——SAP盘点方法与流程
  2. 这家机场扶梯安装“智能管家”,扶梯消毒仪现高招,绝了!
  3. wait和notify,sleep
  4. jupyter notebook出现kernel waitting,please wait一系列错误的解决办法
  5. Flutter开发:Another exception was thrown:Unable to load asset:…的解决方法
  6. (七)CMake变量及其设置
  7. pyTest官方手册(Release 4.2)之蹩脚翻译(1)
  8. 《21天学通HTML+CSS+JavaScript Web开发(第7版)》——2.4 您要在Web上做什么
  9. Unity UGUI 检测按钮的按下与抬起
  10. HTML入门学习线路图