php scws自定义词库,scws分词 自定义词库的方法
这个是基于scws另外一个版本的,我用的版本,没有scws_add_dict函数,得另外加
5. `int scws_add_dict(scws_t s, const char *fpath, int mode)` 添加词典文件到当前 scws 对象。
> **参数 fpath** 词典的文件路径,词典格式是 XDB或TXT 格式。
> **参数 mode** 有3种值,分别为预定义的:
>
> - SCWS_XDICT_TXT 表示要读取的词典文件是文本格式,可以和后2项结合用
> - SCWS_XDICT_XDB 表示直接读取 xdb 文件
> - SCWS_XDICT_MEM 表示将 xdb 文件全部加载到内存中,以 XTree 结构存放,可用异或结合另外2个使用。
>
> 具体用哪种方式需要根据自己的实际应用来决定。当使用本库做为守护进程时推荐使用 mem 方式,
> 当只是嵌入调用时应该使用 xdb 方式,将 xdb 文件加载进内存不仅占用了比较多的内存,
> 而且也需要一定的时间(35万条数据约需要0.3~0.5秒左右)。
>
> **返回值** 成功返回 0,失败返回 -1。
> **注意** 若此前 scws 句柄已经加载过词典,则新加入的词典具有更高的优先权。
测试环境:windows 2003 + php5.3.5 + apache2.2 + scws 1.1.9
自定义词库,words.txt 如下:
腾讯 1.0 1.0 @
C++ 1.0 1.0 !
中国人 1.0 1.0 !
就是 1.0 1.0 !
1.每行由4个字段组成,依次为“词语"(由中文字或3个以下的字母合成), "TF", "IDF", "词性", 字段之间用空格或制表符分开,数量不限 (注意,发现如果字段时间用空格隔开,然后用scws官方的php程序将txt词库转换xdb后,词库无效,但是txt词库有效,所以为了兼容性,字段之间最好仅用一个制表符分隔,且注意txt文件的编码要与程序要使用的编码一致)
2.词性设为“!“,则表示该词设为无效,即使在其它核心库中存在该词也视为无效
使用自定义词库,需要注意加载词库代码的位置
复制代码
$txt = '我就是一个中国人,我是会C++语言,我有很多T恤衣服';
$sh=scws_open();
//注意,加载词库的代码放在此处无效,但是按照官方的例子应该是放在这里
//scws_add_dict($sh, 'D:\Apache3W\words.txt', SCWS_XDICT_TXT);
scws_send_text($sh, $txt);
//加载词库的代码必须放在scws_send_text函之后才有效
scws_add_dict($sh, 'D:\Apache3W\words.txt', SCWS_XDICT_TXT);
while ($words = scws_get_result($sh)) {
foreach ($words as $word)
{
var_dump($word);
}
}
scws_close($sh);
复制代码
如果非要将 scws_add_dict 放到 scws_send_text 前面 还可以这样写:
复制代码
$txt = '我就是一个中国人,我是会C++语言,我有很多T恤衣服';
$sh=scws_open();
//scws_set_dict也可以改为scws_add_dict
scws_set_dict($sh, 'D:\Program Files\scws\etc\dict.utf8.xdb', SCWS_XDICT_XDB);
scws_add_dict($sh, 'D:\Apache3W\words.txt', SCWS_XDICT_TXT);
scws_send_text($sh, $txt);
while ($words = scws_get_result($sh)) {
foreach ($words as $word)
{
var_dump($word);
}
}
scws_close($sh);
复制代码
php scws自定义词库,scws分词 自定义词库的方法相关推荐
- 用python做词云 包含:处理词云形状+分词+绘制词云
用python制作词云 包含:处理词云形状+分词+绘制词云 以下代码不超过100行 1.处理词云形状 你可能想把词云做成不同的形状,例如方形.圆形,甚至更复杂的,例如一个人体形状. 首先选一张背景为纯 ...
- ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...
最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...
- 使用Docker快速安装部署ES和Kibana并配置IK中文分词器以及自定义分词拓展词库
使用Docker快速安装部署ES和Kibana的前提:首先需要确保已经安装了Docker环境 如果没有安装Docker的话,可以参考上一篇的内容:Linux上安装Docker 有了Docker环境后, ...
- ElasticSearch 中文分词器ik的安装、测试、使用、自定义词库、热更新词库
文章目录 # 实验环境 # ik分词器的下载.安装.测试 ## 安装方法一:使用elasticsearch-plugin 安装 ## 安装方法二:下载编译好的包进行安装 1.下载 2.安装 3.重启` ...
- docker下自定义分词器词库
1.docker下自定义分词器词库 1.首先要安装nginx,在mydata目录下新建一个文件夹 nginx 随便启动一个 nginx 实例,只是为了复制出配置 docker run -p 80:80 ...
- 如何在jieba分词中加自定义词典_Pyspark Word2Vec + jieba 训练词向量流程
摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程. 工具:python,pyspark,jieba,pandas,numpy 数 ...
- es自建搜索词库_ElasticSearch-IK拓展自定义词库(2):HTTP请求动态热词内容方式...
上一章节(https://my.oschina.net/jsonyang/blog/1643032)我们介绍了使用热词文件形式拓展词库,这样的好处是方便简单,但是如果公司运营人员来直接管理这个东西的话 ...
- Lucene分词器,使用中文分词器,扩展词库,停用词
2019独角兽企业重金招聘Python工程师标准>>> Lucene分词器,使用中文分词器,扩展词库,停用词 博客分类: 搜索引擎,爬虫 停止词:lucene的停止词是无功能意义的词 ...
- python--中文分词与词云制作--入门笔记(附停用词库及Mac字体资源)
这里写自定义目录标题 一.中文分词基本说明 二.停用词库.自定义词典的使用 (一)停用词 (二)自定义词典 三.词云绘制 四.中文字体的使用说明 (一)Mac 字体使用说明 五.附件 (一)ttf字体 ...
- jieba分词 自定义词表简介
一.jieba分词增加自定义词表 在使用jieba分词时经常会发现一些未登录词,因此增加领域词表就变得很重要,下面提供增加几种途径: 1.领域权威词汇字典 2.搜狗输入法领域词库.百度输入法领域词库 ...
最新文章
- R语言dplyr包使用recode函数进行数据列内容编码、转换实战:类似于pandas中的map函数(例如,将内容从字符串映射到数值)
- python电脑下载有问题-Python 解决火狐浏览器不弹出下载框直接下载的问题
- Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化(Regularization)”
- 设计模式(一)简单工厂(创建型)(JavaPHP)
- Jexus 5.8.2 正式发布为Asp.Net Core进入生产环境提供平台支持
- 使用python读取iphone文件_如何在连接的iPhone上用Python从windows7访问照片?
- jQuery的表单验证
- Ubuntu中DenyHosts清除黑名单IP地址
- python教程初级有什么用_学Python编程有什么用?Python基础教程!
- static关键字_乐字节Java|this关键字、static关键字、block块
- atmega168p与328p_atmega328P 写入 Boot Loader的那点事 之 互相伤害
- Mosquitto PHP 插件安装使用及中文手册
- ESP8285+WS2812+MAX9814制作的音乐律动氛围灯
- 毕向东Java笔记(全部)
- 互联网国家缩写代码一览表
- 第五节 电阻分压 蓦然回首,那人却在,灯火阑珊处
- 浅析欢乐时光(HAPPY TIME)病毒
- 清华大学计算机考研信息汇总
- APP推广第一步:五大ASO优化方法
- Linux之查看物理主机的CPU温度
热门文章
- 仓储管理之盘点——SAP盘点方法与流程
- 这家机场扶梯安装“智能管家”,扶梯消毒仪现高招,绝了!
- wait和notify,sleep
- jupyter notebook出现kernel waitting,please wait一系列错误的解决办法
- Flutter开发:Another exception was thrown:Unable to load asset:…的解决方法
- (七)CMake变量及其设置
- pyTest官方手册(Release 4.2)之蹩脚翻译(1)
- 《21天学通HTML+CSS+JavaScript Web开发(第7版)》——2.4 您要在Web上做什么
- Unity UGUI 检测按钮的按下与抬起
- HTML入门学习线路图