SCWS 添加自定义词典
最近使用了SCWS进行中文分词。有个问题就是添加自定义词典,总结一下吧。
词典格式的话
# WORD TF IDF ATTR
学五 14.01 5.92 n
去这个网址可查:http://www.xunsearch.com/scws/demo/get_tfidf.php
自己写的,把要查的词放到txt中,然后批量查询~
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
|
require_once __DIR__. '/func/my_curl_function.php' ;
require_once __DIR__. '/func/simple_html_dom.php' ;
$url = 'http://www.xunsearch.com/scws/demo/get_tfidf.php' ;
$header = array (
"Referer:http://www.xunsearch.com/scws/demo/get_tfidf.php" ,
"Cookie:PHPSESSID=1fuk5j3ckb7n55s5j4cltk2sd3"
);
$f = fopen ( 'tfidf.txt' , 'r' );
$i =0;
$html = new simple_html_dom();
while (! feof ( $f ))
{
sleep(1);
$contents = array ();
$contents = trim( fgets ( $f ));
if ( $contents == "" ) continue ;
//echo $contents;
$data [ 'data' ]=urlencode(trim( $contents ));
$returndata =my_curl_post( $url , $data , $header );
//var_dump($returndata);
//正则匹配出TF IDF
preg_match( '/WORD=.*? TF=(.*?) IDF=(.*?)<br \/>/' , $returndata , $ret );
$tf = $ret [1];
$idf = $ret [2];
echo "\n" ;
echo $contents . "\t" . $tf . "\t" . $idf . "\tn\r\n" ;
//$html->load($returndata);
//$ps=$html->find('p');
//var_dump($ret);
file_put_contents ( "tfidf.out" , $contents . "\t" . $tf . "\t" . $idf . "\tn\r\n" ,FILE_APPEND);
}
fclose( $f );
|
生成好自己的字典后就可以添加了
其实只要添加$so->add_dict('路径',词典);即可.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
function scws_text( $string )
{
$so = scws_new();
$so ->set_charset( 'utf8' );
$so ->set_ignore(true);
$so ->add_dict( '/usr/local/scws/etc/dict.xdb' ,SCWS_XDICT_XDB);
$so ->add_dict( '/usr/local/scws/etc/dict.utf8.xdb' ,SCWS_XDICT_XDB);
$so ->add_dict( '/usr/local/scws/etc/mydict.txt' ,SCWS_XDICT_TXT);
$so ->send_text( $string );
$text = "" ;
while ( $tmp = $so ->get_result())
{
foreach ( $tmp as $key => $value ){
//print_r($tmp);
//$tmp .= $tmp;
$text .= $value [ 'word' ]. " " ;
}
}
//print_r($text);
$so ->close();
return $text ;
}
|
添加上就可以使用咯
本文转自 努力的C 51CTO博客,原文链接:http://blog.51cto.com/fulin0532/1952455
SCWS 添加自定义词典相关推荐
- 结巴分词jieba添加自定义词典
结巴分词添加自定义词典,有时候很有必要.比如下面这段话: test_text = """ 我们的健康码也是绿色的,这凭什么就限制我们的就医!""&qu ...
- 2.5.jieba分词工具、Jieba安装、全模式/精确模式、添加自定义词典、关键词抽取、词性标注、词云展示
2.5.jieba分词工具 2.5.1.Jieba安装 2.5.2.全模式/精确模式 2.5.3.添加自定义词典 2.5.4.关键词抽取 2.5.5.词性标注 2.5.6.词云展示 2.5.jieba ...
- [Python知识图谱] 三.Jieba工具中文分词、添加自定义词典及词性标注详解
本系列文章主要结合Python语言实现知识图谱构建相关工程,具有一定创新性和实用性,非常希望各位博友交流讨论,相互促进成长.前面两篇文章详细讲解了哈工大Pyltp工具,包括中文分词.词性标注.实体识别 ...
- 如何在基于Lucene的中文分词器中添加自定义词典(如Paoding、mmseg4j、IK Analyzer)...
如何在基于Lucene的中文分词器中添加自定义词典(如Paoding.mmseg4j.IK Analyzer) 2013-07-08 21:54:29| 分类: 计算机 |字号 订阅 1. 使用Pa ...
- pyhanlp添加自定义词典
1.找到python安装包的位置,对site-packages\pyhanlp\static\data\dictionary\custom\CustomDictionary.txt,将词典放置该目录下 ...
- python--jieba分词、词性标注、关键词提取、添加自定义词典完整代码示例
jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性: 支持 3 种分词模式:精确模式.全模式.搜索引擎模式 支持繁体分词 支持自定义词典 1 分词 可使用 jieba. ...
- ansj添加自定义词典以及解决ansj加载自定义词典不起作用问题
pom文件中添加 <!-- Ansj中文分词--><dependency><groupId>org.ansj</groupId><artifact ...
- 安装scws需要安装php吗,Linux 安装SCWS-1.2.3 安装说明(包括php扩展)
scws 安装 $ wget -q -O - http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 | tar xjf - $ cd scws-1 ...
- jieba结巴分词加入自定义词典
文章目录 分词 返回generator 返回list 添加自定义词典 动态调整词典 参考 jieba官方文档 分词 返回generator jieba.cut 以及 jieba.cut_for_sea ...
最新文章
- 使用JQuery完成仿百度的信息提示
- linux mysql 5.5 安装_Linux 安装 mysql5.5.19
- Linux笔记-bash中字符串拆分并且存到数组中
- 虚拟机的三大服务器启动不了,Win7系统下共享虚拟机提示VMware Workstation Server共享服务不能启动如何解决?...
- mysql的本地id可以随便设置马_Mysql 都会遭受哪些方面的攻击?
- pyplot设置刻度字体大小以及标签字体大小
- 海思芯片上LDC(镜头畸变校正)功能原理浅析
- 你为什么要去博物馆? 我的理由比较另类
- win10中安装centos7双系统
- Protel99SE添加泪滴焊盘
- Python 爬取京东商品评论 + 词云展示
- LeetCode:剑指 Offer 58 - II. 左旋转字符串
- Fiddler的安装及配置2-2
- Vue使用Object标签对接IC读卡器硬件
- mysql双主是什么意思_mysql基础之mysql双主(主主)架构
- yarn 命令学习:yarn application
- 【1】常见手术机器人公司及产品介绍
- 前端导出(JSON\数据流)
- 智慧城市数据可视化助力于城市建设
- 【Python面向对象编程】第18篇 属性装饰器
热门文章
- awk 添加自定义变量
- Nodejs的http模块
- ACM数论之旅17---反演定理 第一回 二项式反演(神说要有光 于是就有了光(´・ω・`))...
- log4j, common-logging, slf4j 关系
- (转载)为什么欧美拿金牌不感谢祖国
- 不好意思,食言而肥了
- 准备搭建经营分析前端试验型平台
- 《LeetCode力扣练习》第39题 组合总和 Java
- python元组修改_python基础知识之元组
- es查询java代码如何排序_elasticsearch 查询聚合结果排序