最近使用了SCWS进行中文分词。有个问题就是添加自定义词典,总结一下吧。

词典格式的话

  # WORD    TF    IDF    ATTR

学五    14.01    5.92    n

去这个网址可查:http://www.xunsearch.com/scws/demo/get_tfidf.php

自己写的,把要查的词放到txt中,然后批量查询~

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
require_once __DIR__.'/func/my_curl_function.php';
require_once __DIR__.'/func/simple_html_dom.php';
$url='http://www.xunsearch.com/scws/demo/get_tfidf.php';
$header=array(
    "Referer:http://www.xunsearch.com/scws/demo/get_tfidf.php",
"Cookie:PHPSESSID=1fuk5j3ckb7n55s5j4cltk2sd3"
);
$ffopen('tfidf.txt','r');
$i=0;
$html=new simple_html_dom();
while (!feof($f))
{
sleep(1);
  $contents array();
    $contents = trim(fgets($f));
   if($contents=="")continue;
         //echo $contents;
    $data['data']=urlencode(trim($contents));
    $returndata=my_curl_post($url,$data,$header);
    //var_dump($returndata);
    //正则匹配出TF IDF
preg_match('/WORD=.*? TF=(.*?) IDF=(.*?)<br \/>/',$returndata,$ret);
$tf=$ret[1];
$idf=$ret[2];
echo "\n";
echo $contents."\t".$tf."\t".$idf."\tn\r\n";
//$html->load($returndata);
//$ps=$html->find('p');
//var_dump($ret);
file_put_contents("tfidf.out",$contents."\t".$tf."\t".$idf."\tn\r\n",FILE_APPEND);
}
fclose($f);

生成好自己的字典后就可以添加了

其实只要添加$so->add_dict('路径',词典);即可.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
function scws_text($string)
{
$so = scws_new();
$so->set_charset('utf8');
$so->set_ignore(true);
$so->add_dict('/usr/local/scws/etc/dict.xdb',SCWS_XDICT_XDB);
$so->add_dict('/usr/local/scws/etc/dict.utf8.xdb',SCWS_XDICT_XDB);
$so->add_dict('/usr/local/scws/etc/mydict.txt',SCWS_XDICT_TXT);
$so->send_text($string);
$text ="";
while ($tmp $so->get_result())
{
foreach($tmp as $key=>$value){
  //print_r($tmp);
 //$tmp .= $tmp;
$text .= $value['word']." ";
}
}
//print_r($text);
$so->close();
return $text;
}

添加上就可以使用咯

本文转自 努力的C 51CTO博客,原文链接:http://blog.51cto.com/fulin0532/1952455

SCWS 添加自定义词典相关推荐

  1. 结巴分词jieba添加自定义词典

    结巴分词添加自定义词典,有时候很有必要.比如下面这段话: test_text = """ 我们的健康码也是绿色的,这凭什么就限制我们的就医!""&qu ...

  2. 2.5.jieba分词工具、Jieba安装、全模式/精确模式、添加自定义词典、关键词抽取、词性标注、词云展示

    2.5.jieba分词工具 2.5.1.Jieba安装 2.5.2.全模式/精确模式 2.5.3.添加自定义词典 2.5.4.关键词抽取 2.5.5.词性标注 2.5.6.词云展示 2.5.jieba ...

  3. [Python知识图谱] 三.Jieba工具中文分词、添加自定义词典及词性标注详解

    本系列文章主要结合Python语言实现知识图谱构建相关工程,具有一定创新性和实用性,非常希望各位博友交流讨论,相互促进成长.前面两篇文章详细讲解了哈工大Pyltp工具,包括中文分词.词性标注.实体识别 ...

  4. 如何在基于Lucene的中文分词器中添加自定义词典(如Paoding、mmseg4j、IK Analyzer)...

    如何在基于Lucene的中文分词器中添加自定义词典(如Paoding.mmseg4j.IK Analyzer) 2013-07-08 21:54:29|  分类: 计算机 |字号 订阅 1. 使用Pa ...

  5. pyhanlp添加自定义词典

    1.找到python安装包的位置,对site-packages\pyhanlp\static\data\dictionary\custom\CustomDictionary.txt,将词典放置该目录下 ...

  6. python--jieba分词、词性标注、关键词提取、添加自定义词典完整代码示例

    jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性: 支持 3 种分词模式:精确模式.全模式.搜索引擎模式 支持繁体分词 支持自定义词典 1 分词   可使用 jieba. ...

  7. ansj添加自定义词典以及解决ansj加载自定义词典不起作用问题

    pom文件中添加 <!-- Ansj中文分词--><dependency><groupId>org.ansj</groupId><artifact ...

  8. 安装scws需要安装php吗,Linux 安装SCWS-1.2.3 安装说明(包括php扩展)

    scws 安装 $ wget -q -O - http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 | tar xjf - $ cd scws-1 ...

  9. jieba结巴分词加入自定义词典

    文章目录 分词 返回generator 返回list 添加自定义词典 动态调整词典 参考 jieba官方文档 分词 返回generator jieba.cut 以及 jieba.cut_for_sea ...

最新文章

  1. 使用JQuery完成仿百度的信息提示
  2. linux mysql 5.5 安装_Linux 安装 mysql5.5.19
  3. Linux笔记-bash中字符串拆分并且存到数组中
  4. 虚拟机的三大服务器启动不了,Win7系统下共享虚拟机提示VMware Workstation Server共享服务不能启动如何解决?...
  5. mysql的本地id可以随便设置马_Mysql 都会遭受哪些方面的攻击?
  6. pyplot设置刻度字体大小以及标签字体大小
  7. 海思芯片上LDC(镜头畸变校正)功能原理浅析
  8. 你为什么要去博物馆? 我的理由比较另类
  9. win10中安装centos7双系统
  10. Protel99SE添加泪滴焊盘
  11. Python 爬取京东商品评论 + 词云展示
  12. LeetCode:剑指 Offer 58 - II. 左旋转字符串
  13. Fiddler的安装及配置2-2
  14. Vue使用Object标签对接IC读卡器硬件
  15. mysql双主是什么意思_mysql基础之mysql双主(主主)架构
  16. yarn 命令学习:yarn application
  17. 【1】常见手术机器人公司及产品介绍
  18. 前端导出(JSON\数据流)
  19. 智慧城市数据可视化助力于城市建设
  20. 【Python面向对象编程】第18篇 属性装饰器

热门文章

  1. awk 添加自定义变量
  2. Nodejs的http模块
  3. ACM数论之旅17---反演定理 第一回 二项式反演(神说要有光 于是就有了光(´・ω・`))...
  4. log4j, common-logging, slf4j 关系
  5. (转载)为什么欧美拿金牌不感谢祖国
  6. 不好意思,食言而肥了
  7. 准备搭建经营分析前端试验型平台
  8. 《LeetCode力扣练习》第39题 组合总和 Java
  9. python元组修改_python基础知识之元组
  10. es查询java代码如何排序_elasticsearch 查询聚合结果排序