scws sphinx mysql_Sphinx系列文章\SCWS中文分词

软件清单

SCWS： 1.2.2，下载

XDB字典：下载

安装

For Mac / Linux

请注意，我的系统是Mac OS X 10.11.2

假设你已经下载好了上面的软件。

第一步：编译和安装

# 解压

➜ tar -xvf scws-1.2.2.tar.bz2

# 编译和安装 scws

./configure --prefix=/usr/local/Cellar/scws # --preifx=[安装路径]

make -j4

make install

# 编译和安装 php-scws

➜ cd phpext

➜ phpize

➜ ./configure --with-scws=/usr/local/Cellar/scws --with-php-config=/usr/local/Cellar/php56/5.6.16/bin/php-config

➜ make -j4

➜ make install

# 输出

Installing shared extensions: /usr/local/Cellar/php56/5.6.16/lib/php/extensions/debug-non-zts-20131226/

这说明 php-sces 扩展被安装到了，/usr/local/Cellar/php56/5.6.16/lib/php/extensions/debug-non-zts-20131226/ 路径下。然后启用这个 PHP 模块：

# 两种方法：

# 1.直接在 php.ini 中配置；2.写成单独的配置文件(前提是启用了加载附加 .ini 配置文件这个功能)

# 配置内容都一样：

[scws]

extension = "/usr/local/Cellar/php56/5.6.16/lib/php/extensions/debug-non-zts-20131226/scws.so"

scws.default.charset = utf-8

scws.default.fpath = "/usr/local/Cellar/scws/etc"

解释一下：

extension: 模块链接库路径

scws.default.charset：scws 模块执行时默认编码集

scws.default.fpath：scws 配置文件路径

重启PHP，看看模块是否加载成功：

➜ kill -USR2 311

➜ php -m | grep scws

# 输出

scws

第二步：词库

# 解压词库

➜ tar -xvf scws-dict-chs-utf8.tar.bz2

# 输出

x dict.utf8.xdb

将词库移动至安装 scws 的 etc 目录下：

➜ mv dict.utf8.xdb /usr/local/Cellar/scws/etc

测试安装是否成功

header('Content-type: text/html; charset=utf-8');

if (extension_loaded('scws')) {

$module = 'scws';

$funcs = get_extension_funcs($module);

echo "模块包含以下函数：\n";

echo "---------------------------------------\n";

print_r($funcs);

echo "---------------------------------------\n";

echo "模块版本：\n";

echo scws_version();

} else {

echo '模块未找到！
';

}

输出：

模块包含以下函数：

---------------------------------------

Array

(

[0] => scws_open

[1] => scws_new

[2] => scws_close

[3] => scws_set_charset

[4] => scws_add_dict

[5] => scws_set_dict

[6] => scws_set_rule

[7] => scws_set_ignore

[8] => scws_set_multi

[9] => scws_set_duality

[10] => scws_send_text

[11] => scws_get_result

[12] => scws_get_tops

[13] => scws_has_word

[14] => scws_get_words

[15] => scws_version

)

---------------------------------------

模块版本：

SCWS (Module version:0.2.2, Library version:1.2.2) - by hightman%

SCWS 自带函数详解

mixed scws_new(void)

功能：创建并返回一个 SimpleCWS 类操作对象。

返回值：成功返回类操作句柄，失败返回 false。

mixed scws_open(void)

功能：创建并返回一个分词操作句柄。

返回值：成功返回 scws 操作句柄，失败返回 false。

bool scws_close(resource scws_handle)

功能：关闭一个已打开的 scws 分词操作句柄。

参数： scws_handle 即之前由 scws_open 打开的返回值。

返回值：始终为 true

bool scws_set_charset(resource scws_handle, string charset)

功能：设定分词词典、规则集、欲分文本字符串的字符集。

参数： charset 要新设定的字符集，只支持 utf8 和 gbk。(默认为 gbk，utf8不要写成utf-8)。

返回值：始终为 true

bool scws_add_dict(resource scws_handle, string dict_path [, int mode])

功能：添加分词所用的词典，新加入的优先查找。

参数： dict_path 词典的路径，可以是相对路径或完全路径(遵循安全模式下的 open_basedir)。

参数： mode 可选，表示加载的方式，其值有：

- SCWS_XDICT_TXT 表示要读取的词典文件是文本格式，可以和后2项结合用

- SCWS_XDICT_XDB 表示直接读取 xdb 文件(此为默认值)

- SCWS_XDICT_MEM 表示将 xdb 文件全部加载到内存中，以 XTree 结构存放，可用异或结合另外2个使用。

返回值：成功返回 true 失败返回 false

bool scws_set_dict(resource scws_handle, string dict_path [, int mode])

功能：设定分词所用的词典并清除已存在的词典列表

参数： dict_path 词典的路径，可以是相对路径或完全路径(遵循安全模式下的 open_basedir)。

参数： mode 可选，表示加载的方式。参见 scws_add_dict

返回值：成功返回 true 失败返回 false

bool scws_set_rule(resource scws_handle, string rule_path)

功能：设定分词所用的新词识别规则集(用于人名、地名、数字时间年代等识别)。

参数： rule_path 规则集的路径，可以是相对路径或完全路径(遵循安全模式下的 open_basedir)。

参数： mode 表示加载的方式。参见 scws_add_dict

返回值：成功返回 true 失败返回 false

bool scws_set_ignore(resource scws_handle, bool yes)

功能：设定分词返回结果时是否去除一些特殊的标点符号之类。

参数： yes 如果为 true 则结果中不返回标点符号，如果为 false 则会返回，缺省为 false。

返回值：始终为 true

bool scws_set_multi(resource scws_handle, int mode)

功能：设定分词返回结果时是否复式分割，如“中国人”返回“中国＋人＋中国人”三个词。

参数： mode 复合分词法的级别，缺省不复合分词。取值由下面几个常量异或组合(也可用 1-15 来表示)：

- SCWS_MULTI_SHORT (1)短词

- SCWS_MULTI_DUALITY (2)二元(将相邻的2个单字组合成一个词)

- SCWS_MULTI_ZMAIN (4)重要单字

- SCWS_MULTI_ZALL (8)全部单字

返回值：始终为 true

bool scws_set_duality(resource scws_handle, bool yes)

功能：设定是否将闲散文字自动以二字分词法聚合

参数： yes 设定值，如果为 true 则结果中多个单字会自动按二分法聚分，如果为 false 则不处理，缺省为 false。

返回值：始终为 true

bool scws_send_text(resource scws_handle, string text)

功能：发送设定分词所要切割的文本。

参数： text 要切分的文本的内容。

返回值：成功返回 true 失败返回 false

注意：系统底层处理方式为对该文本增加一个引用，故不论多长的文本并不会造成内存浪费；执行本函数时，若未加载任何词典和规则集，则会自动试图在 ini 指定的缺省目录下查找缺省字符集的词典和规则集。

mixed scws_get_result(resource scws_handle)

功能：根据 send_text 设定的文本内容，返回一系列切好的词汇。

返回值：成功返回切好的词汇组成的数组，若无更多词汇，返回 false。返回的词汇包含的键值如下：

- word string 词本身

- idf float 逆文本词频

- off int 该词在原文本路的位置

- attr string 词性

注意：每次切词后本函数应该循环调用，直到返回 false 为止，因为程序每次返回的词数是不确定的。

mixed scws_get_tops(resource scws_handle [, int limit [, string attr]])

功能：根据 send_text 设定的文本内容，返回系统计算出来的最关键词汇列表。

参数： limit 可选参数，返回的词的最大数量，缺省是 10 。

参数： attr 可选参数，是一系列词性组成的字符串，各词性之间以半角的逗号隔开，这表示返回的词性必须在列表中，如果以~开头，则表示取反，词性必须不在列表中，缺省为NULL，返回全部词性，不过滤。

返回值：成功返回统计好的的词汇组成的数组，返回 false。返回的词汇包含的键值如下：

- word string 词本身

- times int 词在文本中出现的次数

- weight float 该词计算后的权重

- attr string 词性

mixed scws_get_words(resource scws_handle, string attr)

功能：根据 send_text 设定的文本内容，返回系统中词性符合要求的关键词汇。

参数： attr 是一系列词性组成的字符串，各词性之间以半角的逗号隔开，这表示返回的词性必须在列表中，如果以~开头，则表示取反，词性必须不在列表中，若为空则返回全部词。

返回值：成功返回符合要求词汇组成的数组，返回 false。返回的词汇包含的键值参见 scws_get_result

bool scws_has_word(resource scws_handle, string attr)

功能：根据 send_text 设定的文本内容，返回系统中是否包括符合词性要求的关键词。

返回值：如果有则返回 true，没有就返回 false。

string scws_version(void)

功能：返回 scws 版本号名称信息(字符串)。

返回值：返回string，scws 版本号名称信息。

测试分词功能

echo "开始测试分词：\n";

echo "------------------------------------------------\n";

// 记录开始时间

$starttime = microtime(true);

// 开始分词

$keyword = <<

陈凯歌并不是《无极》的唯一著作权人，一部电影的整体版权归电影制片厂所有。

一部电影的作者包括导演、摄影、编剧等创作人员，这些创作人员对他们的创作是有版权的。不经过制片人授权，其他人不能对电影做拷贝、发行、反映，不能通过网络来传播，既不能把电影改编成小说、连环画等其他艺术形式发表，也不能把一部几个小时才能放完的电影改编成半个小时就能放完的短片。

著作权和版权在我国是同一个概念，是法律赋予作品创作者的专有权利。所谓专有权利就是没有经过权利人许可又不是法律规定的例外，要使用这个作品，就必须经过作者授权，没有授权就是侵权。

一九八零年春天

EOF;

$cws = scws_open();

// 设置分词编码

scws_set_charset($cws, "utf8");

// 设置分词所用字典

scws_set_dict($cws, ini_get('scws.default.fpath') . '/dict.utf8.xdb');

// 设定分词所用的识别规则集

scws_set_rule($cws, ini_get('scws.default.fpath') . '/rules.utf8.ini');

// 发送要分割的字符串

scws_send_text($cws, $keyword);

// 设定分词返回结果时是否去除一些特殊的标点符号之类

scws_set_ignore($cws, true);

// 设定分词返回结果时是否复式分割，如“中国人”返回“中国＋人＋中国人”三个词

// scws_set_multi($cws, false);

// 散文字自动以二字分词法聚合

scws_set_duality($cws, true);

echo "\n最关键词汇列表\n";

echo "-------------------------------------------------------------\n";

echo "No. 关键词 Attr Weight(times)\n";

echo "-------------------------------------------------------------\n";

$list = scws_get_tops($cws, 20, '');

$number = 1;

foreach ($list as $value) {

printf("%02d. %s \t\t\t %s \t %.2f(%d)\n",

$number, $value['word'], $value['attr'], $value['weight'], $value['times']);

$number++;

}

echo "-------------------------------------------------------------\n";

echo "\n返回切好的词汇\n";

echo "-------------------------------------------------------------\n";

while ($result = scws_get_result($cws)) {

foreach ($result as $value) {

if ($value['len'] == 1 && $value['word'] == "\r")

continue;

if ($value['len'] == 1 && $value['word'] == "\n")

echo $value['word'];

else

printf("%s：%s ", $value['word'], $value['attr']);

}

scws_close($cws);

// 对于分词返回结果去除特殊标点符号

// scws_set_ignore($cws, true);

// 对于分词结果是否复试分割

// scws_set_multi($cws, SCWS_MULTI_ZMAIN);

$endtime = microtime(true);

// 执行时间

echo "\n-------------------------------------------------------------\n\n";

echo '脚本执行了：'.bcsub($endtime, $starttime, 6)."秒";

echo "\n\n";

输出：

开始测试分词：

------------------------------------------------

最关键词汇列表

-------------------------------------------------------------

No. 关键词 Attr Weight(times)

-------------------------------------------------------------

01. 电影 n 25.02(6)

02. 不能 v 19.08(4)

03. 经过 v 14.82(3)

04. 创作 vn 14.82(3)

05. 授权 v 14.79(3)

06. 版权 n 14.76(3)

07. 专有 vn 13.94(2)

08. 陈凯歌 nr 11.87(1)

09. 改编 v 11.82(2)

10. 一九八零年 t 10.72(1)

11. 无极 ns 10.02(1)

12. 权利 n 9.88(2)

13. 小时 n 9.68(2)

14. 人员 n 9.60(2)

15. 就是 n 9.52(2)

16. 不是 v 9.48(2)

17. 法律 n 9.32(2)

18. 没有 v 9.30(2)

19. 作者 n 9.18(2)

20. 作品 n 9.12(2)

-------------------------------------------------------------

返回切好的词汇

-------------------------------------------------------------

陈凯歌：nr 并：c 不是：v 无极：ns 的：uj 唯一：b 著作权人：n 一部：n 部：n 电影：n 的：uj 整体：n 版权：n 归：v 电影：n 制片厂：n 所有：v

一部：n 部：n 电影：n 的：uj 作者：n 包括：v 导演：n 摄影：vn 编剧：n 等：v 创作：vn 人员：n 这些：r 创作：vn 人员：n 对：p 他们：r 的：uj

创作：vn 是：v 是有：v 有：v 版权：n 的：uj 不：d 经过：v 制片人：n 授权：v 其他人：rr 不能：v 对：p 电影：n 做：v 拷贝：n 发行：vn 反映：v

不能：v 通过：v 网络：n 来：v 传播：vn 既：c 不能：v 把：p 电影：n 改编：v 成：v 小说：n 连环画：n 等：v 其他：r 艺术：n 形式：n 发表：v 也

：d 不能：v 把：p 把一：m 一部：n 部几：m 几个：q 个：q 小时：n 才能：v 放：v 放完：v 完的：uj 的：uj 电影：n 改编：v 成半个：nr 小时：n 就

能：v 能放：v 放完：v 完的：uj 的：uj 短片：n

著作权：n 和：c 版权：n 在：p 我国：n 是：v 同一个：b 概念：n 是：v 法律：n 赋予：v 作品：n 创作者：n 的：uj 专有：vn 权利：n 所谓：v 专有：v

n 权利：n 就是：n 没有：v 经过：v 权利人：n 许可：v 又：d 不是：v 法律：n 规定：v 的：uj 例外：v 要：v 使用：v 这个：r 作品：n 就：d 必须：d

经过：v 作者：n 授权：v 没有：v 授权：v 就是：n 侵权：vn

一九八零年：t 春天：t

-------------------------------------------------------------

脚本执行了：0.004200秒

搞定！

总结

测试了一些词，分词准确性在90%左右。继续对配置文件修改一下，应该可以正常使用。

scws sphinx mysql_Sphinx系列文章\SCWS中文分词相关推荐

数学之美系列二 -- 谈谈中文分词
数学之美系列二 -- 谈谈中文分词 2006年4月10日上午 08:10:00 发表者: 吴军, Google 研究员谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用上回我们谈到利 ...
自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书<分布式机器学习实战>(人工智能科学与技术丛书)[陈敬雷编著][清华大学出版社] 文章目录自然语言处理系列十七分词工 ...
数学之美系列二 -- 谈谈中文分词
2006年4月10日上午 08:10:00 发表者: 吴军, Google 研究员谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是 ...
scws sphinx mysql_Sphinx+Scws 搭建千万级准实时搜索应用场景详解
# # 多个索引策略 # # 全部用户 source userbasesrc { type= mysql sql_host= 127.0.0.1 sql_user= root sql_pass= 12 ...
【转】python开发大全、系列文章、精品教程
版权声明:本文为博主原创文章,转载请注明来源.开发合作联系luanpenguestc@sina.com https://blog.csdn.net/luanpeng825485697/article/ ...
大创项目学习日志（一）——中文分词软件的选择与尝试
我现在愈发觉得,互联网应该有一个垃圾回收机制--技术性的博客因为软件版本的更新早已不再适用,但却仍然占据着搜索的结果.也许以后会有一种新的计算机职业--网络清洁工.他们可以熟练地运用各种技术手段保持网 ...
中文分词入门之字标注法3
中文分词入门之字标注法3 http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5% ...
免费中文分词系统与资源收集
转自:http://www.cnblogs.com/pittzh/articles/1677637.html 想要建立一个相对比较实用的"热点关键词库".主要功能就是收集关键和对关 ...
python系列文章(基础，应用，后端，运维，自动化测试，爬虫，数据分析，可视化，机器学习，深度学习系列内容)
python基础教程 python基础系列教程--Python的安装与测试:python解释器.PyDev编辑器.pycharm编译器 python基础系列教程--Python库的安装与卸载 pyth ...

scws sphinx mysql_Sphinx系列文章\SCWS中文分词

scws sphinx mysql_Sphinx系列文章\SCWS中文分词相关推荐

最新文章

热门文章