Coreseek-带中文分词的Sphinx

Sphinx并不支持中文分词, 也就不支持中文搜索, Coreseek = Sphinx + MMSEG(中文分词算法)

1.下载

　　1).到官网下载

　　2).解压后有三个文件夹

　　　　csft-3.2.14: Sphinx

　　　　mmseg-3.2.14: 中文分词组件

　　　　testpack: 接口开发包

2.安装

　　1).先安装mmseg, 因为Coreseek会用到

cd mmseg-3.2.14
./configure --prefix=/usr/local/mmseg

　　此时如果Makefile文件创建成功, 但是出现了一个config.status: error: cannot find input file: src/Makefile.in错误信息, 使用以下命令重新编译

aclocal
libtoolize --force
automake --add-missing
autoconf
autoheader
make clean
./configure --prefix=/usr/local/mmseg

　　执行安装

make && make install

　　2).安装csft(即Coreseek)

./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib
make && make install

3.中文分词算法分类

　　1).基于字符串匹配的分词方法

　　　　基于字典, 进行挨个的词条匹配

　　　　三个要素: 分词词典, 文本扫描顺序, 匹配原则

　　　　扫描顺序: 正向, 逆向, 双向

　　　　匹配原则: 最大, 最小, 逐词,最佳

　　2).基于理解的分词方法, 正在测试阶段

　　3).基于统计的分词方法, 可以根据相邻的字出现的次数和频率等自动识别生词, 自动消除歧义

4.配置Coreseek

cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #与Sphinx不同的是配置文件名不同
#接下来按照Sphinx配置即可, 注意索引中的此两处配置
#charset_type        = zh_cn.utf-8
#charset_dictpath    = /usr/local/mmseg/etc/

5.生成索引

cd /usr/local/coreseek/bin
./indexer --all

6.查找内容

cd /usr/local/coreseek/bin
./search 随永杰

转载于:https://www.cnblogs.com/JohnABC/p/4733682.html

Coreseek-带中文分词的Sphinx相关推荐

sphinx+coreseek创建中文分词索引
2019独角兽企业重金招聘Python工程师标准>>> 一:安装sphinx步骤如下: 下载sphinx最新的2.2.11版本 cd /opt/sphinx wget 下载地址 ta ...
php+中文分词scws+sphinx+mysql打造千万级数据全文搜索
Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图为其他应用提供高速.低空间占用.高结果相关度的全文搜索功能.Sphinx可以非常容易的与SQL数据库和脚本语言集成 ...
k8s部署 wiki.js ,带中文分词
官网 https://js.wiki/ https://docs.requarks.io/install/docker-desktop k8s postgres 安装因为包含中文分词,要在原版的基础 ...
ubuntu-10.04的测试环境安装测试 Coreseek开源中文检索引擎-Sphinx中文版
主要参考文档:http://www.coreseek.cn/products-install/install_on_bsd_linux/ 一. 32位版本: coreseek安装需要预装的软件: ap ...
Lucene支持中文分词代码实现
支持中文分词分析器(Analyzer)的执行过程如下图是语汇单元的生成过程: 从一个Reader字符流开始,创建一个基于Reader的Tokenizer分词器,经过三个TokenFilter生成语 ...
solr 中文分词器IKAnalyzer和拼音分词器pinyin
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 "冬天到了天气冷了小明不想上学去了",点击右边的按钮,发现 ...
（转）全文检索技术学习(三)——Lucene支持中文分词
http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程如下图是语汇单元的生成过程: 从一个 ...
Solr之——配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/70200378 在上一篇博文<CentOS安装与配置Solr6.5>中, ...
Lucene快速入门第三讲——看看Lucene是如何支持中文分词的？
在这一讲中,我们要看看Lucene到底是如何支持中文分词的?为了向大家阐述明白这个问题,咱们可先从分析器的执行过程入手. 分析器(Analyzer)的执行过程如下图所示是语汇单元的生成过程: 从一个 ...

Coreseek-带中文分词的Sphinx

Coreseek-带中文分词的Sphinx相关推荐

最新文章

热门文章