Sphinx并不支持中文分词, 也就不支持中文搜索, Coreseek = Sphinx + MMSEG(中文分词算法)

1.下载

  1).到官网下载

  2).解压后有三个文件夹

    csft-3.2.14: Sphinx

    mmseg-3.2.14: 中文分词组件

    testpack: 接口开发包

2.安装

  1).先安装mmseg, 因为Coreseek会用到

cd mmseg-3.2.14
./configure --prefix=/usr/local/mmseg

  此时如果Makefile文件创建成功, 但是出现了一个config.status: error: cannot find input file: src/Makefile.in错误信息, 使用以下命令重新编译

aclocal
libtoolize --force
automake --add-missing
autoconf
autoheader
make clean
./configure --prefix=/usr/local/mmseg

  执行安装

make && make install

  2).安装csft(即Coreseek)

./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib
make && make install

3.中文分词算法分类

  1).基于字符串匹配的分词方法

    基于字典, 进行挨个的词条匹配

    三个要素: 分词词典, 文本扫描顺序, 匹配原则

    扫描顺序: 正向, 逆向, 双向

    匹配原则: 最大, 最小, 逐词,最佳

  2).基于理解的分词方法, 正在测试阶段

  3).基于统计的分词方法, 可以根据相邻的字出现的次数和频率等自动识别生词, 自动消除歧义

4.配置Coreseek

cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #与Sphinx不同的是配置文件名不同
#接下来按照Sphinx配置即可, 注意索引中的此两处配置
#charset_type        = zh_cn.utf-8
#charset_dictpath    = /usr/local/mmseg/etc/

5.生成索引

cd /usr/local/coreseek/bin
./indexer --all

6.查找内容

cd /usr/local/coreseek/bin
./search 随永杰

转载于:https://www.cnblogs.com/JohnABC/p/4733682.html

Coreseek-带中文分词的Sphinx相关推荐

  1. sphinx+coreseek创建中文分词索引

    2019独角兽企业重金招聘Python工程师标准>>> 一:安装sphinx步骤如下: 下载sphinx最新的2.2.11版本 cd /opt/sphinx wget 下载地址 ta ...

  2. php+中文分词scws+sphinx+mysql打造千万级数据全文搜索

    Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图为其他应用提供高速.低空间占用.高结果 相关度的全文搜索功能.Sphinx可以非常容易的与SQL数据库和脚本语言集成 ...

  3. k8s部署 wiki.js ,带中文分词

    官网 https://js.wiki/ https://docs.requarks.io/install/docker-desktop k8s postgres 安装 因为包含中文分词,要在原版的基础 ...

  4. ubuntu-10.04的测试环境 安装测试 Coreseek开源中文检索引擎-Sphinx中文版

    主要参考文档:http://www.coreseek.cn/products-install/install_on_bsd_linux/ 一. 32位版本: coreseek安装需要预装的软件: ap ...

  5. Lucene支持中文分词代码实现

    支持中文分词 分析器(Analyzer)的执行过程 如下图是语汇单元的生成过程: 从一个Reader字符流开始,创建一个基于Reader的Tokenizer分词器,经过三个TokenFilter生成语 ...

  6. solr 中文分词器IKAnalyzer和拼音分词器pinyin

    solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 "冬天到了天气冷了小明不想上学去了",点击右边的按钮,发现 ...

  7. (转)全文检索技术学习(三)——Lucene支持中文分词

    http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程 如下图是语汇单元的生成过程:    从一个 ...

  8. Solr之——配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer

    转载请注明出处:http://blog.csdn.net/l1028386804/article/details/70200378 在上一篇博文<CentOS安装与配置Solr6.5>中, ...

  9. Lucene快速入门第三讲——看看Lucene是如何支持中文分词的?

    在这一讲中,我们要看看Lucene到底是如何支持中文分词的?为了向大家阐述明白这个问题,咱们可先从分析器的执行过程入手. 分析器(Analyzer)的执行过程 如下图所示是语汇单元的生成过程: 从一个 ...

最新文章

  1. android 圆滑曲线,如何使用贝塞尔曲线在一组点上绘制平滑线?
  2. SLAM 学习与开发经验分享
  3. I.MX6 Linux Qt 启动流程跟踪
  4. td 内单选框不可用_在TD,我和曾经的老师变成了同事,也收获了最满意的“课外活动”...
  5. apk去除签名验证工具安卓版_App 签名过期或泄露怎么办?别担心,Google 已经给出解决方案!...
  6. 企业实战_10_MyCat Mysql 主复制总结
  7. CI集成 ckeditor 配置
  8. Python+OpenCV4:读写输入和输出的简单实践(图片、视频、摄像头)
  9. 英语学习笔记2019-10-25
  10. asp mysql 设置编码_ASP对数据库各种操作的代码
  11. OCP 11G 051题库解析笔记-总
  12. enumerable java_ruby中的Enumerable的使用
  13. 看雪CTF.TSRC 2018 团队赛 第十一题『伊甸园』 解题思路
  14. vue 项目使用通过经纬度显示地图
  15. Unix网络编程第一卷学习总结
  16. 五分钟上手ECharts教程
  17. ai作诗——分享好用人工智能作诗工具
  18. 2008年度世界五百强
  19. 【linux内核分析与应用-陈莉君】中断处理机制
  20. 阿里物联网平台产品、设备创建

热门文章

  1. 双11不过瘾?双十二低至半价继续抢,更有免费学的机会等你抢!
  2. 【转】hadoop 报 Name node is in safe mode 错
  3. Unable to execute dex: Multiple dex files define Lcom
  4. android.provider.documentscontract cannot be resolved.
  5. dalvik对于Java方法调用的实现
  6. 关于JDBC的一些笔记
  7. git个人使用总结 —— idea命令行、撤销commit (未完待续)
  8. SDNU 1045.石子合并1(区间dp)
  9. day34 并行并发、进程开启、僵尸及孤儿进程
  10. BZOJ 1188: [HNOI2007]分裂游戏(multi-nim)