Coreseek-带中文分词的Sphinx
Sphinx并不支持中文分词, 也就不支持中文搜索, Coreseek = Sphinx + MMSEG(中文分词算法)
1.下载
1).到官网下载
2).解压后有三个文件夹
csft-3.2.14: Sphinx
mmseg-3.2.14: 中文分词组件
testpack: 接口开发包
2.安装
1).先安装mmseg, 因为Coreseek会用到
cd mmseg-3.2.14 ./configure --prefix=/usr/local/mmseg
此时如果Makefile文件创建成功, 但是出现了一个config.status: error: cannot find input file: src/Makefile.in错误信息, 使用以下命令重新编译
aclocal libtoolize --force automake --add-missing autoconf autoheader make clean ./configure --prefix=/usr/local/mmseg
执行安装
make && make install
2).安装csft(即Coreseek)
./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib make && make install
3.中文分词算法分类
1).基于字符串匹配的分词方法
基于字典, 进行挨个的词条匹配
三个要素: 分词词典, 文本扫描顺序, 匹配原则
扫描顺序: 正向, 逆向, 双向
匹配原则: 最大, 最小, 逐词,最佳
2).基于理解的分词方法, 正在测试阶段
3).基于统计的分词方法, 可以根据相邻的字出现的次数和频率等自动识别生词, 自动消除歧义
4.配置Coreseek
cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #与Sphinx不同的是配置文件名不同 #接下来按照Sphinx配置即可, 注意索引中的此两处配置 #charset_type = zh_cn.utf-8 #charset_dictpath = /usr/local/mmseg/etc/
5.生成索引
cd /usr/local/coreseek/bin ./indexer --all
6.查找内容
cd /usr/local/coreseek/bin ./search 随永杰
转载于:https://www.cnblogs.com/JohnABC/p/4733682.html
Coreseek-带中文分词的Sphinx相关推荐
- sphinx+coreseek创建中文分词索引
2019独角兽企业重金招聘Python工程师标准>>> 一:安装sphinx步骤如下: 下载sphinx最新的2.2.11版本 cd /opt/sphinx wget 下载地址 ta ...
- php+中文分词scws+sphinx+mysql打造千万级数据全文搜索
Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图为其他应用提供高速.低空间占用.高结果 相关度的全文搜索功能.Sphinx可以非常容易的与SQL数据库和脚本语言集成 ...
- k8s部署 wiki.js ,带中文分词
官网 https://js.wiki/ https://docs.requarks.io/install/docker-desktop k8s postgres 安装 因为包含中文分词,要在原版的基础 ...
- ubuntu-10.04的测试环境 安装测试 Coreseek开源中文检索引擎-Sphinx中文版
主要参考文档:http://www.coreseek.cn/products-install/install_on_bsd_linux/ 一. 32位版本: coreseek安装需要预装的软件: ap ...
- Lucene支持中文分词代码实现
支持中文分词 分析器(Analyzer)的执行过程 如下图是语汇单元的生成过程: 从一个Reader字符流开始,创建一个基于Reader的Tokenizer分词器,经过三个TokenFilter生成语 ...
- solr 中文分词器IKAnalyzer和拼音分词器pinyin
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 "冬天到了天气冷了小明不想上学去了",点击右边的按钮,发现 ...
- (转)全文检索技术学习(三)——Lucene支持中文分词
http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程 如下图是语汇单元的生成过程: 从一个 ...
- Solr之——配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/70200378 在上一篇博文<CentOS安装与配置Solr6.5>中, ...
- Lucene快速入门第三讲——看看Lucene是如何支持中文分词的?
在这一讲中,我们要看看Lucene到底是如何支持中文分词的?为了向大家阐述明白这个问题,咱们可先从分析器的执行过程入手. 分析器(Analyzer)的执行过程 如下图所示是语汇单元的生成过程: 从一个 ...
最新文章
- android 圆滑曲线,如何使用贝塞尔曲线在一组点上绘制平滑线?
- SLAM 学习与开发经验分享
- I.MX6 Linux Qt 启动流程跟踪
- td 内单选框不可用_在TD,我和曾经的老师变成了同事,也收获了最满意的“课外活动”...
- apk去除签名验证工具安卓版_App 签名过期或泄露怎么办?别担心,Google 已经给出解决方案!...
- 企业实战_10_MyCat Mysql 主复制总结
- CI集成 ckeditor 配置
- Python+OpenCV4:读写输入和输出的简单实践(图片、视频、摄像头)
- 英语学习笔记2019-10-25
- asp mysql 设置编码_ASP对数据库各种操作的代码
- OCP 11G 051题库解析笔记-总
- enumerable java_ruby中的Enumerable的使用
- 看雪CTF.TSRC 2018 团队赛 第十一题『伊甸园』 解题思路
- vue 项目使用通过经纬度显示地图
- Unix网络编程第一卷学习总结
- 五分钟上手ECharts教程
- ai作诗——分享好用人工智能作诗工具
- 2008年度世界五百强
- 【linux内核分析与应用-陈莉君】中断处理机制
- 阿里物联网平台产品、设备创建
热门文章
- 双11不过瘾?双十二低至半价继续抢,更有免费学的机会等你抢!
- 【转】hadoop 报 Name node is in safe mode 错
- Unable to execute dex: Multiple dex files define Lcom
- android.provider.documentscontract cannot be resolved.
- dalvik对于Java方法调用的实现
- 关于JDBC的一些笔记
- git个人使用总结 —— idea命令行、撤销commit (未完待续)
- SDNU 1045.石子合并1(区间dp)
- day34 并行并发、进程开启、僵尸及孤儿进程
- BZOJ 1188: [HNOI2007]分裂游戏(multi-nim)