coreseek java_基于Sphinx的中文全文检索引擎Coreseek的安装
按照Sphinx来进行全文检索,默认只支持按字拆分,如果要实现比较好的中文分词,可以使用基于libmmseg的引擎Coreseek。
yum install g++
yum install gcc
yum install make
yum install mysql mysql-devel php-mysql qt4-mysql
tar -xzvf mmseg3_0b3.tar.gz
tar -xzvf csft3_0b4.tar.gz
cd mmseg.3.0b3/
./configure --prefix=/var/mmseg
make
make install
cd ..
cd csft3_0b4
./configure --prefix=/var/coreseek --with-mysql --with-mmseg-includes=/var/mmseg/include/mmseg --with-mmseg-libs=/var/mmseg/lib/
make
make install
cd /var/coreseek/
mkdir dict
cd /home/hfahe/mmseg.3.0b3/data
/var/mmseg/bin/mmseg -u unigram.txt
cp unigram.txt.uni /var/coreseek/dict/uni.lib
cd /var/coreseek/dict/
vi mmseg.ini
输入
[mmseg]
merge_number_and_ascii=1;
number_and_ascii_joint=-;
compress_space=0;
seperate_number_ascii=1;
cd /var/coreseek/etc/
cp sphinx.conf.dist sphinx.conf
mysql -h 192.168.1.xxx -u root -pxxx test < example.sql
vi sphinx.conf
修改配置里的数据库ip、用户名、密码、数据库
/var/coreseek/bin/indexer --config /var/coreseek/etc/sphinx.conf
这时可能会出现关于libmysqlclient的错误,解决办法如下:
locate libmysqlclient.so
ln -s /usr/local/lib/mysql/libmysqlclient.so.16 /lib/libmysqlclient.so.16
/var/coreseek/bin/indexer --config /var/coreseek/etc/sphinx.conf --all
/var/coreseek/bin/search --config /var/coreseek/etc/sphinx.conf doc
displaying matches:
1. document=3, weight=1, group_id=2, date_added=Thu Apr 22 15:15:25 2010
id=3
group_id=2
group_id2=7
date_added=2010-04-22 15:15:25
title=another doc
content=this is another group
2. document=4, weight=1, group_id=2, date_added=Thu Apr 22 15:15:25 2010
id=4
group_id=2
group_id2=8
date_added=2010-04-22 15:15:25
title=doc number four
content=this is to test groups
words:
1. 'doc': 2 documents, 2 hits
要支持中文,需要将配置里的charset_type值修改为zh_cn.utf-8,并添加charset_dictpath = /var/coreseek/dict。
还需要将sql_query_pre = SET NAMES utf8这一行配置打开。
/var/coreseek/bin/indexer --config /var/coreseek/etc/sphinx.conf --all
/var/coreseek/bin/search --config /var/coreseek/etc/sphinx.conf 中文
试试是否已经可以正常检索中文了。
coreseek默认的配置文件是etc下的csft.conf,使用此文件时可以不需要加入config的配置。
此时应该已经可以显示正确结果了。
coreseek java_基于Sphinx的中文全文检索引擎Coreseek的安装相关推荐
- 基于Sphinx的中文全文检索引擎Coreseek的安装
按照Sphinx来进行全文检索,默认只支持按字拆分,如果要实现比较好的中文分词,可以使用基于libmmseg的引擎Coreseek. yum install g++ yum install gcc y ...
- Coreseek中文检索引擎
前面几篇文章介绍了Sphinx检索引擎,但是Sphinx只支持英文. Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处 ...
- 基于php的Sphinx以及coreseek的全文搜索,中文分词的使用(一)
基于php的Sphinx以及coreseek的全文搜索,中文分词的使用(一) ##1.sphinx简介 1.什么是sphinx Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检 ...
- sphinx mysql存储引擎_基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计...
Sphinx,单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级).Sphinx创建索引的速度为:创建100万条记录的索引只需3-4分钟,创建1000万条记录的索引可以在5 ...
- coreseek mysql.sock_Coreseek + Sphinx + Mysql + PHP构建中文检索引擎
安装前首先安装依赖的软件包 yuminstall make gcc g++ gcc-c++ libtool autoconf automake imake libxml2-devel expat-d ...
- CoreSeek(全文检索引擎 Sphinx 中文版)安装使用指南(CentOS6.5)
Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索.论坛/站内搜索.数据库搜索.文档/文献检 ...
- 在Ubuntu8.10下为PHP安装coreseek全文检索引擎支持的详细步骤
2019独角兽企业重金招聘Python工程师标准>>> 关于sphinx就不多累言了,一套相当优秀的全文检索引擎.无论索引速度还是检索速度真的是非常的快. 至于coreseek ,可 ...
- 全文索引JAVA_全文索引Sphinx和sphinx的中文分词
网站需要做全文索引,所以研究了一下sphinx 1 Sphinx是什么 Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图为其他应用提供高速.低空间占用.高结果 相关 ...
- Lucene:基于Java的全文检索引擎简介(转载)
Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基 ...
- mysql sphinx windows安装_Sphinx在windows下安装使用[支持中文全文检索]
前一阵子尝试使用了一下Sphinx,一个能够被各种语言(PHP/Python/Ruby/etc)方便调用的全文检索系统.网上的资料大多是在 linux环境下的安装使用,当然,作为生产环境很有必要部署在 ...
最新文章
- 企业网站SEO优化的四大原则
- Android热修复升级探索——SO库修复方案 1
- 一文看懂用Python读取Excel数据
- 变更数据推送java_idea 团队成员修改工程后push推送
- 【Flink】Generic types have been disabled in the ExecutionConfig and type KryoSerializer Row
- 批处理文件中获取当前所在路径的几种方法,以及写文件到txt
- hdu1865 1sting
- 解决GLIDE4.0和圆角裁剪CENTERCROP冲突
- 【逻辑思考】有时评论比内容更精彩
- erlang ets源码实现浅析
- kubernetes 开发必须要知道的知识点—— API Group
- 阿里云云计算ACP实验考试之使用OSS对图片进行基本处理
- 评价指标(一)精确率,召回率,F1-score
- 触摸识别,智能分拣……看AI如何为垃圾分类赋能
- anaconda安装包
- 使用Java对PDF进行电子签章
- Python 模拟NBA文字直播 V1.0
- 全国翻译专业资格(水平) 考试
- Centos7使用yum更新gcc----依赖centos-release-scl源
- 《非暴力沟通》[1]
热门文章
- 大学计算机基础应用教程ppt,大学计算机基础教程.ppt
- Eclipse的环境变量如何配置和为什么要配置环境变量?
- win10 把软件窗口背景设置成豆沙绿
- Sql Server 的增删改查
- java的英文文献综述_java英文参考文献.doc
- MCMC蒙特卡洛算法
- 红帽linux考证时间,红帽认证考试时间
- #pragma comment(lib,ws2_32.lib)
- 在区块链的世界里,美国CFTC希望成为一个节点
- php微博自动评论,新浪微博自动评论工具