按照Sphinx来进行全文检索,默认只支持按字拆分,如果要实现比较好的中文分词,可以使用基于libmmseg的引擎Coreseek。

yum install g++

yum install gcc

yum install make

yum install mysql mysql-devel php-mysql qt4-mysql

tar -xzvf mmseg3_0b3.tar.gz

tar -xzvf csft3_0b4.tar.gz

cd mmseg.3.0b3/

./configure --prefix=/var/mmseg

make

make install

cd ..

cd csft3_0b4

./configure --prefix=/var/coreseek --with-mysql --with-mmseg-includes=/var/mmseg/include/mmseg --with-mmseg-libs=/var/mmseg/lib/

make

make install

cd /var/coreseek/

mkdir dict

cd /home/hfahe/mmseg.3.0b3/data

/var/mmseg/bin/mmseg -u unigram.txt

cp unigram.txt.uni /var/coreseek/dict/uni.lib

cd /var/coreseek/dict/

vi mmseg.ini

输入

[mmseg]

merge_number_and_ascii=1;

number_and_ascii_joint=-;

compress_space=0;

seperate_number_ascii=1;

cd /var/coreseek/etc/

cp sphinx.conf.dist sphinx.conf

mysql -h 192.168.1.xxx -u root -pxxx test < example.sql

vi sphinx.conf

修改配置里的数据库ip、用户名、密码、数据库

/var/coreseek/bin/indexer  --config  /var/coreseek/etc/sphinx.conf

这时可能会出现关于libmysqlclient的错误,解决办法如下:

locate libmysqlclient.so

ln -s /usr/local/lib/mysql/libmysqlclient.so.16 /lib/libmysqlclient.so.16

/var/coreseek/bin/indexer  --config  /var/coreseek/etc/sphinx.conf --all

/var/coreseek/bin/search  --config  /var/coreseek/etc/sphinx.conf doc

displaying matches:

1. document=3, weight=1, group_id=2, date_added=Thu Apr 22 15:15:25 2010

id=3

group_id=2

group_id2=7

date_added=2010-04-22 15:15:25

title=another doc

content=this is another group

2. document=4, weight=1, group_id=2, date_added=Thu Apr 22 15:15:25 2010

id=4

group_id=2

group_id2=8

date_added=2010-04-22 15:15:25

title=doc number four

content=this is to test groups

words:

1. 'doc': 2 documents, 2 hits

要支持中文,需要将配置里的charset_type值修改为zh_cn.utf-8,并添加charset_dictpath = /var/coreseek/dict。

还需要将sql_query_pre = SET NAMES utf8这一行配置打开。

/var/coreseek/bin/indexer  --config  /var/coreseek/etc/sphinx.conf --all

/var/coreseek/bin/search  --config  /var/coreseek/etc/sphinx.conf 中文

试试是否已经可以正常检索中文了。

coreseek默认的配置文件是etc下的csft.conf,使用此文件时可以不需要加入config的配置。

此时应该已经可以显示正确结果了。

coreseek java_基于Sphinx的中文全文检索引擎Coreseek的安装相关推荐

  1. 基于Sphinx的中文全文检索引擎Coreseek的安装

    按照Sphinx来进行全文检索,默认只支持按字拆分,如果要实现比较好的中文分词,可以使用基于libmmseg的引擎Coreseek. yum install g++ yum install gcc y ...

  2. Coreseek中文检索引擎

    前面几篇文章介绍了Sphinx检索引擎,但是Sphinx只支持英文. Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处 ...

  3. 基于php的Sphinx以及coreseek的全文搜索,中文分词的使用(一)

    基于php的Sphinx以及coreseek的全文搜索,中文分词的使用(一) ##1.sphinx简介 1.什么是sphinx Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检 ...

  4. sphinx mysql存储引擎_基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计...

    Sphinx,单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级).Sphinx创建索引的速度为:创建100万条记录的索引只需3-4分钟,创建1000万条记录的索引可以在5 ...

  5. coreseek mysql.sock_Coreseek + Sphinx + Mysql + PHP构建中文检索引擎

    安装前首先安装依赖的软件包 yuminstall make gcc g++ gcc-c++ libtool autoconf automake imake  libxml2-devel expat-d ...

  6. CoreSeek(全文检索引擎 Sphinx 中文版)安装使用指南(CentOS6.5)

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索.论坛/站内搜索.数据库搜索.文档/文献检 ...

  7. 在Ubuntu8.10下为PHP安装coreseek全文检索引擎支持的详细步骤

    2019独角兽企业重金招聘Python工程师标准>>> 关于sphinx就不多累言了,一套相当优秀的全文检索引擎.无论索引速度还是检索速度真的是非常的快. 至于coreseek ,可 ...

  8. 全文索引JAVA_全文索引Sphinx和sphinx的中文分词

    网站需要做全文索引,所以研究了一下sphinx 1 Sphinx是什么 Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图为其他应用提供高速.低空间占用.高结果 相关 ...

  9. Lucene:基于Java的全文检索引擎简介(转载)

    Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基 ...

  10. mysql sphinx windows安装_Sphinx在windows下安装使用[支持中文全文检索]

    前一阵子尝试使用了一下Sphinx,一个能够被各种语言(PHP/Python/Ruby/etc)方便调用的全文检索系统.网上的资料大多是在 linux环境下的安装使用,当然,作为生产环境很有必要部署在 ...

最新文章

  1. 企业网站SEO优化的四大原则
  2. Android热修复升级探索——SO库修复方案 1
  3. 一文看懂用Python读取Excel数据
  4. 变更数据推送java_idea 团队成员修改工程后push推送
  5. 【Flink】Generic types have been disabled in the ExecutionConfig and type KryoSerializer Row
  6. 批处理文件中获取当前所在路径的几种方法,以及写文件到txt
  7. hdu1865 1sting
  8. 解决GLIDE4.0和圆角裁剪CENTERCROP冲突
  9. 【逻辑思考】有时评论比内容更精彩
  10. erlang ets源码实现浅析
  11. kubernetes 开发必须要知道的知识点—— API Group
  12. 阿里云云计算ACP实验考试之使用OSS对图片进行基本处理
  13. 评价指标(一)精确率,召回率,F1-score
  14. 触摸识别,智能分拣……看AI如何为垃圾分类赋能
  15. anaconda安装包
  16. 使用Java对PDF进行电子签章
  17. Python 模拟NBA文字直播 V1.0
  18. 全国翻译专业资格(水平) 考试
  19. Centos7使用yum更新gcc----依赖centos-release-scl源
  20. 《非暴力沟通》[1]

热门文章

  1. 大学计算机基础应用教程ppt,大学计算机基础教程.ppt
  2. Eclipse的环境变量如何配置和为什么要配置环境变量?
  3. win10 把软件窗口背景设置成豆沙绿
  4. Sql Server 的增删改查
  5. java的英文文献综述_java英文参考文献.doc
  6. MCMC蒙特卡洛算法
  7. 红帽linux考证时间,红帽认证考试时间
  8. #pragma comment(lib,ws2_32.lib)
  9. 在区块链的世界里,美国CFTC希望成为一个节点
  10. php微博自动评论,新浪微博自动评论工具