按照Sphinx来进行全文检索,默认只支持按字拆分,如果要实现比较好的中文分词,可以使用基于libmmseg的引擎Coreseek。

yum install g++

yum install gcc

yum install make

yum install mysql mysql-devel php-mysql qt4-mysql

wget  http://www.coreseek.cn/uploads/sources/mmseg3_0b3.tar.gz

wget  http://www.coreseek.cn/uploads/sources/csft3_0b4.tar.gz

tar -xzvf mmseg3_0b3.tar.gz

tar -xzvf csft3_0b4.tar.gz

cd mmseg.3.0b3/

./configure --prefix=/var/mmseg

make

make install

cd ..

cd csft3_0b4

./configure --prefix=/var/coreseek --with-mysql --with-mmseg-includes=/var/mmseg/include/mmseg --with-mmseg-libs=/var/mmseg/lib/

make

make install

cd /var/coreseek/

mkdir dict

cd /home/hfahe/mmseg.3.0b3/data

/var/mmseg/bin/mmseg -u unigram.txt

cp unigram.txt.uni /var/coreseek/dict/uni.lib

cd /var/coreseek/dict/

vi mmseg.ini

输入

[mmseg] merge_number_and_ascii=1; number_and_ascii_joint=-; compress_space=0; seperate_number_ascii=1;

cd /var/coreseek/etc/

cp sphinx.conf.dist sphinx.conf

mysql -h 192.168.1.xxx -u root -pxxx test < example.sql

vi sphinx.conf

修改配置里的数据库ip、用户名、密码、数据库

/var/coreseek/bin/indexer  --config  /var/coreseek/etc/sphinx.conf

这时可能会出现关于libmysqlclient的错误,解决办法如下:

locate libmysqlclient.so

ln -s /usr/local/lib/mysql/libmysqlclient.so.16 /lib/libmysqlclient.so.16

/var/coreseek/bin/indexer  --config  /var/coreseek/etc/sphinx.conf --all

/var/coreseek/bin/search  --config  /var/coreseek/etc/sphinx.conf doc

displaying matches: 1. document=3, weight=1, group_id=2, date_added=Thu Apr 22 15:15:25 2010 id=3 group_id=2 group_id2=7 date_added=2010-04-22 15:15:25 title=another doc content=this is another group 2. document=4, weight=1, group_id=2, date_added=Thu Apr 22 15:15:25 2010 id=4 group_id=2 group_id2=8 date_added=2010-04-22 15:15:25 title=doc number four content=this is to test groups words: 1. 'doc': 2 documents, 2 hits

要支持中文,需要将配置里的charset_type值修改为zh_cn.utf-8,并添加charset_dictpath = /var/coreseek/dict。

还需要将sql_query_pre = SET NAMES utf8这一行配置打开。

/var/coreseek/bin/indexer  --config  /var/coreseek/etc/sphinx.conf --all

/var/coreseek/bin/search  --config  /var/coreseek/etc/sphinx.conf 中文

试试是否已经可以正常检索中文了。

coreseek默认的配置文件是etc下的csft.conf,使用此文件时可以不需要加入config的配置。

此时应该已经可以显示正确结果了。

基于Sphinx的中文全文检索引擎Coreseek的安装相关推荐

  1. sphinx mysql存储引擎_基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计...

    Sphinx,单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级).Sphinx创建索引的速度为:创建100万条记录的索引只需3-4分钟,创建1000万条记录的索引可以在5 ...

  2. coreseek mysql.sock_Coreseek + Sphinx + Mysql + PHP构建中文检索引擎

    安装前首先安装依赖的软件包 yuminstall make gcc g++ gcc-c++ libtool autoconf automake imake  libxml2-devel expat-d ...

  3. CoreSeek(全文检索引擎 Sphinx 中文版)安装使用指南(CentOS6.5)

    Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索.论坛/站内搜索.数据库搜索.文档/文献检 ...

  4. ubuntu-10.04的测试环境 安装测试 Coreseek开源中文检索引擎-Sphinx中文版

    主要参考文档:http://www.coreseek.cn/products-install/install_on_bsd_linux/ 一. 32位版本: coreseek安装需要预装的软件: ap ...

  5. 在Ubuntu8.10下为PHP安装coreseek全文检索引擎支持的详细步骤

    2019独角兽企业重金招聘Python工程师标准>>> 关于sphinx就不多累言了,一套相当优秀的全文检索引擎.无论索引速度还是检索速度真的是非常的快. 至于coreseek ,可 ...

  6. Coreseek中文检索引擎

    前面几篇文章介绍了Sphinx检索引擎,但是Sphinx只支持英文. Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处 ...

  7. Lucene:基于Java的全文检索引擎简介(转载)

    Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基 ...

  8. mysql sphinx windows安装_Sphinx在windows下安装使用[支持中文全文检索]

    前一阵子尝试使用了一下Sphinx,一个能够被各种语言(PHP/Python/Ruby/etc)方便调用的全文检索系统.网上的资料大多是在 linux环境下的安装使用,当然,作为生产环境很有必要部署在 ...

  9. java全文检索功能_基于Java的全文检索引擎简介

    Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引引擎Lucene简介:关于作者和Lucene的历史 全文检索的实现:Luene全文索引和数据库索引的比较 中文切分词机制简介:基 ...

最新文章

  1. 5G 承载网 — 前传、中传、回传
  2. 矩阵乘法的四种理解方式
  3. Apache Hadoop 简单配置及实践
  4. React Native Android端多环境自动打包
  5. 程序配置amp;amp;ConfigurationManager
  6. lua split实现(lua程序设计10.6练习10.1题)
  7. 设置 chrome 无头浏览器
  8. 怎么调节手机的刷新率_价格均在2000元内,5G网络配高刷新率屏幕手机怎么选
  9. 《深入理解Android:卷III A》一一第3章 深入理解AudioService
  10. 中国酒柜行业市场供需与战略研究报告
  11. 1064. 朋友数(20)-PAT乙级真题
  12. 在网页输入框输入角标_这个免费插件能帮我们把Excel内容快速填充到网页表单?...
  13. 关于微信支付电商平台二清解决方案
  14. java RSA生成公钥对象和私钥对象
  15. Allegro基本规则设置指导书之Electrical Total Etch Length
  16. 在linux上安装微信/QQ/TIM/迅雷等
  17. Duplicate Net Names Wire AVCC
  18. 【线性代数】正交向量与正交子空间
  19. HTML移动端开发常见的兼容性总结
  20. 联发科6758_联发科MT6758

热门文章

  1. 简单实现点击图片放大的功能
  2. GitLab CI/CD .gitlab-ci.yaml 关键词(三):制品artifacts,缓存cache
  3. 【数据降维】数据降维方法分类
  4. 一个程序员的陪产经历--写在宝宝百日之际
  5. 【自然语言处理(NLP)】基于预训练模型的机器阅读理解
  6. pyinstxtractor 源码分析及填坑
  7. Windows系统下如何查看Python是否安装成功
  8. cv2的简单使用(持续更新)
  9. 牛顿迭代法求一个数的平方根(python)
  10. 2016-HitCon-Pwn-house_of_orange学习(附赠FSOP基础知识)