一、  Sphinx简介

windows 下载 http://sphinxsearch.com/downloads/current/

Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式的XML数据。

Sphinx的特性如下:

a)  高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);

b)  高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);

c)  可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可处理100 M 文档);

d)  提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;

e)  支持分布式搜索;

f)  支持短语搜索

g)  提供文档摘要生成

h)  可作为MySQL的存储引擎提供搜索服务;

i)  支持布尔、短语、词语相似度等多种检索模式;

j)  文档支持多个全文检索字段(最大不超过32个);

k)  文档支持多个额外的属性信息(例如:分组信息,时间戳等);

l)  支持断词;

虽然mysql的MYISAM提供全文索引,但是性能却不敢让人恭维,另外数据库毕竟不是很善于做这样的事情,我们需要把这些活让给更适合的程序去做,减少数据库的压力。因此采用Sphinx来做mysql的全文索引工具是一个很好的选择。这个星期主要来学习这个这个工具的使用,下面将学习过程大致的记录一下,做个备忘,也希望能对学习这个工具的其他朋友有所启发。

二、  Sphinx安装

Sphinx在mysql上的应用有两种方式:

1.    采用API调用,如使用PHP、java等的API函数或方法查询。优点是可不必对mysql重新编译,服务端进程“低耦合”,且程序可灵活、方便的调用;缺点是如已有搜索程序的条件下,需修改部分程序。推荐程序员使用。

2.    使用插件方式(sphinxSE)把sphinx编译成一个mysql插件并使用特定的sql语句进行检索。其特点是,在sql端方便组合,且能直接返回数据给客户端。不必二次查询,在程序上仅需要修改对应的sql,但这对使用框架开发的程序很不方便,比如使用了ORM。另外还需要对mysql进行重新编译,且需要mysql-5.1以上版本支持插件存储。

这里的安装主要介绍的是第一种通过api调用的方式。Sphinx的安装如下:

#下载最新稳定版

wgethttp://www.sphinxsearch.com/downloads/sphinx-0.9.9.tar.gz

tar xzvf sphinx-0.9.9.tar.gz

cd sphinx-0.9.9

./configure --prefix=/usr/local/sphinx/   --with-mysql  --enable-id64

make

make install

注意:采用这种方式安装不支持中文分词。

三、  Sphinx中文分词

中文的全文检索和英文等latin系列不一样,后者是根据空格等特殊字符来断词,而中文是根据语义来分词。中文分词主要有2个插件

1.    Coreseek

Coreseek是现在用的最多的sphinx中文全文检索,它提供了为Sphinx设计的中文分词包LibMMSeg ,是基于sphinx的基础上开发的。

2.    sfc(Sphinx-for-chinese)

sfc(sphinx-for-chinese)是由网友happy兄提供的另外一个中文分词插件。其中文词典采用的是xdict

本文主要介绍Coreseek的安装方法

四、  Coreseek(支持中文检索的sphinx)安装

1.    安装升级autoconf

因为coreseek需要autoconf2.64以上版本,因此需要升级autoconf,不然会报错从http://download.chinaunix.net/download.php?id=29328&ResourceID=648下载autoconf-2.64.tar.bz2,安装方法如下:

tar -jxvf autoconf-2.64.tar.bz2

cd autoconf-2.64

./configure

make

make install

2.    下载coreseek

新版本的coreseek将词典和sphinx源程序放在了一个包中,因此只需要下载coreseek包就可以了。

wget http://www.wapm.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz

3.    安装mmseg(coreseek所使用的词典)

tar xzvf coreseek-3.2.14.tar.gz

cd mmseg-3.2.14

./bootstrap    #输出的warning信息可以忽略,如果出现error则需要解决

./configure --prefix=/usr/local/mmseg3

make && make install

cd ..

4.    安装coreseek(sphinx)

cd csft-3.2.14

sh buildconf.sh    #输出的warning信息可以忽略,如果出现error则需要解决

./configure --prefix=/usr/local/coreseek  --without-unixodbc --with-mmseg--with-mmseg-includes=/usr/local/mmseg3/include/mmseg/--with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql

make && make install

cd ..

5.    测试mmseg分词和coreseek搜索

备注:需要预先设置好字符集为zh_CN.UTF-8,确保正确显示中文,我的系统字符集为en_US.UTF-8也是可以的。

cd testpack

cat var/test/test.xml  #此时应该正确显示中文

/usr/local/mmseg3/bin/mmseg -d /usr/local/mmseg3/etcvar/test/test.xml

/usr/local/coreseek/bin/indexer -c etc/csft.conf --all

/usr/local/coreseek/bin/search -c etc/csft.conf 网络搜索

此时正确的应该返回

words:

1. '网络': 1 documents, 1 hits

2. '搜索': 2 documents, 5 hits

6.    生成 mmseg词库及配置文件

新版本的已经自动生成。

五、  参考文章:

Sphinx中文指南

http://www.sphinxsearch.org/sphinx-tutorial

Sphinx中文分词应用

http://www.sphinxsearch.org/archives/82

Sphinx 0.9.8参考手册

CoreSeek BSD/Linux下的安装

http://www.coreseek.cn/products/products-install/install_on_bsd_linux/

sphinx(斯芬克斯)mysql全文搜索引擎相关推荐

  1. mysql搜索斯芬克斯_如何用sphinx正确搜索数字?

    我需要在mysql中搜索十亿条记录,这是一个很长的过程(现在可以了).斯芬克斯能帮我吗?如何正确配置sphinx的搜索号码?是否应使用整数属性进行搜索(而不是字符串字段)? 我只需要获取时间戳&quo ...

  2. php斯芬克斯,斯芬克斯之迷——ie私有属性haslayout的困扰

    就象神话中的斯芬克斯一样,ie的私有属性haslayout是个神秘且让人困惑的难缠东西,她只游荡于ie(这片沙漠)之下. 她无法使用css声明直接创建.即便是对于ie,她也不能说是一个实实在在存在的属 ...

  3. 人工智能的“斯芬克斯之谜”

    首发于微信公众号:一刻AI 在希腊神话中,赫拉派斯芬克斯坐在忒拜城附近的悬崖上,拦住过往的路人,用缪斯所传授的谜语问他们,猜不中者就会被它吃掉,这个谜语是:"什么动物早晨用四条腿走路,中午用 ...

  4. php斯芬克斯,找回自我 走出斯芬克斯之谜

    找回自我 走出斯芬克斯之谜 何期自性,本自清净:何期自性,本无生灭:何期自性,本自具足:何期自性,本无动摇:何期自性,能生万法.这是六祖慧能大师大彻大悟时写的一首偈子,他告诉我们,我们的自性本来清净, ...

  5. 斯芬克斯(sphinx) mysql全文搜索引擎

    一.  Sphinx简介 Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图为其他应用提供高速.低空间占用.高结果相关度的全文搜索功能.Sphinx可以非常容易的与S ...

  6. Sphinx(斯芬克斯的安装及使用)

    1.说明: Sphinx是一个基于SQL的全文检索引擎,可以结合 MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索.Sphin ...

  7. mysql 不用斯芬克斯 全局模糊匹配 查询

    mySQL 4.x以上提供了全文检索支持 MATCH --AGAINST 模式(不区分大小写) 建立全文索引的表的存储引擎类型必须为MyISAM 问题是match   against对中文模糊搜索支持 ...

  8. MySQL全文搜索引擎mysqlcft

    MySQL在高并发连接.数据库记录数较多的情况下,SELECT - WHERE - LIKE '%-%'的全文搜索方式不仅效率差,而且以通配符%开头作查询时,使用不到索引,需要全表扫描,对数据库的压力 ...

  9. Sphinx (Sphinx(斯芬克司))

    Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索.Sphinx特别为一些脚 ...

最新文章

  1. 网站seo工作不能忽视
  2. MyBatis中的@Mapper注解及配套注解使用详解
  3. IIS应用程序池相关问题及连接池已满的解决方法
  4. wince 自动启动程序设置
  5. PHP生成唯一会员卡号
  6. Asp.net中关于上传文件的各项基本操作
  7. mysql去掉重复数据只保留一条,以及取分组后的一条数据
  8. 试用cmd markdown
  9. C++ STL 学习 :for_each与仿函数(functor)
  10. 小米2 android版本更新,小米MIUI再更新,又有2款手机可以用上基于Android 11的MIUI12...
  11. 【STM32F407的DSP教程】第2章 Matlab R2018a的安装
  12. 2.PyTorch的Dataset和DataLoader
  13. 余弦相似度的计算方法
  14. Day431.本地事务分布式事务CAP理论 -谷粒商城
  15. 基于C的PCM音频数据的读取、处理与写入(一)
  16. Java 判断一个点是否在一个三角形内
  17. 移动端excel导出_手机联系人竟可导出到Excel?教你要如何做
  18. 总线 —— 总线仲裁
  19. springboot 整合文本编辑器(图片上传)
  20. thinkphp:数值(保留小数点后N位,四舍五入,左侧补零,格式化货币,取整,生成随机数,数字与字母进行转换)

热门文章

  1. 房价整体下降已成定局
  2. E4G刷Linux,易视宝E4-G 全志A20 刷机 armlinux ubuntu server 教程
  3. Linux下nginx宕机自动启动
  4. YOLOV7详细解读(一)网络架构解读
  5. sklearn中lstm_深度学习之路(一):用LSTM网络做时间序列数据预测
  6. Centos系统内核优化参数列表
  7. 青云算法面试题干货-开密码锁-LeetCode第752题
  8. SpringBoot请求报403 Forbidden
  9. 天翼云桌面Linux,天翼云Linux主机如何挂载数据盘
  10. java 获取当前小时 分钟_java实现获取当前年、月、日 、小时 、分钟、 秒、 毫秒...