sphinx不支持中文分词,国内也有人写了好多个分词组件,本文就讲安装LibMMSeg,它是Coreseek.com为 Sphinx 全文搜索引擎设计的中文分词软件包,其在GPL协议下发行的中文分词法,采用Chih-Hao Tsai的MMSEG算法。

先从http://www.coreseek.cn/news/7/99/    上下载到LibMMSeg的安装包,如下:

cd /usr/local/src/
wget http://www.coreseek.cn/uploads/csft/3.2/coreseek-3.2.13.tar.gz -c

然后解压缩:

tar -zxv -f coreseek-3.2.13.tar.gz

进入到mmseg所在文件夹,然后编译:

cd coreseek-3.2.13/mmseg-3.2.13/
./configure --prefix=/usr/local/mmseg

编译过程中报了一个config.status: error: cannot find input file: src/Makefile.in这个的错误,然后运行下列指令再次编译就能通过了:

aclocal
libtoolize --force
automake --add-missing
autoconf
autoheader
make clean

然后再进行编译和安装:

./configure --prefix=/usr/local/mmseg
make && make install

把mmseg的命令加到环境变量中,然后运行mmseg,就能输入安装成功的信息了:

ln -s /usr/local/mmseg/bin/mmseg /bin/mmseg
mmseg

Coreseek COS(tm) MM Segment 1.0
Copyright By Coreseek.com All Right Reserved.
Usage: mmseg <option> <file>
-u <unidict>           Unigram Dictionary
-r           Combine with -u, used a plain text build Unigram Dictionary, default Off
-b <Synonyms>           Synonyms Dictionary
-t <thesaurus>          Thesaurus Dictionary
-h            print this help and exit

转载于:https://www.cnblogs.com/chenzehe/archive/2010/11/14/1870181.html

sphinx系列之中文分词LibMMSeg安装(三)相关推荐

  1. elasticsearch5安装和elasticsearch-analysis-ik中文分词插件安装

    ElasticSearch简介 Elastic有一条完整的产品线及解决方案:Elasticsearch.Kibana.Logstash等,前面说的三个就是大家常说的ELK技术栈. Elasticsea ...

  2. sphinx+coreseek创建中文分词索引

    2019独角兽企业重金招聘Python工程师标准>>> 一:安装sphinx步骤如下: 下载sphinx最新的2.2.11版本 cd /opt/sphinx wget 下载地址 ta ...

  3. elasticsearch-analysis-ik-1.10.0中文分词插件安装

    2019独角兽企业重金招聘Python工程师标准>>> 版本说明 根据ik官网提示,elasticsearch2.4.0需要使用elasticsearch-analysis-ik-1 ...

  4. elasticsearch-analysis-ik中文分词插件安装及配置Ik自定义词典+拼音分词

    在Elasticsearch中默认的分词器对中文的支持不好,会分隔成一个一个的汉字.而IK分词器对中文的支持比较好,主要有两种模式"ik_smart"和"ik_max_w ...

  5. ik中文分词器安装以及简单新增词典操作

    ik分词器地址 https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.1/elasticsearch-an ...

  6. MBA面试系列之----中文面试宝典(三)

    26.你所在部门人员集体辞职,作为一个管理人员,你如何应付? 27.电商与奢侈品相爱相杀,你怎么看? 相爱: 1.经济危机背景下,去库存,推出打折优惠活动--催生奢饰品电子商务,随后奢饰品电商平台开始 ...

  7. Coreseek-带中文分词的Sphinx

    Sphinx并不支持中文分词, 也就不支持中文搜索, Coreseek = Sphinx + MMSEG(中文分词算法) 1.下载 1).到官网下载 2).解压后有三个文件夹 csft-3.2.14: ...

  8. Sphinx-for-chines中文分词安装配置及API调用

    这几天项目中需要重新做一个关于商品的全文搜索功能,于是想到了用Sphinx,因为需要中文分词,所以选择了Sphinx for chinese,当然你也可以选择coreseek,建议这两个中选择一个,暂 ...

  9. php elasticsearch ik,elasticsearch 中文分词(elasticsearch-analysis-ik)安装

    elasticsearch 中文分词(elasticsearch-analysis-ik)安装 在elasticsearch的plugins目录下,创建ik目录 cd /usr/local/elast ...

  10. Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

    Py之jieba:Python包之jieba包(中文分词最好的组件)简介.安装.使用方法之详细攻略 目录 jieba简介 jieba安装 jieba使用方法 1.进行分词 jieba简介 jieba应 ...

最新文章

  1. VMware虚拟机安装之后,打开时找不到启动Centos的界面
  2. CICC科普栏目|颠覆认知!看完这些图,你的世界观还好吗?
  3. python爬虫 隐藏身份及设置代理
  4. 前端工具--less篇
  5. 如何优化网页转化率?(上篇)
  6. 如何区分炫耀和分享?
  7. ios 常见问题解决
  8. 官方授权正版老牌截图工具 Ashampoo Snap 12 中文网站 屏幕截图与视频录制工具
  9. 在linux下使用IDE运行C语言
  10. JAVA 并发编程学习总结
  11. Kotlin关键字总结
  12. 如何正确使用数据可视化图表?
  13. python脚本自动消除安卓版_微信跳一跳脚本重出江湖,python实现安卓iOS自动版与手动版!...
  14. python bp神经网络 异或_【神经网络】BP算法解决XOR异或问题MATLAB版
  15. b站网页版改html,网页版b站怎么设置弹幕?网页bilibili怎么设置停止播放和调倍速?...
  16. java生成word 可变表格_【java】Freemarker 动态生成word(带图片表格)
  17. Win32_17集音频和视频播放功能于一身的简易播放器
  18. php 百度收录api_PHP查询百度收录API接口源码
  19. 海尔小小神童洗衣机修理(附多幅操作实拍图)
  20. 斯佩里左右脑分工理论

热门文章

  1. xml规范及xml解析
  2. 回溯法2——和尚挑水
  3. BIND9源码分析奠基
  4. POJ分层练习题目列表
  5. MySQL中文参考手册--8.MySQL教程--8.3 常用查询的例子
  6. php装curl拓展出错
  7. ERC20代币合约详解,附实现代码
  8. SVN自动定时更新方法
  9. ubuntu openStack icehouse dashboard theme自定义
  10. linux磁盘管理の进阶篇一