此例为基于Lucene shingle英文单词BiGram Analyzer的实现

import java.io.Reader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.LowerCaseFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.WhitespaceTokenizer;
import org.apache.lucene.analysis.shingle.ShingleFilter;
import org.apache.lucene.util.Version;public final class BiGramAnalyzer extends Analyzer {@Overridepublic TokenStream tokenStream(String fieldName, Reader reader) {TokenStream result = new WhitespaceTokenizer(Version.LUCENE_36, reader);result = new LowerCaseFilter(Version.LUCENE_36, result);ShingleFilter shingleFilter = new ShingleFilter(result, 2);shingleFilter.setOutputUnigrams(false);result = shingleFilter;return result;}}

http://searchhub.org/2010/12/17/whats-a-shingle-in-lucene-parlance/

基于Lucene shingle英文单词NGram Analyzer的实现相关推荐

  1. 如何在基于Lucene的中文分词器中添加自定义词典(如Paoding、mmseg4j、IK Analyzer)...

    如何在基于Lucene的中文分词器中添加自定义词典(如Paoding.mmseg4j.IK Analyzer) 2013-07-08 21:54:29|  分类: 计算机 |字号 订阅 1. 使用Pa ...

  2. 基于Lucene的中文文本分词

    王继明,杨国林 (内蒙古工业大学信息工程学院,呼和浩特010051) 摘要:中文文本分词技术是文本挖掘领域的一个重要分支,在中国仍然处于发展阶段.Apache Jakarta的开源工程Lucene是一 ...

  3. Lucene5.5.4入门以及基于Lucene实现博客搜索功能

    前言 一直以来个人博客的搜索功能很蹩脚,只是自己简单用数据库的like %keyword%来实现的,所以导致经常搜不到想要找的内容,而且高亮显示.摘要截取等也不好实现,所以决定采用Lucene改写博客 ...

  4. 基于Lucene垂直搜索引擎的研究与开发实践报告

    目录 一.垂直搜索引擎概述 二.项目概述 三.关键技术 3.1 Lucene 3.2 全文检索 四.系统设计 4.1 实现全文检索 4.1.1.Lucene 实现全文检索的流程 4.2 可视化界面设计 ...

  5. 基于Lucene实现博客搜索功能

    前言: 最近毕设开会无意间听到小陈同学使用lucene整一个全文索引,出于好奇了解了一下发现其是结合相关分词器可以对一大段文字建立索引,然后可以实现搜索功能,本来博客一直差着一个搜索博客功能(不想通过 ...

  6. java全文搜索服务器 solr_Apache Solr采用Java开发、基于Lucene的全文搜索服务器

    http://docs.spring.io/spring-data/solr/ 首先介绍一下solr: Apache Solr (读音: SOLer) 是一个开源.高性能.采用Java开发.基于Luc ...

  7. 基于Lucene的搜索引擎的设计与实现

    我们处在一个大数据的时代,伴随着网络信息资源的庞大,人们越来越多地注重怎样才能快速有效地从海量的网络信息中,检索出自己需要的.潜在的.有价值的信息,从而可以有效地在日常工作和生活中发挥作用.因为搜索引 ...

  8. 【转载保存】基于Lucene的近实时搜索引擎优化总结

    一.搜索优化: 在工程领域,越是看起来"简单.确定"的问题,越是难以解决.近实时搜索引擎需要解决的问题只有一个:性能!它包含快速索引,快速搜索,以及索引到搜索的快速生效. 以下为百 ...

  9. Katta:基于Lucene可伸缩分布式实时搜索方案

    http://www.ij2ee.com/2011/11/29/katta%EF%BC%9A%E5%9F%BA%E4%BA%8Elucene%E5%8F%AF%E4%BC%B8%E7%BC%A9%E5 ...

最新文章

  1. 一个TensorFlow的新模型,Kaparthy小哥用了都说好
  2. Windows下 安装Oracle Java 11 并设置环境变量
  3. option:contains后面加变量_什么是配置环境变量,配置以后有什么作用呢?
  4. linux系统-软链接与硬链接区别
  5. iOS中NSLog输出格式大全
  6. 该死的MySQL乱码!
  7. python标准库os中用来列出_Python 标准库 os 中用来列出指定文件夹中的文件和子文件夹列表的方式是listdir()。_高职高专数字资源平台答案_学小易找答案...
  8. finalshell一直弹出输入密码_Linux 密码忘了怎么办?明明输入的密码是对的为啥一直过不去?...
  9. android之在view中内嵌浏览器的方法
  10. php 仿高德,仿高德路线规划滑动效果
  11. 在虚拟机linux上安装gdb,linux下gdb的安装和使用
  12. Mac系统下安装webpack,cnpm,vue-cli
  13. 【Oracle】DG三种保护模式及切换方式
  14. 自动控制理论(1)——自动控制理论概述
  15. 分享一些免费的MD5解密网站
  16. YOLOv5、v7改进之三十九:引入改进遮挡检测的Tri-Layer插件 | BMVC 2022
  17. python二级考试大纲小学生_Python语言二级考试大纲
  18. unity 3D飞机打石头小游戏
  19. 请给开源软件一个机会:7-zip / PDFCreator / CDex / VirtualDub 等等
  20. PageRank实践-博客园用户PageRank排名

热门文章

  1. 2023美赛ABCDEF题思路获取/2023美赛思路ABCDEF题/美赛数学建模思路
  2. 程序人生 - 数字人民币与微信支付宝有何不同?
  3. 在c语言中 要求运算量必须是整型或字符型,在C语言中,要求运算数必须是整型或字符型的运算符是()....
  4. 总结了近百个Android优秀开源项目,覆盖Android开发的每个角落。 .
  5. OpenWRT AR9331 mjpg-streamer 网络安装和离线ipk安装
  6. 【JS】1347- localStorage 的高阶用法
  7. Python 使用skimage实现求两幅图像之间的PSNR值
  8. MySQL索引,事务及存储引擎
  9. python作品简单手工做法_教你用塑料瓶做一款简易的小汽车
  10. 接收用户输入的原价。满1000打9折;满2000打8折;满5000打5折