lucene 7.5.0默认的评分Similarity是BM25Similarity (IndexSearcher.java)

  // the default Similarityprivate static final Similarity defaultSimilarity = new BM25Similarity();

IDF公式

  • f(qi,D):就是词频
  • |D|:[给定文档]D长度。
  • avgdl:索引中所有文档长度。

早期的版本使用的是TFIDFSimilarity,

Lucene TFIDFSimilarity给出的理论评分公式:

对应的还有

修改相似度算法的实现可以通过下面的方法实现

  /** Expert: Set the Similarity implementation used by this IndexSearcher.**/public void setSimilarity(Similarity similarity) {this.similarity = similarity;}

转载于:https://www.cnblogs.com/davidwang456/p/9959059.html

lucene源码分析(4)Similarity相似度算法相关推荐

  1. Lucene 源码分析之倒排索引(三)

    上文找到了 collect(-) 方法,其形参就是匹配的文档 Id,根据代码上下文,其中 doc 是由 iterator.nextDoc() 获得的,那 DefaultBulkScorer.itera ...

  2. lucene 源码分析_Lucene分析过程指南

    lucene 源码分析 本文是我们名为" Apache Lucene基础知识 "的学院课程的一部分. 在本课程中,您将了解Lucene. 您将了解为什么这样的库很重要,然后了解Lu ...

  3. lucene源码分析的一些资料

    针对lucene6.1较新的分析:http://46aae4d1e2371e4aa769798941cef698.devproxy.yunshipei.com/conansonic/article/d ...

  4. lucene源码分析(1)基本要素

    1.源码包 core: Lucene core library analyzers-common: Analyzers for indexing content in different langua ...

  5. 看Lucene源码必须知道的基本规则和算法

    上中学的时候写作文,最喜欢的季节我都是写冬天.虽然是因为写冬天的人比较少,那时确实也是对其他季节没有什么特殊的偏好,反而一到冬天,自己皮肤会变得特别白.但是冬天啊,看到的只有四季常青盆栽:瓜栗(就是发 ...

  6. lucene源码分析(8)MergeScheduler

    1.使用IndexWriter.java mergeScheduler.merge(this, MergeTrigger.EXPLICIT, newMergesFound); 2.定义MergeSch ...

  7. lucene源码分析(7)Analyzer分析

    1.Analyzer的使用 Analyzer使用在IndexWriter的构造方法 /*** Constructs a new IndexWriter per the settings given i ...

  8. lucene源码分析(6)Query分析

    查询的入口 /** Lower-level search API.** <p>{@link LeafCollector#collect(int)} is called for every ...

  9. lucene源码分析(5)lucence-group

    1. 普通查询的用法 org.apache.lucene.search.IndexSearcher public void search(Query query, Collector results) ...

最新文章

  1. 掌握ConstraintLayout(十)按比例设置视图大小
  2. 快速了解FAT32文件系统
  3. Integer.valueOf(String) 方法之惑
  4. UVA - 10079 Pizza Cutting
  5. 祝贺本刊编委石勇教授入选2016年汤森路透全球高被引科学家
  6. Web前后端笔记-vue封装http请求添加signature及后端(Java)解析并验证
  7. 【opencv有趣应用】基于MobileNet + SSD的物体检测
  8. C#套接字和windowsAPI套接字
  9. TCP连接吞吐率和线路效率的总结
  10. linux中文乱码解决方案
  11. 数学智力题 武士数独题目_数学智力题九宫格
  12. mt管理器怎么运行HTML文件,MT管理器怎么修改游戏数据 MT管理器修改内购教程
  13. 服务器里面增加单页网站,如何设计完美的单页网站
  14. 基于spring+springmvc+mybatis的个人简易记账系统(包含数据库)
  15. 阿里心电图数据特征分析
  16. 闲话乱侃——26字母软件开发语言命名是否用完了?
  17. python儿童编程培训班-全国少儿人工智能Python编程兴趣班
  18. Hadoop集群垃圾箱配置 | fs.trash.interval
  19. 昆仑通泰mcgs触摸屏和台达VFD-M变频器的rtu通讯示例
  20. 支付功能测试用例(参考微信平台)

热门文章

  1. java 图片动画_java在窗口中添加图片做动画,怎么一闪一闪的?
  2. 软件生成目录没有图框_图纸目录和编号
  3. 今日头条安卓_今日头条加入“常用”小程序窗口,小游戏或将再次崛起?
  4. php面向对象全攻略 (十四),php面向对象全攻略 (十四) php5接口技术
  5. java spring上传_SpringMVC上传文件的三种方式
  6. mysql 被关闭了_mysql被关闭简析
  7. .so 依赖目录 cmake_CMake 的研究与学习笔记
  8. java安全管理器视频_java安全-安全管理器
  9. pythin怎么根据月份获取月初和月末_信息流是什么?到底应该怎么去做?
  10. 元素对应到html源代码,【整理】用Chrome或Chromium查看百度首页中各元素的html源码...