Carrot2是一个开源的类聚工具,具体说明google一下,很多的解释;在solr中可以很方便的集成这个功能模块;具体实现方式参考:http://wiki.apache.org/solr/ClusteringComponent

注:在这里的聚类carrot2有三种选择(其实就是三种算法)

1)org.carrot2.clustering.lingo.LingoClusteringAlgorithm
2)org.carrot2.clustering.stc.STCClusteringAlgorithm
3)lingo3G

这里主要说的还是第一种算法,LingoClusteringAlgorithm;

集成在solr中,那么对于算法的参数也是配置化的了;

他主要有两个参数,见下表:

Size-Score sorting ratio

Key

LingoClusteringAlgorithm.scoreWeight

Direction

Input

Level

MEDIUM

Description

Balance between cluster score and size during cluster sorting. Value equal to 0.0 will cause Lingo to sort clusters based only on cluster size. Value equal to 1.0 will cause Lingo to sort clusters based only on cluster score.

Required

no

Scope

Processing time

Value type

java.lang.Double

Default value

0.0

Min value

0.0

Max value

1.0

Cluster count base

Key

LingoClusteringAlgorithm.desiredClusterCountBase

Direction

Input

Level

BASIC

Description

Desired cluster count base. Base factor used to calculate the number of clusters based on the number of documents on input. The larger the value, the more clusters will be created. The number of clusters created by the algorithm will be proportional to the cluster count base, but not in a linear way.

Required

no

Scope

Processing time

Value type

java.lang.Integer

Default value

30

Min value

2

Max value

100

测试:

Keyword(查询单词)

desiredClusterCountBase

scoreWeight

结果总数

Cluster个数

相声

100

1.0

28

8(附录一)

相声

100

0.1

28

8(附录一)

相声

3

0.1

28

8(附录一)

附录一

看上去测试效果并不好,参数的最小值和最大值,结果没啥变化;也有可能是数据量不是很多。未解,待续!

solr 关于 carrot2聚类参数配置测试相关推荐

  1. Hadoop-2.8.0集群搭建、hadoop源码编译和安装、host配置、ssh免密登录、hadoop配置文件中的参数配置参数总结、hadoop集群测试,安装过程中的常见错误

    25. 集群搭建 25.1 HADOOP集群搭建 25.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据 ...

  2. 计算机网络网络参数配置,【计算机网络实验:实验一主机系统网络参数配置与测试资料|实验一:网络常用命令的使用】_傻大方...

    傻大方摘要:[计算机网络实验:实验一主机系统网络参数配置与测试资料|实验一:网络常用命令的使用]实验目的:1.了解或掌握一些网络常用命令:2.掌握Ping.IPconfig.arp等命令的功能及一般用 ...

  3. linux oracle dblink 访问 postgresql_从Oracle到PG-PostgreSQL数据库参数配置和查看

    完成PG的源码编译安装,以及解决网络访问正常连接的问题.可参考前面的文章: 从Oracle到PG-轻量简易,PostgreSQL-v11.5源码编译安装 从Oracle到PG-PostgreSQL数据 ...

  4. hive动态分区shell_Hive动态分区 参数配置及语法

    Hive本身是不支持动态分区的.. 但动态分区是真的方便啊..不然手动维护要累死..按日期甚至小时来分区时动辄就好几千上万的分区..手动到哪一年去..? 想要用动态分区要先做一些设置来修改默认的配置. ...

  5. SpringBoot笔记:SpringBoot启动参数配置

    文章目录 目的 测试代码 配置文件配置 获取自定义参数 项目打包发布 修改启动配置 方式一:系统变量 方式二:命令行参数 springboot启动参数解释 目的 1.熟悉springboot多环境配置 ...

  6. 12.JDK1.8 JVM运行时数据区域概览、各区域介绍、程序计数器、Java虚拟机栈、本地方法栈、堆、堆空间内存分配(默认情况下)、字符串常量池、元数据区、jvm参数配置

    12.JDK1.8 JVM运行时数据区域概览 12.1.JDK1.8 JVM运行时数据区域概览 12.2.各区域介绍 12.3.各区域介绍 12.3.1.程序计数器 12.3.2.Java虚拟机栈 1 ...

  7. jvm内存参数配置_idea中设置JVM参数,简单理解JVM常见参数,JVM调优简单入门

    前面学习了JVM的内存分布,今天就来验证下.顺便通过测试学习一下JVM的几个参数,不过测试是在idea中,所以先要在idea上设置JVM参数. 一.idea设置全局的JVM参数 一共三步,第一步在菜单 ...

  8. java solr_通过Java访问Solr服务实例及相关配置

    一.通过Java访问Solr服务(手动创建索引库) 1.创建项目,配置环境(导包及相关文件) 1.SolrJ核心包 /solr-4.10.3/dist/solr-solrj-4.10.3.jar 2. ...

  9. 最全Spring Boot2.x系列Config配置集成篇-1参数配置

    文章目录 前言 一.两种配置文件 1.加载顺序上的区别 2.应用场景 二.不同环境配置文件 三.读取配置文件信息 1.@Value注解读取文件 2.Environment读取文件 3.@Configu ...

最新文章

  1. 软件构建之链接应用--链接脚本
  2. PHP 使用POST 获取不到部分数据问题
  3. MySQL Percona Toolkit--pt-osc与online DDL选择
  4. 科大讯飞语音助手Lite智能鼠标电脑版安装不成功为什么?怎么办?
  5. Ubuntu18.04下安装MySQL
  6. 《大型网站技术架构:核心原理与案例分析》笔记05
  7. PCL:全程详解 VS2010+PCL配置
  8. html 只能输入正数,vue 限制input只能输入正数
  9. 微信小程序 图片缓存
  10. python爬虫之爬取网易云音乐的歌曲图片和歌词
  11. 【信号与系统】系统线性时不变、因果稳定性的判定
  12. 操作系统核心知识与重难点
  13. 31岁零基础转型开发,目前35岁,说说我转行的辛酸史
  14. RxSwift系列—RxSwift调度者
  15. 第106篇 Compound 中的 Governance
  16. 群晖网络不通_尝试解决:群晖使用Zerotier内网穿透出现错误
  17. antDesignPro线上刷新404 和 liunx部署使用mock数据 umi-serve + pm2
  18. 百度云非会员下载限速套路:
  19. Flink 面试通关手册
  20. 伪随机数和随机数C语言

热门文章

  1. BUUCTF Reverse前五题解题记录
  2. 20款漂亮的免费英文字体下载
  3. 2019/01/01 一位前端实习生 艰辛过程 励志 实习周记(二)——第一周
  4. 丢包、拆包、粘包的原因及解决办法
  5. 改进A星算法+dwa
  6. Ubuntu20.04下没有亮度调节且找不到/sys/class/backlight文件夹(backlight里为空)的解决办法
  7. 和《盗梦空间》无关。
  8. 自媒体人都在用这 5个素材网站
  9. 【软件测试】QTP参数化的使用
  10. 最全的PDF转换成Word方法,搞定市面上99%的PDF