public class ClusteringFlyStoneDocument {

public static void main(String[] args) {
        
        final Controller controller = ControllerFactory.createCachingPooling(IDocumentSource.class);
        //创建需要处理的属性对象
        final Map<String, Object> attributes = Maps.newHashMap();
        
        //需要处理的文档集合
        List<Document> documents = SampleDocumentData.DOCUMENTS_DATA_MINING;
        
        //将文档添加到聚类属性中
        CommonAttributesDescriptor.attributeBuilder(attributes).documents(documents);
        
        //设置处理的语言()
        MultilingualClusteringDescriptor.attributeBuilder(attributes).defaultLanguage(LanguageCode.CHINESE_SIMPLIFIED);
        
        //设置需要处理的对象,以及聚类的算法
        final ProcessingResult englishResult = controller.process(attributes, LingoClusteringAlgorithm.class);
        
        //获取结果,打印聚类主题及关联信息
        final List<Cluster> clustersByTopic = englishResult.getClusters();
        System.out.println("=======聚类主题=====");
        for(Cluster cluster : clustersByTopic){
            System.out.println("【主题 】" +cluster.getLabel());
            List<Document> cDocLst = cluster.getAllDocuments();
            for(Document doc : cDocLst){
                System.out.println("--------" + doc.getTitle());
            }
        }
         
        //通过URL进行聚类
        final ProcessingResult byDomainClusters = controller.process(documents, null,ByUrlClusteringAlgorithm.class);
        final List<Cluster> clustersByDomain = byDomainClusters.getClusters();
        System.out.println("=======URL聚类=======");
        for(Cluster cluster : clustersByDomain){
            System.out.println("【URL】" +cluster.getLabel());
            List<Document> cDocLst = cluster.getAllDocuments();
            for(Document doc : cDocLst){
                System.out.println("----" + doc.getTitle());
            }
        }
    }

}

转载于:https://www.cnblogs.com/wangweiblogs/archive/2013/02/04/2891747.html

Carrot2对文章进行聚类代码示例相关推荐

  1. [Python] 数据预处理(缺失值、异常值、重复值) [相关方法参数说明、代码示例、相关概念]

    前言 系列文章目录 [Python]目录 视频及资料和课件 链接:https://pan.baidu.com/s/1LCv_qyWslwB-MYw56fjbDg?pwd=1234 提取码:1234 文 ...

  2. gmm聚类python_GMM-实现聚类的代码示例

    Matlab 代码: % GMM code function varargout = gmm(X, K_or_centroids) % input X:N-by-D data matrix % inp ...

  3. 机器学习之密度聚类及代码示例

    一.密度聚类 密度聚类的思想,在于通过计算样本点的密度的大小来实现一个簇/类别的形成,样本点密度越大,越容易形成一个类,从而实现聚类. 密度聚类算法可以克服基于距离的聚类算法只能发现凸型集合的缺点,其 ...

  4. svm多分类代码_跟我一起机器学习系列文章知识点与代码索引目录,持续更新…...

    <跟我一起机器学习> 系列文章知识点与代码索引目录 0 环境配置 如何才能入门机器学习? 优雅的安装和使用Anaconda 使用Conda来进行环境的创建与管理 Pycharm安装与使用 ...

  5. java结束全部操作代码_Java创建与结束线程代码示例

    这篇文章主要介绍了Java创建与结束线程代码示例,小编觉得挺不错的,这里分享给大家,供需要的朋友参考. 本文讲述了在Java中如何创建和结束线程的最基本方法,只针对于Java初学者.一些高级知识如线程 ...

  6. 手机如何看python代码_python如何绘制iPhone手机图案?(代码示例)

    本篇文章给大家带来的内容是介绍python如何绘制iPhone手机图案?(代码示例).有一定的参考价值,有需要的朋友可以参考一下,希望对你们有所帮助. 虽然我用不起苹果手机,但我可以用python画出 ...

  7. php自动轮播图代码,JavaScript如何实现动态轮播图效果?(代码示例)

    本篇文章给大家带来的内容是JavaScript如何实现动态轮播图效果?(代码示例).有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助. 功能描述: 1.鼠标经过 左右侧箭头显示,鼠标离开 ...

  8. mysql中拼接用什么_MySQL中常用的拼接语句的小结(代码示例)

    本篇文章给大家带来的内容是关于MySQL中常用的拼接语句的小结(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 前言:在MySQL中 CONCAT ()函数用于将多个字符串 ...

  9. java转换ip地址格式转换_Java编程IP地址和数字相互转换代码示例

    最近才知道,将ip地址转换成十进制.八进制.十六进制同样可以访问网站. IP转为数字(第二种算法.用左移.按位或实现.效率更高.): public long ipToLong(String ipAdd ...

  10. java原子变量的作用_AtomicInteger原子类的作用介绍(代码示例)

    本篇文章给大家带来的内容是关于AtomicInteger原子类的作用介绍(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. AtomicInteger 原子类的作用 多线程操 ...

最新文章

  1. 机器学习与算法面试太难?
  2. Windows下本机简易监控系统搭建(Telegraf+Influxdb+Grafana)
  3. python3作用域
  4. java中的case1怎么说_Java 中的 CAS 简述及原理解析
  5. 数据源 连接oracle
  6. 制作 mysql的rpm文件_自制mysql.rpm安装包
  7. Python装饰器之一
  8. error C2668: “pow”: 对重载函数的调用不明确
  9. DIV+CSS定义及优势
  10. 光干涉波谷,有可能低于绝对零度
  11. 虚假信息成物联网“毒瘤”
  12. UEFI开发与调试---运行阶段介绍
  13. ocr文字识别html,在线OCR 随时随地轻松搞定文字识别
  14. 以太坊 solidity msg对象
  15. oracle log network server,记录一次ARC1: Destination LOG_ARCHIVE_DEST_2 network reconnect abandoned解决...
  16. esp8266基于arduino一键配网掉电保存WIFI账号密码
  17. 流氓软件卷土重来 8749上演黑吃黑
  18. 圣地亚哥大学 学计算机 咋样,美国加州大学圣地亚哥分校的计算机专业怎么样?...
  19. 中国各阶级收入统计表,看看你在哪个阶级
  20. MS WORD 无法修改标题级别的解决方案

热门文章

  1. Unity敏感词屏蔽
  2. 程序员累了怎么办-兄弟连IT教育
  3. URLDecoder.decode()转义处理
  4. 软件项目启动ppt_一直在启动不可行的软件项目
  5. 智慧树知到python程序设计基础第三章答案_知到智慧树Python程序设计基础章节答案...
  6. C语言Float的存储大小
  7. 软件dfmea_fmea软件|失效模式与效应分析(fmea)下载 v03.01.13.0中文版 - 121下载站
  8. Linux之YUM方式安装SVN
  9. 【深入浅出通信原理-学习笔记】天线技术
  10. 创意小发明:DIY小型激光雕刻机-超牛的电子制作 (工作原理,制作过程,注意事项,上位机,C源代码等)