暑期任务, “补档”.


题目: An incremental density-based clustering framework using fuzzy local clustering

IDC(One-pass incremental density-based clustering):

包括两个过程:局部聚类和最终聚类。

存在的缺陷:单独处理每一个数据点而不是考虑整个数据集, 对于流数据来说没什么关系因为流数据有特定的传入序列. 对于传统数据集, 它的最终簇是由整个数据组成的, 而不同的处理顺序可能会导致不一样的聚类结果; 对于复杂的数据集, IDC要求用户输入的用于区分噪声的单个阈值不能有效地应对不同分布的簇.

为了解决以上问题, 该论文基于IDC框架提出了FLDC (Fuzzy incremental density-based algorithm), 采用它的两步骤——微聚类 (局部聚类)、最终聚类; 利用FLCA实现微聚类, 利用MVSA实现最终聚类.

FLCA (Fuzzy local clustering algorithm)

为了减少不同处理顺序的不一致性, 允许一个数据点可以属于多个局部簇. 这样产生的聚类结果在不同的处理顺序上会变得更加稳定.

MVSA (Modified valley seeking algorithm):

对于复杂的数据集, 它可以自动估计每个密度峰值的密度阈值; 并且所需的用户参数较少, 简化了参数构建过程.

优点: 与其他基于密度的聚类算法相比, 处理大型数据集所使用的时间少, 能更有效地处理不同密度的数据.

不足: 在处理小规模数据时, FIDC的计算速度不如DBSCAN等算法; 当处理的数据集较为分散时, FIDC可能就不会产生聚类结果; 对于高纬度的数据, 它也不能有效的进行处理.

源码测试 :

(ps: FIDC_traditional 代码不能正常运行)

1. KDD数据集

参数设置: rg=0.5; wnd_len = 10000; lambda = 0.2e-3

clst_pnt:

pf_mat: (列分别对应SIZE, NMI, AR, RI)

对上部分数据取平均:

2. NSL-KDD数据集

参数设置: rg=0.5; wnd_len = 10000; lambda = 0.2e-3

clst_pnt:

pf_mat:

平均:

3. Covertype

参数设置: rg = 0.4; wnd_len = 5000; lambda= 0.4e-3

clst_pnt:

pf_mat:

                        

取平均:

通过测试, 其结果与论文所述基本吻合.

文献阅读 An incremental density-based clustering framework using fuzzy local clustering相关推荐

  1. 文献阅读总结:网络表示学习/图学习

    本文是对网络表示学习/图学习(Network Representation Learning / Graph Learning)领域已读文献的归纳总结,长期更新. 朋友们,我们在github创建了一个 ...

  2. 论文阅读06——《CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network for Clustering》

    欢迎到我的个人博客看原文 论文阅读06--<CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional Network f ...

  3. 谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolu

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  4. 论文阅读 [TPAMI-2022] Incremental Density-Based Clustering on Multicore Processors

    论文阅读 [TPAMI-2022] Incremental Density-Based Clustering on Multicore Processors 论文搜索(studyai.com) 搜索论 ...

  5. 文献阅读(part1)--A Survey of Clustering With Deep Learning From the Perspective of Network Architecture

    论文学习 文章目录 摘要 介绍 前言 NEURAL NETWORK ARCHITECTURE FOR DEEP CLUSTERING LOSS FUNCTIONS RELATED TO CLUSTER ...

  6. 条件随机场(Conditional random fields,CRFs)文献阅读指南

    与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注.中文分词.命名实体识别等)都有比较好的应用效果.条 ...

  7. 最大熵模型(Maximum Entropy Model)文献阅读指南

    最大熵模型(Maximum Entropy Model)是一种机器学习方法,在自然语言处理的许多领域(如词性标注.中文分词.句子边界识别.浅层句法分析及文本分类等)都有比较好的应用效果.张乐博士的最大 ...

  8. 文献阅读 | Deep learning enables reference-free isotropic super-resolution for v fluorescence microscopy

    文献阅读 | Deep learning enables reference-free isotropic super-resolution for volumetric fluorescence mi ...

  9. 文献阅读疑问(202010)

    学习笔记,仅供参考 文章目录 文献阅读疑问 Unsupervised Deep Embedding for Clustering Analysis 文献阅读疑问 Unsupervised Deep E ...

  10. 文献阅读-Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor

    Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor Cont ...

最新文章

  1. 软件测试在哪个城市好找工作,职业测试:你适合在哪个城市工作?
  2. 零售业将成人工智能系统支出额最高的行业
  3. 开启LeetCode之路
  4. /etc/services
  5. Android开发记录(转)
  6. BI报表平台纪实:半年被叫停,用户个位数,分析后我找到了原因
  7. elementUI 分页组件的使用 - 踩坑篇
  8. 谷歌智能助理能同时听懂两种语言 超过同类产品
  9. Python操作Oracle
  10. tinyhttpd源码分析
  11. 织梦采集-免费织梦采集-支持所有版本织梦采集(图文教程)
  12. floyd与传递闭包
  13. GAT GAX 简介
  14. 嵌入式三级知识点整理
  15. 大专生从零开始重新学习c#的第八天
  16. vue-pdf插件实现PDF预览功能
  17. 当我说转行大数据工程师时,众人笑我太疯癫,直到四个月后......
  18. upupoo启动不了 mysql_【upupoo动态桌面壁纸和mysql-jdbc.jar哪个好用】upupoo动态桌面壁纸和mysql-jdbc.jar对比-ZOL下载...
  19. Python爬虫-安某某客新房和二手房
  20. java中trim_JAVA中trim()函数使用方法

热门文章

  1. 浅谈Oracle执行计划
  2. bash的操作环境及环境设定
  3. STL中的序列式容器——priority_queue(优先队列)
  4. 入门python之前,应该先了解这些
  5. php 当前时间 当前时间戳和数据库里取出的时间datetime格式进行比较大小
  6. TensorFlow(二) 用TensorFlow为线性回归算法实现矩阵分解
  7. 2D空间中求线段与圆的交点
  8. 【欧洲AI复兴】马克龙:法国AI要赶美超中!
  9. 【Java】IntelliJ IDEA 14.x 与 Tomcat 集成,创建并运行Java Web
  10. 线段树(单点更新) HDOJ 4288 Coder