刚开始接触,从中文的开始,有点大概的了解吧。。。
-------------------------------------------------------------
提到的文本聚类:
大致可以分类为两种类型:
(1)[size=large]以G-HAC等算法为代表的层次凝聚法[/size]
(Mladenic D. feature subset in text-learning. In proc of the 10th European conf. on Machine learning ECML98,1998)
(2)[size=large]以K-MEANS等算法为代表的平面划分法[/size]
(Sagar N. Sublanguage: Linguistic Phenomenon ,Computational Tool. 1986)

文本特征表示中,[size=large]矢量空间模型(VSM)[/size]应用较多。

层次凝聚:简单说就是对文档集中的每个文档进行相似度计算,把相似度最近的两个文档合并,重复步骤,直到只剩下一个簇为止。相当于构造了一颗生成树。
(缺点:运行速度慢,不适合大量文档的集合)

平面划分:确定要生产的聚类数目,生成这么多个数目的种子,然后计算文档与种子之间的距离,按最近原则划分,重复,直到聚类结果稳定。
(缺点,种子选取的好坏对结果有很大的影响)

读论文笔记(1)——web文本挖掘技术研究相关推荐

  1. Web文本挖掘技术研究

    转载出处:http://blog.sina.com.cn/s/blog_4ad7c25401000bpc.html 王继成 潘金贵 张福炎 摘 要 作为从浩瀚的Web信息资源中发现潜在的.有价值知识的 ...

  2. 【大数据论文笔记】大数据技术研究综述

    大数据的基本概念: 1.大数据的产生 a.科学研究 b.物联网的应用 c.海量网络信息的产生 2.大数据概念的提出 3.大数据的"4V"特征 a.Volume(容量大):大数据巨大 ...

  3. 论文简读《视听觉深度伪造检测技术研究综述》

    ​ <视听觉深度伪造检测技术研究综述> 概述: ​ 深度学习被广泛的应用于各个领域,自然语言处理.计算机视觉.无人驾驶等,推动了人工智能的发展.但在带来好处的同时,也对信息安全方面也有一定 ...

  4. 【读论文-笔记】——1.沐神读Alexnet

    本文是看沐神阅读Alexnet的文章.原文链接如下: https://papers.nips.cc/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-A ...

  5. 李沐读论文笔记--大模型时代下做科研的四个思路

    大模型时代下做科研的四个思路 0. 视频来源: 1. 提高效率(更快更小) 1.1 PEFT介绍(parameter efficient fine tuning) 1.2 作者的方法 1.3 AIM效 ...

  6. 读“基于深度学习的图像识别技术研究综述”有感

    "基于深度学习的图像识别技术研究综述"总结 现在流行的图像识别技术都是基于深度学习的算法,经过前辈们的探索改进,图像识别技术经历很多阶段,现如今图像识别技术已经广泛的应用于生活的方 ...

  7. 论文笔记:高精度室内定位研究评述及未来演进展望

    目录 1. 前言 2. 关键定位技术评述 3. 基于定位场景的分类 4. 定位技术(系统)评价指标体系 5. 现有定位系统评述 6. 总结:挑战.基于和前进方向 1. 前言 本文是对以下论文的解读笔记 ...

  8. 计算机视觉关键技术论文,视觉显著性检测关键技术研究

    作者姓名导师姓名文献出处论文摘要随着互联网技术和多媒体技术的飞速发展,数字媒体信息呈现出以几何级数增长的态势.海量的数字媒体为人们的娱乐.教育和商业带来便利的同时,也为视觉信息处理技术提出了新的挑战. ...

  9. 【读论文-笔记】——2.沐神读Resnet

    Resnet所提出的Residual connection作为现代神经网络中最为有效的加深网络深度的技巧,被广泛使用,但是我实际上从来没有看过Resnet的原文.前几天写本科毕业论文吃瘪,在这里还是得 ...

最新文章

  1. 安徽池州贵池中学老师经典语录,我喷了
  2. 如何使用 Javascript/node.js 在 WebRTC 中构建音视频通话APP?
  3. python post请求rsa加密_Python的加密方式:RSA加密
  4. 如何向虚拟机服务器里传文件,怎么往虚拟机复制文件_如何向虚拟机传文件-win7之家...
  5. MYSQL用存储过程创建百万级测试数据表
  6. R 保存包含中文的 eps 图片--showtext
  7. LINUX的VirtualBox安装Windows7
  8. VMware ESXi 安装教程
  9. System进程下vibran_drv.sys CPU占用率高
  10. kali使用jd-gui
  11. Python3正则表达式:match函数
  12. 利用fiddler和mock调试本地微信网页
  13. zlib 1.2.9 not found
  14. 【机试】判断两个数互质
  15. HDU 4262 Juggler
  16. html 滚动 切换背景,在滚动页面时渐变切换背景色
  17. 雅虎通Vista版试用:安装麻烦 占内存高
  18. 中级工程师的职称好评吗?怎么评中级工程师?需要什么材料?
  19. linux架设DNF服务器,使用linux的dnf命令新一代的RPM软件包管理器
  20. 符号引用和直接引用--java

热门文章

  1. [Java反射基础四]通过反射了解集合泛型的本质
  2. Cent OS6.6 的vsftps 的root上传配置
  3. POJ 1751 Highways (kruskal)
  4. ChromeTimeline
  5. JAMA:Java矩阵包
  6. [Objective C] 获取类和对象的运行时状态
  7. PetShop 4.0 官方详解
  8. 使用OpenCV的分水岭算法
  9. 湖北警方打掉一制贩假酒团伙 涉案金额1.6亿元
  10. Android消息驱动Handler类分析