聚类对象的描述需要建立数据表示模型,聚类算法需要定义在包(bag)的概念之上,包允许相同的元素存在。

在统计自然语言处理中,聚类算法有两个重要的用途,第一个重要用途是用于试探性数据分析(exploratory data analysis ,EDA)。对于任何处理“量化”数据的应用来说,试探性数据分析是非常重要的方法。当我们面临一个新问题,并且希望建立一个概率模型或者仅仅是为了理解现象的基本特征时,这是一个首要步骤。如果我们盲目地开始操作数据,而不对数据对象做任何事先的理解分析,最终结果常常会不如人意。
--------------------------------------------------------------------------
第八章 [color=red]向量空间度量方法[/color]
主要使用词汇-文档矩阵
[table]
| 单词1 单词2 单词3|
|文档1 2 0 0 |
|文档2 1 1 0 |
|...|
[/table]
表中数据表示单词在相应文档中出现的次数

当把单词表示成二元向量的形式,就可以利用各种相似性测量来计算单词之间的相似度
例如单词的向量的表示:
单词1={1,1,...} 单词2={0,1,...} 单词3={0,0,...}

利用余弦度量来计算相似度.cosine = |X∩Y|/√(|X|*|Y|) 分子为两个单词的交集个数,分母为两个单词向量长度的乘积取根号

-------------------------------------------------------------------------

聚类这章讲了
层次聚类中的:单连通,全连通,平均连通聚类
非层次聚类:k平均算法和EM算法。。(EM算法没懂。数学都忘了)

统计自然语言处理基础_聚类相关推荐

  1. 统计自然语言处理基础(一)

    基础认知 语言学的目的是为了能够描述和解释我们周围的语言现象. 人们对在自然语言处理中使用统计方法抱有的热情,在很大程度上是 因为他们看到了统计方法在解决实际问题时的前景,而这些问题正是传统方法无法解 ...

  2. 统计自然语言处理基础-第四章 基于语料库的工作(笔记)

    4 基于语料库的工作 统计自然语言处理的主要需求包括计算机.语料库和软件.计算机和语料库的变化非常快,没有必要放注意力在他们上面. 本章研究 语料格式以及在处理生语料时遇到的的问题.研究工作开始之前需 ...

  3. 统计自然语言处理基础-第三章 语言学基础(笔记)

    3 语言学基础 语言学概念+语法(句子结构)现象(附着歧义.短语结构)+词法(词语形成)+语义 3.1 词性和词法 句法=语法类=词性(POS):按照词的语法结构和典型的语义类型分类,类别的名称 开放 ...

  4. 统计自然语言处理基础——学习摘要(1)

    句子边界的启发式检测算法: (1)在.?!(和可能的;:-)出现位置之后加一个假设的句子边界. (2)如果假设边界后面有引号,那么把假设边界移到引号后面. (3)除去以下情况中句点的边界资格: -如果 ...

  5. 《统计自然语言处理》读书笔记 一.基础知识及概念介绍

    最近准备学习自然语言处理相关的知识,主要参考<统计自然语言处理·宗成庆>和<Natural Language Processing with Python>,推荐大家阅读.第一 ...

  6. 《自然语言处理:基于预训练模型的方法》读书笔记:第2章 自然语言处理基础

    目录 第2章 自然语言处理基础 2.1 文本的表示 2.1.1 词的独热表示 2.1.2 词的分布式表示 2.1.3 词嵌入表示 2.1.4 文本的词袋表示 2.2 自然语言处理任务 2.2.1 语言 ...

  7. 华南理工计算机基础知识题,华南理工_计算机应用基础_随堂练习答案(2017年)

    华南理工_计算机应用基础_随堂练习答案(2017年) (18页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.9 积分 . . . .华南理工-计算 ...

  8. 计算机课件文字,计算机应用基础_文字处理wordppt课件.ppt

    <计算机应用基础_文字处理wordppt课件.ppt>由会员分享,提供在线免费全文阅读可下载,此文档格式为ppt,更多相关<计算机应用基础_文字处理wordppt课件.ppt> ...

  9. 《阿里云天池大赛赛题解析(深度学习篇)》学习笔记(1)自然语言处理基础

    自然语言处理基础 Natural Language Processing,NLP. 主要任务包括自然语言理解Natural Language Understanding,NLU和自然语言生成Natur ...

最新文章

  1. 几款不同颜色LED的伏安特性
  2. python -- 计算 平方、乘方、平方根_从零开始学习PYTHON3讲义(二)把Python当做计算器...
  3. 视频搜索时代到来了吗?[翻译]
  4. 关于spark的mllib学习总结(Java版)
  5. 安装VS 2008 EXPRESS出现无法读取deffactory.dat错误
  6. angular 使用data-bs-datepicker时的一个小问题及解决
  7. require.js用法简介
  8. UVA10302 Summation of Polynomials【数学】
  9. 微信手机开发 ios android 您没有APP支付权限
  10. ASCII和UTF-8
  11. 软件开发的文档与审查
  12. 新计算机分区,新电脑如何分区 新电脑怎么分盘
  13. 单片机炫彩灯实训报告_单片机跑马灯实验报告
  14. 基于Mendix的云上全流程透明性备品备件协同管理
  15. 专利与论文-1:为什么要写专利?专利有什么好处?
  16. 小程序 H5页面video的适配问题
  17. 对接钉钉API语音功能相关文档
  18. java https pfx_使用HttpClient携带pfx证书调用HTTPS协议的WebService
  19. ★ Android 各类依赖库文件 收藏 ★
  20. 怎么做视频特效?不妨试试抖音特效创作平台

热门文章

  1. 2017/05/04 java 基础 随笔
  2. .JQuery中的Ajax
  3. heightForRow
  4. 聊天内容3.2 浏览器
  5. linux中文输入法 ibus
  6. 如何在套接字IO操作上设置超时机制
  7. 表中存在类型为dateTime的字段,并且插入语句,不包括该字段时,会插入失败...
  8. 原型模式(Prototype) 1
  9. 贵州大数据崛起背后的阿里云力量
  10. mysql update case when和where之间的注意事项