基础认知

语言学的目的是为了能够描述和解释我们周围的语言现象。
人们对在自然语言处理中使用统计方法抱有的热情,在很大程度上是 因为他们看到了统计方法在解决实际问题时的前景,而这些问题正是传统方法无法解决的。大家对语言使用形式的频率感兴趣是有清晰的,毋庸置疑的科学原因的。(统计学是研究语言的一种方法)
语言和认知 是随机现象:把概率作为理解语言的一种科学方法的最基本论点认为,人类的认知是随机的,因此语言也是随机的,因为它是认知的一个完整部分。
在语言中,大部分句子都是二值可分的(合乎语法、不合乎语法),而且在大多数情况下,单词只使用一个词性,没有词性混合的现象。但是如果语言和认知作为一个整体,最好的解释就是概率,那么解释语言理论的中心内容就必须是概率论。

数学基础

  • 概率论基础
  • 信息论基础

语料库—计算机

统计自然语言处理方法不仅需要大量的空间来存储语料,而且经常需要从语料库中收集大量的统计信息,所以要求计算机有比较快的存取速度。这就需要一台硬盘足够大,内存足够多的计算机。

搭配

“搭配”是由两个或两个以上的词所组成的语言表示,相当于说某些事情的习惯方式。

1.频率
在一个文本语料库中寻找搭配的最简单的方法就是计数。如果两个词在一起出现了很多次,那么这就是一个证据,说明它们有特殊的功能,这种功能不能简单解释为两个词合并而导致的结果。
2.均值和方差
基于频率的搜索方法可以很好地解决固定短语的识别问题,但是很多搭配是两词搭配,并且彼此之间的关系非常灵活。
对于有些组合来说,它可能不是一个我们想要的严格术语意义上的搭配,但是对于文本生成的目的来说它可能非常有用。如果我们想要寻找这样的词汇组合,在这些词汇组合之间的联系比固定短语之间的联系更加松散,并且在他们之间插入的符号及其相对位置都是可变的,那么这种基于方差的搭配发现方法是一个正确的选择。
3. 假设检验
我们掩盖至今的一个难题是,高频率和低方差可能是偶然出现的。如果一个频繁出现的二元组的两个构成词也是频繁出现的词,那么我们可以预期这两个词同现很多次仅仅是一个偶然现象,它们甚至不能形成一个搭配。
事实上,我们真正想知道的是两个词同现的次数是否比偶然同现的次数更多。评价一个事件是否是偶然事件是统计学的经典问题之一。我们通常用假设检验来评价。
4.互信息
粗略地说是一种度量形式,表明一个词和其他词语有多大的联系。
我们可以说,互信息是衡量独立性的一种很好的方法。接近0的互信息值表明了独立性。但是互信息不是衡量依赖性的一种很好的方法,因为对于依赖性来说,互信息的值是由单独词的频率决定的。

统计自然语言处理基础(一)相关推荐

  1. 统计自然语言处理基础-第四章 基于语料库的工作(笔记)

    4 基于语料库的工作 统计自然语言处理的主要需求包括计算机.语料库和软件.计算机和语料库的变化非常快,没有必要放注意力在他们上面. 本章研究 语料格式以及在处理生语料时遇到的的问题.研究工作开始之前需 ...

  2. 统计自然语言处理基础-第三章 语言学基础(笔记)

    3 语言学基础 语言学概念+语法(句子结构)现象(附着歧义.短语结构)+词法(词语形成)+语义 3.1 词性和词法 句法=语法类=词性(POS):按照词的语法结构和典型的语义类型分类,类别的名称 开放 ...

  3. 统计自然语言处理基础_聚类

    聚类对象的描述需要建立数据表示模型,聚类算法需要定义在包(bag)的概念之上,包允许相同的元素存在. 在统计自然语言处理中,聚类算法有两个重要的用途,第一个重要用途是用于试探性数据分析(explora ...

  4. 统计自然语言处理基础——学习摘要(1)

    句子边界的启发式检测算法: (1)在.?!(和可能的;:-)出现位置之后加一个假设的句子边界. (2)如果假设边界后面有引号,那么把假设边界移到引号后面. (3)除去以下情况中句点的边界资格: -如果 ...

  5. 《统计自然语言处理》读书笔记 一.基础知识及概念介绍

    最近准备学习自然语言处理相关的知识,主要参考<统计自然语言处理·宗成庆>和<Natural Language Processing with Python>,推荐大家阅读.第一 ...

  6. 《阿里云天池大赛赛题解析(深度学习篇)》学习笔记(1)自然语言处理基础

    自然语言处理基础 Natural Language Processing,NLP. 主要任务包括自然语言理解Natural Language Understanding,NLU和自然语言生成Natur ...

  7. 《自然语言处理:基于预训练模型的方法》读书笔记:第2章 自然语言处理基础

    目录 第2章 自然语言处理基础 2.1 文本的表示 2.1.1 词的独热表示 2.1.2 词的分布式表示 2.1.3 词嵌入表示 2.1.4 文本的词袋表示 2.2 自然语言处理任务 2.2.1 语言 ...

  8. 自然语言处理基础技术之词性标注

    声明:转载请注明出处,谢谢:https://blog.csdn.net/m0_37306360/article/details/84502176 另外,更多实时更新的个人学习笔记分享,请关注: 知乎: ...

  9. 统计自然语言处理笔记

    前言 学习技术离不开经典技术材料,目前深度学习的自然语言处理如火如荼,了解一下之前的统计自然语言处理也是很有必要的. 课程介绍 男,1970年生,黑龙江省宁安市人.博士,教授,博士生导师.AAAS会员 ...

最新文章

  1. 客快物流大数据项目(十六):使用脚本创建镜像
  2. ping: unknown host www.baidu.com问题解决
  3. 炼一项专业技能c语言,C语言程序设计_安徽新华电脑专修学院
  4. Ext.form.TextArea文本区
  5. Linux 配置文件
  6. word List 34
  7. c语言中栈堆,C语言中堆和栈的区别
  8. 09-03 Java 抽象类
  9. 企业即时通讯将成为未来企业竞争致胜的关键
  10. Android PDF阅读
  11. Android 8.0 手机亮灭屏
  12. QT qss选择器------后代选择器
  13. 区块链 liquity源代码分析之一 赎回奖励trove_open_liquidate
  14. android JavaMail报错:SendFailedException: No recipient addresses
  15. 推荐关于PX4 ECL EKF方程推导的两篇“宝藏“文章
  16. Matlab -----求矩阵特征多项式和特征值
  17. 如何让AR拥有镜子的反光效果(ios)
  18. 关于线性条形码符号的解读(二)
  19. 国民体质测试标准计算机系统,国民体质测定标准施行办法
  20. 图片资源检索,图片文件压缩、裁剪、存储、收藏网站汇总,宝藏呀

热门文章

  1. LeetCode 29 两数相除
  2. Spring Boot——Spring Security环境下跨域addCorsMappings与拦截器冲突导致跨域失效解决方案
  3. 无线路由器——多路由器无线桥联解决方案
  4. Zero Quantity Maximization
  5. android复选框标签,Android中的复选框的使用
  6. Android 错误: 找不到符号 符号: 类 x 位置: 类 MainActivity
  7. Kotlin协程重新认知 CoroutineContext
  8. Android 监听APP进入前台、后台
  9. 业务知识——Logger日志打印规范
  10. HTTP请求头中各字段解释