自然语言处理笔记2-哈工大 关毅
目录
文章目录
- 目录
- 前言
- 自然语言处理概论(七)
- 自然语言处理概论(八)
- 数学基础和语言学基础(1)
- 数学基础和语言学基础(2)
- 数学基础和语言学基础(3)
- 数学基础和语言学基础(4)
- 数学基础和语言学基础(5)
前言
硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅
自然语言处理概论(七)
人工智能经典实验,图灵实验,想象人和一块机器隔着屏幕讲话,如果,人无法判断对面是机器还是人,那就说明这个机器通过了图灵测试。
强调一点,人工智能的发展还是要依赖于对人大脑机理的了解,做出真正的人工智能。
涉及的学科:计算语言学,应用语言学,计算机科学。
可计算的方法来自于数学的理论基础和人的心理学模型。
将人理解自然语言的步骤反着来一遍,就可以做出真正的自然语言理解。
现在想要在理论上做出大的创新,需要的是交叉学科,需要的是共同创新。
计算语言学侧重于语言处理的基础。自然语言理解侧重于智能化人机接口。
自然语言处理概论(八)
汉语的特性:
大字符集的意音文字,同义多,词态无变化,语法研究不规范。
汉语语言形式化和量化工作滞后。
力量较分散,分词评测系统很难。
基础理论讲解:1概率统计2统计机器学习3人工智能4认知科学理论。
人工智能理论:1组合优化方法2逻辑方法
可研究的内容:1词法分析2句法分析3上下文无关分析4语义分析5概念网络6机器翻译。
数学基础与语言学基础(一)
从小规模语料库统计出语料信息然后在大规模语料库里面使用。
个人的感受:
工程开发经验以后,必须做一个精密的系统,收集分析情况,构造推断模型。
概率论是我们的研究基础,它研究的是随机现象的规律,词汇的分布也符合幂律。
数学基础和语言学基础(1)
1948年,熵出现,
H(P)=∑x属于Ω−p(x)∗logp(x)H(P)=\sum_{x 属于 \Omega }-p(x)*log_p(x) H(P)=x属于Ω∑−p(x)∗logp(x)
不确定性的信息熵最大,完全确定的信息,信息熵最小。
冯志伟汉语信息量最大。
条件概率复习:
P(A|B),B为真时A发生的概率。
数学基础和语言学基础(2)
贝叶斯定理
P(A∣B)=P(A,B)P(B)=P(B∣A)∗P(A)P(B)=argmaxAP(B∣A)∗P(A)P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)*P(A)}{P(B)}=argmax_AP(B|A)*P(A)P(A∣B)=P(B)P(A,B)=P(B)P(B∣A)∗P(A)=argmaxAP(B∣A)∗P(A)
应用,音字替换,贝叶斯定理,将一个大问题分解成两个小的问题的乘积。
随机变量,数学期望与方差。
无参数分布以及有参数分布。
极大似然估计和贝叶斯统计。
语言学基础:
1汉语的分类:可以分为实,虚,叹。
属于黏着语。
数学基础和语言学基础(3)
语法分类,句法分析特点。
汉语句法分析的特殊性。
一个词可以在句中担任多种成分,切勿形态变化。
语言知识库,一个关键核心部分,调整知识库。
现代汉语语法信息词典,语用层提示到语义层。
数学基础和语言学基础(4)
贝叶斯公式和一个核心。
oncology是核心。
hownet搭建了一个意元为基础的框架。
定义意元很难,派生整个系统。
数学基础和语言学基础(5)
搜索系统,人性化提问。
大规模文本抽取答案。
语义相似度的计算,基于库或者基于统计的方法。
机器可读词典。
二进制文件构造你的词典,保护知识产权。
自然语言处理笔记2-哈工大 关毅相关推荐
- 自然语言处理笔记4-哈工大 关毅
目录 文章目录 目录 前言 汉语语料库的多级加工(1) 汉语语料库的多级加工(2) 汉语语料库的多级加工(3) 汉语语料库的多级加工(4) 汉语语料库的多级加工(5) 汉语语料库的多级加工(6) 汉语 ...
- 自然语言处理笔记10-哈工大 关毅
目录 文章目录 目录 前言 基于认知科学原理的相似模型(五) 基于认知科学原理的相似模型(六) 面向旅游领域的问答系统实验 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. ...
- 自然语言处理笔记6-哈工大 关毅
目录 文章目录 目录 前言 Markov模型1 Markov模型2 Markov 模型3 Markov模型4 Markov模型(5) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后 ...
- 自然语言处理笔记9-哈工大 关毅
目录 文章目录 目录 前言 课堂总结(一) 课堂总结(二) 课堂总结(三) 课堂总结(四) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题, ...
- 自然语言处理笔记8-哈工大 关毅
目录 文章目录 目录 前言 问答系统基础一 问答系统基础二 问答系统术语 问答系统基础三 问答系统基础四 问答系统基础五 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自 ...
- 自然语言处理笔记7-哈工大 关毅
目录 文章目录 目录 前言 句法分析技术1 句法分析技术2 句法分析技术3 句法分析技术4 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题, ...
- 自然语言处理笔记5-哈工大 关毅
目录 文章目录 目录 前言 n-gram语言模型(一) n-gram语言模型(二) n-gram语言模型(三) n-gram语言模型(四) n-gram语言模型(五) n-gram语言模型(六) n- ...
- 自然语言处理笔记3-哈工大 关毅
目录 文章目录 目录 前言 汉语的分词与频度统计(1) 汉语词汇的特点 汉语的分词与频度统计(2) 汉语的分词与频度统计(3) 汉语的分词与频度统计(4) 汉语的分词与频度统计(5) 汉语的分词与频度 ...
- 自然语言处理笔记11-哈工大 关毅
目录 文章目录 目录 前言 一篇论文的诞生(1) 一篇论文的诞生(2) 一片论文的诞生(3) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题 ...
最新文章
- android 监听手机开机
- 网络分流器|运营商光纤延距解决方案
- angular中的e2e检测sendkeys将绑定值设置为空
- 完全编译安装boost
- linux驱动read函数 copytouser,Linux驱动编程 step-by-step (五)主要的文件操作方法实现...
- cesium添加填充_Cesium中级教程1 - 空间数据可视化(一)
- 数据结构——树的理解路线(总)
- Restful风格实现页面之间跳转PageController
- 2014北科计算机原理试题答案,2014北科计算机组成原理试题
- BIM+3DGIS的行业应用探讨
- vs将项目发布到服务器,vs2010将项目发布到远程服务器上
- mysql identify_MySQL用户授权
- 二元非洲秃鹫优化算法(Matlab代码实现)
- 累加器A用c语言,在c语言数组累加器的使用
- GoogleChromePortable 谷歌chrome浏览器便携版官网下载方式
- 马士兵 oracle seton,马士兵Oracle 下
- java.lang.UnsatisfiedLinkError: C:\Users\Administrator\AppData\Local\Temp\2\librocksdbjni91
- 视频直播嵌入企业微信公众号的方法
- 五剑同辉 聚力安全:绿盟科技五大安全实验室震撼发布
- jieba库基本介绍(中文分词)