目录

文章目录

  • 目录
  • 前言
  • 自然语言处理概论(七)
  • 自然语言处理概论(八)
  • 数学基础和语言学基础(1)
  • 数学基础和语言学基础(2)
  • 数学基础和语言学基础(3)
  • 数学基础和语言学基础(4)
  • 数学基础和语言学基础(5)

前言

硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅

自然语言处理概论(七)

人工智能经典实验,图灵实验,想象人和一块机器隔着屏幕讲话,如果,人无法判断对面是机器还是人,那就说明这个机器通过了图灵测试。
强调一点,人工智能的发展还是要依赖于对人大脑机理的了解,做出真正的人工智能。
涉及的学科:计算语言学,应用语言学,计算机科学。
可计算的方法来自于数学的理论基础和人的心理学模型。
将人理解自然语言的步骤反着来一遍,就可以做出真正的自然语言理解。
现在想要在理论上做出大的创新,需要的是交叉学科,需要的是共同创新。
计算语言学侧重于语言处理的基础。自然语言理解侧重于智能化人机接口。

自然语言处理概论(八)

汉语的特性:
大字符集的意音文字,同义多,词态无变化,语法研究不规范。
汉语语言形式化和量化工作滞后。
力量较分散,分词评测系统很难。
基础理论讲解:1概率统计2统计机器学习3人工智能4认知科学理论。
人工智能理论:1组合优化方法2逻辑方法
可研究的内容:1词法分析2句法分析3上下文无关分析4语义分析5概念网络6机器翻译。
数学基础与语言学基础(一)
从小规模语料库统计出语料信息然后在大规模语料库里面使用。
个人的感受:
工程开发经验以后,必须做一个精密的系统,收集分析情况,构造推断模型。
概率论是我们的研究基础,它研究的是随机现象的规律,词汇的分布也符合幂律。

数学基础和语言学基础(1)

1948年,熵出现,
H(P)=∑x属于Ω−p(x)∗logp(x)H(P)=\sum_{x 属于 \Omega }-p(x)*log_p(x) H(P)=x属于Ω∑​−p(x)∗logp​(x)
不确定性的信息熵最大,完全确定的信息,信息熵最小。
冯志伟汉语信息量最大。
条件概率复习:
P(A|B),B为真时A发生的概率。

数学基础和语言学基础(2)

贝叶斯定理
P(A∣B)=P(A,B)P(B)=P(B∣A)∗P(A)P(B)=argmaxAP(B∣A)∗P(A)P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)*P(A)}{P(B)}=argmax_AP(B|A)*P(A)P(A∣B)=P(B)P(A,B)​=P(B)P(B∣A)∗P(A)​=argmaxA​P(B∣A)∗P(A)
应用,音字替换,贝叶斯定理,将一个大问题分解成两个小的问题的乘积。
随机变量,数学期望与方差。
无参数分布以及有参数分布。
极大似然估计和贝叶斯统计。
语言学基础:
1汉语的分类:可以分为实,虚,叹。
属于黏着语。

数学基础和语言学基础(3)

语法分类,句法分析特点。
汉语句法分析的特殊性。
一个词可以在句中担任多种成分,切勿形态变化。
语言知识库,一个关键核心部分,调整知识库。
现代汉语语法信息词典,语用层提示到语义层。

数学基础和语言学基础(4)

贝叶斯公式和一个核心。
oncology是核心。
hownet搭建了一个意元为基础的框架。
定义意元很难,派生整个系统。

数学基础和语言学基础(5)

搜索系统,人性化提问。
大规模文本抽取答案。
语义相似度的计算,基于库或者基于统计的方法。
机器可读词典。
二进制文件构造你的词典,保护知识产权。

自然语言处理笔记2-哈工大 关毅相关推荐

  1. 自然语言处理笔记4-哈工大 关毅

    目录 文章目录 目录 前言 汉语语料库的多级加工(1) 汉语语料库的多级加工(2) 汉语语料库的多级加工(3) 汉语语料库的多级加工(4) 汉语语料库的多级加工(5) 汉语语料库的多级加工(6) 汉语 ...

  2. 自然语言处理笔记10-哈工大 关毅

    目录 文章目录 目录 前言 基于认知科学原理的相似模型(五) 基于认知科学原理的相似模型(六) 面向旅游领域的问答系统实验 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. ...

  3. 自然语言处理笔记6-哈工大 关毅

    目录 文章目录 目录 前言 Markov模型1 Markov模型2 Markov 模型3 Markov模型4 Markov模型(5) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后 ...

  4. 自然语言处理笔记9-哈工大 关毅

    目录 文章目录 目录 前言 课堂总结(一) 课堂总结(二) 课堂总结(三) 课堂总结(四) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题, ...

  5. 自然语言处理笔记8-哈工大 关毅

    目录 文章目录 目录 前言 问答系统基础一 问答系统基础二 问答系统术语 问答系统基础三 问答系统基础四 问答系统基础五 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自 ...

  6. 自然语言处理笔记7-哈工大 关毅

    目录 文章目录 目录 前言 句法分析技术1 句法分析技术2 句法分析技术3 句法分析技术4 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题, ...

  7. 自然语言处理笔记5-哈工大 关毅

    目录 文章目录 目录 前言 n-gram语言模型(一) n-gram语言模型(二) n-gram语言模型(三) n-gram语言模型(四) n-gram语言模型(五) n-gram语言模型(六) n- ...

  8. 自然语言处理笔记3-哈工大 关毅

    目录 文章目录 目录 前言 汉语的分词与频度统计(1) 汉语词汇的特点 汉语的分词与频度统计(2) 汉语的分词与频度统计(3) 汉语的分词与频度统计(4) 汉语的分词与频度统计(5) 汉语的分词与频度 ...

  9. 自然语言处理笔记11-哈工大 关毅

    目录 文章目录 目录 前言 一篇论文的诞生(1) 一篇论文的诞生(2) 一片论文的诞生(3) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题 ...

最新文章

  1. android 监听手机开机
  2. 网络分流器|运营商光纤延距解决方案
  3. angular中的e2e检测sendkeys将绑定值设置为空
  4. 完全编译安装boost
  5. linux驱动read函数 copytouser,Linux驱动编程 step-by-step (五)主要的文件操作方法实现...
  6. cesium添加填充_Cesium中级教程1 - 空间数据可视化(一)
  7. 数据结构——树的理解路线(总)
  8. Restful风格实现页面之间跳转PageController
  9. 2014北科计算机原理试题答案,2014北科计算机组成原理试题
  10. BIM+3DGIS的行业应用探讨
  11. vs将项目发布到服务器,vs2010将项目发布到远程服务器上
  12. mysql identify_MySQL用户授权
  13. 二元非洲秃鹫优化算法(Matlab代码实现)
  14. 累加器A用c语言,在c语言数组累加器的使用
  15. GoogleChromePortable 谷歌chrome浏览器便携版官网下载方式
  16. 马士兵 oracle seton,马士兵Oracle 下
  17. java.lang.UnsatisfiedLinkError: C:\Users\Administrator\AppData\Local\Temp\2\librocksdbjni91
  18. 视频直播嵌入企业微信公众号的方法
  19. 五剑同辉 聚力安全:绿盟科技五大安全实验室震撼发布
  20. jieba库基本介绍(中文分词)

热门文章

  1. How many levels are there at the in the digital transformation?
  2. 权限控制框架Shiro简单介绍及配置实例
  3. 2.let和const命令
  4. Oracle 游标使用全解
  5. Linux下利用backtrace追踪函数调用堆栈以及定位段错误
  6. hdu 1546(最短路)
  7. 利用SQL语言表达复杂查询
  8. HDUOJ-2094-产生冠军
  9. CodeForce 237C Primes on Interval(二分+ 素数筛法)
  10. hdu 1166 敌兵布阵 树状数组