一 序

学习没有捷径可以走。对于NLP来说数学跟Python是绕不过去的。立个flag.希望能踏实的通过学习,知道别人的文章写得啥,对于工作有指导。

老师说:要具备这样的能力

现实生活中的问题=========》》》数学优化问题=========》》》通过适合的工具解决

二 NLP的定义以及歧义性

NLP=NLU(语音、文本-->意思)+   NLG(意思-->文本/语音)

NLP:理解,NLG表达

2.1Ambiguity (一词多义)

苹果的例子--》公司还是水果?

怎么 解决:有统计数据。

还有根据上下文(context ),去更新认知。

2.2  Machine Translation

简单来说,机器翻译就是把一种语言翻译成另外一种语言,在这里,老师举例假设有个语料库,从A语言-B 语言。

直接case: 根据单词直接匹配。(基于规则的方法,可以理解为整理出一个词典)

问题: 慢、语法不对

步骤1: 分词后词典话处理。

步骤2: 对于所有结果排列组合,同于语言模型(LM)进行打分,找出得分最高的。

翻译模型建立起两种语言的桥梁,语言模型是衡量一个句子在目标语言中是不是流利和地道。这两种模型结合起来,加上其他一些小的优化,就能起到基础的机器翻译的作用。

这种方案的缺点:计算量很大,单词多的话计算排列有N!的方式。从你给你算法复杂度上看属于指数型。

改进: 把两步合并为一步。就是维特比算法。

从数学角度来看:可以理解为假设中文为C,英语为E。

补充下数学知识:

  正向概率:

已知袋子有多少个黑球、白球,问从袋子中任意取出一个球,是红球或黑球的概率  。

 逆向概率:

如果我们只知道袋子里不是黑球就是白球,并不知道各自有多少个,而是通过我们摸出的球的颜色,问袋子里黑白球的个数。

先验概率:

过经验来判断事情发生的概率就是先验概率。北京冬天有雾霾比较多。这就是个事实,不用任何条件。

条件概率:

P(A|B),即在B发生的条件下,A发生的概率

后验概率:

后验概率就是事情发生结果之后,事情发生可能有很多原因,推测事情有哪个原因引起的概率。

好了,再来看机器翻译的目标,假设源语言是法语x,目标语言是英语y,机器翻译的目标就是寻找y,使得P(y|x)最大。

根据贝叶斯公式:

如下图所示,通过贝叶斯公式可拆分成两个概率的乘积:

上图中P(y)就是之前介绍过的语言模型,P(x|y)是由目标语言到源语言的翻译模型。这样就能逐个计算了,所以问题就转化为怎样求解P(x|y)。

(你可能会跟我一样有疑问,贝叶斯公式下面不是还有个分母吗,上面怎么就只要分子那两项了?这里为了简化,把分母视为常数给忽略了)

语言模型是提前训练出来的,打分越高表示约接近语法,更通顺。

怎么打分?  可以用n-gram的方法。

老师开始手写公式了。

联合概率:  P(w1,w2,⋯,wm)=P(w1)P(w2|w1)P(w3|w1,w2)⋯P(wm|w1,⋯,wm−1)

Unigram model: 

不考虑条件概率,= P(w1)P(w2)...P(wm)

bigram model: 考虑到与前1个单词的顺序

=P(W1​)⋅P(W2​∣W1​)⋅P(W3​∣W2​)⋅...⋅P(Wn​∣Wn−1​)

trigram model:考虑到与前2个单词的顺序,

=  P(W1​)⋅P(W2​∣W1​)⋅P(W3​∣W1​,W2​)⋅P(W4​∣W2​,W3​)⋅...⋅P(Wn​∣Wn−2​,Wn−1​)

这就是马尔科夫假设(markov assumption),是对理想条件的一个近似求值。

小白学NLP学习笔记-入门相关推荐

  1. 利用计算机技术实现对文本篇章,自然语言处理NLP学习笔记一:概念与模型初探...

    前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. 知识图谱: 还有2个实际应用的例子,加深对NLP的理解 九歌机器人: 微软 ...

  2. 影像组学视频学习笔记(35)-基于2D超声影像的影像组学特征提取、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/f82d30289d68 来源:简书,已获转载授权 RadiomicsWorld.com "影像组学世界" ...

  3. 【PM学习笔记】酸梅干超人 - 零基础学Figma学习笔记

    原视频链接: B站视频 零基础学Figma学习笔记 心得体会 第1课 - 苹果商店页设计 第2课 - 线性图标设计 第3课 - 面性图标设计 第4课 玻璃拟态页设计 第5课 样式组件功能入门 第6课 ...

  4. C# 学习笔记入门篇(上)

    文章目录 C# 学习笔记入门篇 〇.写在前面 Hello World! 这篇学习笔记适合什么人 这篇学习笔记到底想记什么 附加说明 一.命名空间 "进入"命名空间 嵌套的命名空间. ...

  5. MongoDB学习笔记(入门)

    MongoDB学习笔记(入门) 一.文档的注意事项: 1.  键值对是有序的,如:{ "name" : "stephen", "genda" ...

  6. 影像组学视频学习笔记(43)-标准差、标准误及95%置信区间CI、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/f09d0f97592f 来源:简书,已获授权转载 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(43)主要 ...

  7. 影像组学视频学习笔记(42)-影像组学特征提取问题解决过程复现、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/c3e6de2f79b3 来源:简书,已获转载授权 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(42)主要 ...

  8. 影像组学视频学习笔记(41)-如何使用软件提取组学特征、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/72186eb3e395 来源:简书,已获授权转载 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(41)主要 ...

  9. 影像组学视频学习笔记(37)-机器学习模型判断脑卒中发病时间(文献报告)、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/3e7a2c84288e 来源:简书,已获授权转载 RadiomicsWorld.com "影像组学世界" ...

最新文章

  1. 如何利用离散Hopfield神经网络进行数字识别(1)
  2. JavaScript Office文档在线编辑备忘
  3. Python——基于OpenCV获取倾斜子图的一种方法
  4. bzoj1190:[HNOI2007]梦幻岛宝珠
  5. centos7 geenplum5.x postgis开源版本编译
  6. API生态的发展与机遇:从5000组数据看中国API生态与开发者现状
  7. supermap iserver端口介绍
  8. HDU1163 Eddy's digital Roots(解法二)【快速模幂+九余数定理】(废除!!!)
  9. PostgreSQL逻辑优化——查询优化分析
  10. Eclipse-eclipse导入新项目后,运行时找不到主类解决办法
  11. 7.大数据架构详解:从数据获取到深度学习 --- 批处理技术
  12. Vue基础调色板案例
  13. 更改Wamp下网站地址栏图标的显示
  14. 什么是GRE词汇红宝书?
  15. UWB简介及其定位方法
  16. Win11任务栏不显示时间怎么办?Win11任务栏不显示时间的解决方法
  17. 开机出现recovering journal解决办法
  18. 老男孩教育50期-马慧峰-决心书
  19. java随机点名器(仅供娱乐)
  20. java银行账户类_用java编写银行账户的存款方法

热门文章

  1. miui 10 android 9.0,小米基于安卓9.0的MIUI10稳定版来了,你的手机可以更新吗?
  2. PDF怎么免费转换成Excel?
  3. 小程序动画-循环放大缩小的动画(一闪一闪的)
  4. 医院运维管理平台(模板)
  5. 51单片机常用波特率初值表(11.0592M和12M)
  6. 成都瀚网科技:抖音发作品到底需要多久的时间才能够给流量呢?
  7. LLDP 链路发现协议
  8. [巩固培元]Python文件操作案例——用户登录
  9. AXI4协议学习:架构、信号定义、工作时序和握手机制
  10. 运营商-银联-手机厂商,三巨头如何依次主导NFC