图的随机游走模型非常适用于统计网页的权重,在文本处理方面则适用于提取关键字,生成人物关系网等。

噪声信道模型本质上就是贝叶斯,它能直接适用于翻译,对于文本简单替换的微博文本规范化来说,感觉还更简单了,输入是正常字,输出是网络用语,整个就是一个贝叶斯公式,在网络用语知道的情况下,输入选P(输入/输出)最大的那一个,也就是P(输出/输入)P(输入)

这两者尽可能的大,一个叫翻译模型一个叫语言模型,翻译模型是训练出来的,语言模型是符合语法,实际上是这个词占词库的比例,也就是出现的次数,对于句子来说,它可以根据概率链生成,但是对于单词来说,手法就小多了,只有一种。

翻译模型有很多种了,有基于词对齐方式的,它可能仅仅是为了解决对齐问题的。。。如果说,微博文本都划分开了,都确定这个词是一个网络词了,这还不好办了?关键就是在于确定网络词是吧。而且它没有上下文的概念,感觉不好使。

最有可能的翻译,是以下两个值的乘积的最大值:1. 某人说出句子 e 的几率,2. 如果他说出了句子 e,他会把句子 e 翻译成句子 f 的几率。

噪声信道的原理大概是这样:我们想象某人的脑海里有句子 e,但是在它被正式说出来之前,它被“噪声”影响,从而变成了句子 f。

注意,两个部分由右箭头连接,这被称为生成模型(generative model)因为这个模型是关于法语句子 f 是如何被生成的。这个理论的意思是,首先一个英语句子 e 被生成,然后它被转换成了法语句子。

P(f|e) 就可以更容易被建立。它只需要决定一堆英语单词是否能被翻译成一堆法语单词。从算法的角度来说,这部分模块需要把一堆法语单词翻译成一堆英语单词,并且给这两堆单词一个分数。

也就是说,我们要根据表现知道病症,这是有价值的,然鹅P(病症/表现)往往不那么准,不具有参考价值,但是P(表现/病症)*P(病症)很准,并且这两个概率是可以通过过去样例轻松统计。

下面这个例子很形象了:

写一句外语句子(译者注:这里的外语指非英语),把单词重新排列,让他们看起来像是英语单词的顺序。用一个双语词典把所有单词的所有可能翻译(译者注:这里的翻译指非英语单词对应的英语单词)都找出来。每个词的翻译写在它的下面组成一列。把最上面的非英语单词全都擦掉。喊一个朋友(敌人也可以)通过每一列中选一个词的方式来构造一个英语句子。

虽然语言模型可以通过概率计算出来,但句子概率往往是通过n-gram模型实现的。

英语如何变成法语?一个不错的理论认为英语句子被转换成谓词逻辑(predicate logic),或者是原子逻辑断言的逻辑并(conjunction of atomic logical assertions)。这些理论将语言中的“非逻辑”部分全部剔除。比如,“John must not go”被转换成

OBLIGATORY(NOT(GO(JOHN)))

“John may not go”被转换成

NOT(PERMITTED(GO(JOHN)))

另一个理论是说,英语句子被进行句法分析(parsed syntactically)。具体说,一个二叉树(binary tree diagram)用来表示这个句子,描述了主体(head)和修饰语(modifier)之间的句法关系。比如,主语/动词,形容词/名词,介词短语/动词短语,等等。这个树紧接着被转化成另一个代表法语句法关系的树。这个过程中,短语被互换,英语单词被法语对应的单词替代。这个理论称为句法迁移(syntactic transfer)

还有一个理论,认为英语句子中的单词被法语单词替换,然后它们在那混乱地移动位置。我们将这个理论称为 IBM Model 3

至少,这个理论很简单。我们可以实现将任何英语句子转换成任何法语句子,等会儿我们就会知道这是非常重要的。在其他理论里,我们并不清楚如何把句子进行转换。另一点,P(f|e) 是不需要把英语转换成优秀的法语句子的。第七节和第八节中已经讨论过,独立训练的 P(e) 模块会操心这个事情。

对于翻译来说,仅仅翻译即可,但是对于文本规范化来说,它还需要分词,侧重点完全相反,它根本不需要繁衍

前言

https://www.jianshu.com/p/cfb8038bff70

第一章

https://www.jianshu.com/p/a7a2d910305f

第二章

https://www.jianshu.com/p/6e7db07986c9

条件随机场:感觉跟马尔可夫模型长得很像,但它是无监督模型,无监督的马尔可夫,马尔可夫随机场,同样有前后向算法,虽然无监督模型没有输入的标注,但是输出后,会有特定算法进行打分的。有监督学习是输入输出都准备好了,无监督学习是没有输出,用了一个近似算法来代替输出,适用于没有输出的情况。

一般还有支持向量机,无监督方法多用来识别非规范化词。

自然语言处理(六)图的随机游走模型与噪声信道模型与条件随机场相关推荐

  1. 【数学】稀疏图的随机游走问题

    Description 给出一张n个点,m条边的平面图,从1号点开始随机游走,抵达n号点则结束,问期望步数? n<=5000 Solution 这题在wxh的IOI2019国家候选队论文中也提到 ...

  2. 图神经网络-随机游走

    1. Random Walk with Restart(RWR): 带重启的随机游走算法 参考博客: Random Walk with Restart and its application 参考博客 ...

  3. 随机游走(Random Walk)模型

    Random Walk Model 1 模型及性质简介 给定一随机变量u(i)={1,−1}u(i)={\{1, -1\}}u(i)={1,−1} 随机游走模型可表示为随时间ttt变化的函数y(t)= ...

  4. 【论文逐句精读】DeepWalk,随机游走实现图向量嵌入,自然语言处理与图的首次融合

    DeepWalk论文精读 阅读前的建议 背景知识 DeepWalk诞生背景和想要解决的问题 为什么可以借鉴NLP里面的方法? Embedding编码应该具有什么样的特性? 什么是随机游走(Random ...

  5. 从抛硬币试验看随机游走定义的基本概念错误

    全世界只有3.14 % 的人关注了 爆炸吧知识 随机游走(Random Walk)是<随机过程>教科书中用于描述动态随机现象的一种基本随机过程,许多重要的随机过程都可由它派生出来,其理论不 ...

  6. 6.2.4 随机游走(Random Walk)

    随机游走这一名称由Karl Pearson在1905年提出[Pearson, K. (1905). The problem of the Random Walk. Nature. 72, 294.], ...

  7. 随机游走模型(Random Surfer Model)

    <这就是搜索引擎:核心技术详解>第6章链接分析,本章主要介绍一些著名的链接分析方法.本节为大家介绍随机游走模型(Random Surfer Model). 互联网用户在上网时,往往有类似的 ...

  8. Meta Path Based Random Walk复现思路【基于元路径的随机游走模型】

    title: Meta Path Based Random Walk date: 2022-02-13 00:43:08 tags: NLP的一些收获 课题原因需要复现ARNN模型.即"An ...

  9. 图机器学习 | 图信号处理、矩阵分解、随机游走和深度学习算法

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:专知 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 图是连 ...

最新文章

  1. 年货买了没?大数据告诉你年货买什么!
  2. 人工智能艺术:一场前所未有的新艺术创造
  3. 《工业大数据白皮书》2019版正式发布
  4. 关于笔记本键盘错乱的原因及解决办法
  5. Vs2010编译错误集
  6. weblogic如何在linux扩容,如何在linux的weblogic上增加启动参数
  7. LeetCode - Medium - Validate IP Addres
  8. fibonacci数列的性质(ZOJ3707)
  9. SaltStack的salt-ssh使用及LAMP状态设计部署
  10. RabbitMQ--topic
  11. 套接字(Windows)
  12. MSSQL 2005数据库安全设置
  13. azure api 管理_Azure Cosmos DB和MongoDB API入门
  14. python读取svg转emf_ppt矢量图标,SVG转换EMF方法
  15. qq四国军旗2.1 beat03 builde018记牌器开发思路(四)
  16. 做精明财女必上的3堂课 结婚才是最大的投资
  17. Sofa memcached client
  18. 服务器配置信息怎么查看,查看服务器配置信息
  19. 【Html】段落排版--行间距(行高)
  20. Java实现输出100-1000的水仙花数

热门文章

  1. 虚拟机配置静态ip地址(VMware,linux系统)
  2. 升压恒流IC和降压恒流IC的区别
  3. JButton按钮响应
  4. php置顶功能代码,jquery实现页面置顶功能代码
  5. 小啊呜产品读书笔记001:《邱岳的产品手记-11》第21讲 产品案例分析:Fabulous的精致养成
  6. 记一次,oracle pdb数据库配置
  7. HUNER翻译软件测试面试题,外企测试面试常见问题及回答(英文)
  8. 解决sqlserver死锁问题
  9. Eclipse中使用SVN连接Google Code 报could not connect to server错误解决方法
  10. Win 10家庭版如何添加多用户