统计翻译模型核心就是基于短语的翻译(短语与短语的对应)。

上一讲中词到词的对应就是为了短语对应做铺垫。

一致性短语需要满足三个条件:

条件1:如果“北京 房价”对应的英文短语中包含“北京”、“房价”分别对应的英文单词(原因是在词对齐的时候,可以发现有很多轮空的.)

条件2:

以目标语言为基础,不同目标长度做标准:滑动窗口的大小先从1开始到2,3........

先以目标长度(英文拆分成一个个单词)为1开始遍历:housing对应房价,但是房价对应housing prices。此时,发现prices不在目标英文中,将prices标记上蓝色表示异常。

                         “prices”对应的是房价,房价对应的是“housing prices”,此时“housing“”又不在目标英文中,将”housing”标记为蓝色表示异常。

接着以目标长度为2进行遍历,“beijing housing”对应的是“北京 房价”,再找“北京 房价”对应的却是“beijing housing prices”,将异常点prices标记为蓝色

              “housing prices”成功双向对应“房价”,没有异常点

              “prices continued”对应“房价 持续”,而“房价 持续”对应的是“housing prices continued”,将异常点housing标记为蓝色

以此类推。窗口加大一个单词的条件,窗口遍历到了最后一个单词。

遍历结束的条件:窗口大小达到了句子的长度。

在此过程中,利用上一讲的翻译表从词对词来生成短语到短语。因此本操作最后得到的是候选短语。

转载于:https://www.cnblogs.com/Josie-chen/p/9138258.html

02-NLP-04基于统计的翻译系统-03-短语翻译表构造——短语抽取相关推荐

  1. NLP——8.基于统计的翻译系统

    基于统计的机器翻译:mosesdecoder作为比对翻译效果的baseline,如果不如这个的效果,就说明测试系统效果不算好. 首先看看一共需要以下三个模型: 语言模型:用来评估这句话的通畅程度. 1 ...

  2. 004-基于统计的翻译系统

    双语数据预处理 学习目标:了解和学习开发汉英双语数据预处理模块. 双语数据预处理是统计机器翻译系统构建的第一步,为词对齐处理提供分词后的 双语数据.预处理的工作本质上就是双语数据的分词处理,与传统分词 ...

  3. 基于统计复用的分组交换网络拥塞控制的科普解释

    原文链接:https://blog.csdn.net/dog250/article/details/53138144 最近收到很多邮件咨询各种问题,一般而言我能回答的就都回答了,我自有自知之明,绝不是 ...

  4. 全球与中国翻译系统市场现状及未来发展趋势(2022)

    本文研究全球及中国市场翻译系统现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美.欧洲.中国.日本.东南亚和印度等地区的现状及未来发展趋势. 根据QYR(恒州博智)的统计及预测,202 ...

  5. 基于struts2的登录系统

    web.xml配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version=" ...

  6. NLP——基于transformer 的翻译系统

    文章目录 基于transformer 的翻译系统 1. 数据处理 1.1 英文分词 1.2 中文分词 1.3 生成字典 1.4 数据生成器 2. 构建模型 2.1 构造建模组件 layer norm层 ...

  7. C#毕业设计——基于C#+asp.net+sqlserver的证券术语解释及翻译系统设计与实现(毕业论文+程序源码)——翻译系统

    基于C#+asp.net+sqlserver的证券术语解释及翻译系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于C#+asp.net+sqlserver的证券术语解释及翻译系统设计与实 ...

  8. 【Python+C#】手把手搭建基于Hugging Face模型的离线翻译系统(如果你想,也可以在线)

    前言:目前翻译都是在线的,要在C#开发的程序上做一个可以实时翻译的功能,好像不是那么好做(其实主要是第三方的都要AppID或者授权,太不友好了).而且大多数处于局域网内,所以访问在线的api也显得比较 ...

  9. 【Python+C#】手把手搭建基于Hugging Face模型的离线翻译系统,并通过C#代码进行访问...

    前言:目前翻译都是在线的,要在C#开发的程序上做一个可以实时翻译的功能,好像不是那么好做.而且大多数处于局域网内,所以访问在线的api也显得比较尴尬.于是,就有了以下这篇文章,自己搭建一套简单的离线翻 ...

最新文章

  1. python求圆柱表面积_python基础知识-字典
  2. C# list集合 重复元素 索引_C#学习笔记12--集合/索引器/扩展
  3. YouTube高效传输策略:节省14%带宽 用户体验提升
  4. 【Lucene4.8教程之一】使用Lucene4.8进行索引及搜索的基本操作
  5. CentOS7下安装Docker-Compose
  6. 淘宝开发平台 java 调用实例
  7. 共阳数码管段码表_C51编程7数码管显示原理
  8. 开发人员的幸福:您需要知道的
  9. 初入C++(一) c++中的一些基础和与c的一些区别
  10. 深度有趣 | 29 方言种类分类
  11. 移动端高清适配方案(解决图片模糊问题、1px细线问题)
  12. Vscode之搭建C++环境
  13. Tcl Tutorial 笔记10 · list
  14. python运算符手写笔记_Python笔记(四)-运算符
  15. STM32——库函数版——超声波测距模块(HC-SR04)
  16. Altium Designer放置数码管字体
  17. IPP2P模块修改版,最新0.99.13
  18. 问题解决:error CS0234: 命名空间“System”中不存在类型或命名空间名“CodeDom”/“ComponentModel”(是否缺少程序集引用?)
  19. 初学C语言——三位数倒序
  20. 深入浅出Zookeeper集群搭建

热门文章

  1. Symbian编程总结-基础篇-描述符(2)-TDesC8与TDesC16之间的互转
  2. Flutter 即学即用系列博客——09 MethodChannel 实现原生与 Flutter 通信(二)
  3. iOS开发证书和配置文件的使用
  4. 如何判断Linux服务器是否被入侵?
  5. hdu-1003 Max Sum
  6. poj2031(prim)
  7. C#空接合操作符——??
  8. php中$_SERVER[PHP_SELF] 和 $_SERVER[SCRIPT_NAME]之间的区别
  9. 解决xml中mybatis等的dtd提示问题
  10. 【白皮书分享】2021超新星品牌白皮书-科特勒咨询集团.pdf(附下载链接)