翻译_

1. 词典信息加载 : docPairOfCorpus.fullcorpus.dic加载对象文件

2. 从提取出的词典进行翻译:

tranWord  rank  similarity

词典提取_

1. 建立词典:为对输入的2种词典分别编号,合并,

a) 读取文件en-frDic ;    --<String, Integer>

b) 建立联合词典;  --<Integer, HashSet<Integer>> (set: 已排序,无重复,map: key-value对key排序)

c) 写出对象文件langOneWordID.dic, langTwoWordID.dic, 建立用户词典--<种子词典>

d) 写出对象文件Dictionary

2. 语料库预处理

a) 读取文件: lang1-all, lang2-all

b) 语言x语料库内的文档处理

c) 写出文件:lang1-utf8, lang2-utf8

3. 词性标注:  语言x的词性标注

4. 词性标注对象写出

a) 加载对象文件:langOneWordID.dic, langTwoWordID.dic

b) 加载语言x语料库文档的标注信息

i. 读取文件:lang1-utf8.pos, lang2-utf8.pos

ii. 切分后的文档数目:lang1-9950, lang2-9989

c) 写出对象文件:

i.     allLangOneWords,  allLangTwoWords

ii.     langOneWordID, langTwoWordID

iii. posOfLangOneDocs, posOfLangTwoDocs

5. 语料库处理

a) 加载停止词典

b) 加载对象文件:langOneWordID, langTwoWordID

i. 读取文件:enStopword,frStopword

ii. 语言x停止词典大小:505,338

c) 加载对象文件: posOfLangOneDocs, posOfLangTwoDocs

d) 获取所有词语的词频信息,Lang code=x

e) 写出对象文件:

i. langOneSentCountForDocs, langTwoSentCountForDocs

ii. langOneWordCountForDocs, langTwoWordCountForDocs

f) 在文档层次开始获取单词的上下文信息,根据所有的标注对象,Lang = x

6. 合并

a) 初始化文档信息

b) 加载对象文件: langOneWordCountForDocs, langTwoWordCountForDocs

c) 语言x的文档数量:

d) 加载对象文件: langOneSentCountForDocs, langTwoSentCountForDocs

e) 写出对象文件: docPairOfCorpus.fullcorpus

7. 词典抽取准备

a) 加载对象文件:

b) 语言x的文档数量:

c) 加载对象文件:

i. langOneSentCountForDocs, langTwoSentCountForDocs

ii. langOneWordCountForDocs, langTwoWordCountForDocs

iii.  docPairOfCorpus.fullcorpus

d) 语言x语料库的文档数量:

e) 加载对象文件:Dictionary

f) 根据文档信息建立语料库的词频以及上下文信息...

i. 写出对象文件:

1. langOneWordCountForExLex-docPairOfCorpus.fullcorpus

2. langTwoWordCountForExLex-docPairOfCorpus.fullcorpus

ii. 写出对象文件:

1. langOneWordContextForExLex-docPairOfCorpus.fullcorpus

2. langTwoWordContextForExLex-docPairOfCorpus.fullcorpus

8. 词典提取

a) 加载对象文件:

i. 第一步:

1. langOneWordCountForExLex-docPairOfCorpus.fullcorpus

2. langTwoWordCountForExLex-docPairOfCorpus.fullcorpus

ii. 第二步:

1. langOneWordContextForExLex-docPairOfCorpus.fullcorpus

2. langTwoWordContextForExLex-docPairOfCorpus.fullcorpus

iii. Dictionary

iv.     langOneWordID, langTwoWordID

b) 开始计算IDF

c) 写出对象文件:docPairOfCorpus.fullcorpus.dic (最终保存的词典路径dicName)

【毕业设计day05】精析代码相关推荐

  1. ERC721:全生命周期精析,妈妈再也不用担心我不会玩NFT合约啦

    ERC721:全生命周期精析,妈妈再也不用担心我不会玩NFT合约啦 由于篇幅有限,本博客将围绕ERC721核心展开介绍,文章内容尽量做到通俗易懂,但其中不可避免地可能涉及一些新手不友好的概念,您可以查 ...

  2. 为什么剩余数不能相加_公务员考试行测备考数学运算:剩余问题精析

    公务员考试行测备考数学运算:剩余问题精析 在我国古代算书<孙子算经>中有这样一个问题:"今有物不知其数,三三数之剩二,五五数之剩三,七七数之剩二,问物几何?"意思就是, ...

  3. 子网划分详解与子网划分实例精析

    目录 文章目录 子网划分理论基础 为什么进行子网划分 知识点 子网划分常见问题 子网划分实例精析 C类子网划分实例分析 已知网络地址和子网掩码,求子网划分结果 已知网络地址和子网掩码求子网划分 已知i ...

  4. kuka机器人焊接编程入门教程_套装 官方正版 KUKA工业机器人从入门到精通 共3册 库卡 基础入门与应用案例精析 编程高级教程 编程与实操技巧...

    <KUKA工业机器人基础入门与应用案例精析> 本书基于作者多年与KUKA机器人相关的从业经验来编写,全书共7章,主要围绕KUKA机器人的机械.电气.操作.配置软件.编程软件以及应用等方面展 ...

  5. iOS开发-证书问题精析~

    在iOS开发过程中,不可避免的要和证书打交道,真机调试.App上架.打包给测试去测试等都需要搞证书.在此过程中我们会遇到很多的问题,但是如果掌握了真机调试的原理和本质:遇到问题,我们就更容易定位问题之 ...

  6. 人脸识别毕业设计python_25 行 Python 代码毕业设计实现人脸识别

    文章来源:淘论文网   发布者:毕业设计 浏览量: 请确保用的是 OpenCV v2 你需要一个网络摄像头 OpenCV OpenCV 是最流行的计算机视觉库,原本用 C 和 C++ 开发,现在也支持 ...

  7. linux下网络工具之tcpdump精析

    tcpdump采用命令行方式,它的命令格式为: tcpdump [-adeflnNOpqStvx] [-c 数量] [-F 文件名] [-i 网络接口] [-r 文件名] [-s snaplen] [ ...

  8. 软件工程python毕业设计选题2018_计算机软件工程毕业设计(可提供代码)

    大学中最折磨人的就是毕业设计阶段,很多计算机专业的学弟学妹们不喜欢计算机,也就不喜欢编码,毕业设计就很头疼.回想我做毕业设计的时候,也确实是这样,我们学校要求也比较严格. 首先,毕设选题要求有创新点. ...

  9. python人脸识别毕业设计-Python 40行代码实现人脸识别功能

    前言 很多人都认为人脸识别是一项非常难以实现的工作,看到名字就害怕,然后心怀忐忑到网上一搜,看到网上N页的教程立马就放弃了.这些人里包括曾经的我自己.其实如果如果你不是非要深究其中的原理,只是要实现这 ...

最新文章

  1. putty php环境搭建,centos7(linux)系统下php搭建环境和创建laravel项目
  2. Android获取顶部状态栏statusBar高度、底部导航栏navigationBar高度
  3. 把二叉搜索树转换为累加树
  4. Silverlight的4个版本
  5. java高分面试指南:redis怎么保证高可用
  6. python 裁判文书网_python - 用selenium模拟登陆裁判文书网,系统报错找不到元素。...
  7. 各层电子数排布规则_一文读懂PCB多层板各层含义与设计原则
  8. spark学习-69-源代码:Endpoint模型介绍(1)
  9. 使用 IntraWeb (2) - Hello IntraWeb
  10. java socket - 传递对象
  11. php如何在sql语句中使用,php – 如何在SQL查询中使用数组
  12. JZOJ 6841. 【2020.11.5提高组模拟】淘淘蓝蓝之树林(凸包+最短路)
  13. 什么是云服务器?什么是阿里云服务器管理?
  14. Excel批量转置——录制会循环的宏
  15. ORACLE 字符集修改,ZHS16GBK转US7ASCII
  16. HTML+CSS静态页面网页设计作业——我的家乡-四川成都(4页) HTML+CSS+JavaScript
  17. 再论VS.NET中的安装部署文件
  18. 使用dig/nslookup命令查看dns解析详情
  19. 文本分类实战----数据处理篇----embeddings与vocab中词汇不相覆盖问题的处理办法
  20. 隐私计算加密技术基础系列-Diffie–Hellman key exchange

热门文章

  1. 字典生成器crunch问题汇总(移植到Windows/字符集)
  2. Google Android Developer
  3. 计算机科学与技术的未来发展前景
  4. 阿里JAVA开发手册(泰山版)
  5. 世界上根本没有黑天鹅
  6. WebGL实时视频(6) Unity里面显示视频
  7. 【摸鱼系列】如何用Python做一个有趣的Loading彩蛋游戏~
  8. abap学习笔记-SAP字段与表的对应关系
  9. XAMPP安装配置教程(Windows)
  10. 【牛客】B 烦人的依赖(拓扑排序求顺序)