【毕业设计day05】精析代码
翻译_
1. 词典信息加载 : docPairOfCorpus.fullcorpus.dic加载对象文件
2. 从提取出的词典进行翻译:
tranWord rank similarity
词典提取_
1. 建立词典:为对输入的2种词典分别编号,合并,
a) 读取文件en-frDic ; --<String, Integer>
b) 建立联合词典; --<Integer, HashSet<Integer>> (set: 已排序,无重复,map: key-value对key排序)
c) 写出对象文件langOneWordID.dic, langTwoWordID.dic, 建立用户词典--<种子词典>
d) 写出对象文件Dictionary
2. 语料库预处理
a) 读取文件: lang1-all, lang2-all
b) 语言x语料库内的文档处理
c) 写出文件:lang1-utf8, lang2-utf8
3. 词性标注: 语言x的词性标注
4. 词性标注对象写出
a) 加载对象文件:langOneWordID.dic, langTwoWordID.dic
b) 加载语言x语料库文档的标注信息
i. 读取文件:lang1-utf8.pos, lang2-utf8.pos
ii. 切分后的文档数目:lang1-9950, lang2-9989
c) 写出对象文件:
i. allLangOneWords, allLangTwoWords
ii. langOneWordID, langTwoWordID
iii. posOfLangOneDocs, posOfLangTwoDocs
5. 语料库处理
a) 加载停止词典
b) 加载对象文件:langOneWordID, langTwoWordID
i. 读取文件:enStopword,frStopword
ii. 语言x停止词典大小:505,338
c) 加载对象文件: posOfLangOneDocs, posOfLangTwoDocs
d) 获取所有词语的词频信息,Lang code=x
e) 写出对象文件:
i. langOneSentCountForDocs, langTwoSentCountForDocs
ii. langOneWordCountForDocs, langTwoWordCountForDocs
f) 在文档层次开始获取单词的上下文信息,根据所有的标注对象,Lang = x
6. 合并
a) 初始化文档信息
b) 加载对象文件: langOneWordCountForDocs, langTwoWordCountForDocs
c) 语言x的文档数量:
d) 加载对象文件: langOneSentCountForDocs, langTwoSentCountForDocs
e) 写出对象文件: docPairOfCorpus.fullcorpus
7. 词典抽取准备
a) 加载对象文件:
b) 语言x的文档数量:
c) 加载对象文件:
i. langOneSentCountForDocs, langTwoSentCountForDocs
ii. langOneWordCountForDocs, langTwoWordCountForDocs
iii. docPairOfCorpus.fullcorpus
d) 语言x语料库的文档数量:
e) 加载对象文件:Dictionary
f) 根据文档信息建立语料库的词频以及上下文信息...
i. 写出对象文件:
1. langOneWordCountForExLex-docPairOfCorpus.fullcorpus
2. langTwoWordCountForExLex-docPairOfCorpus.fullcorpus
ii. 写出对象文件:
1. langOneWordContextForExLex-docPairOfCorpus.fullcorpus
2. langTwoWordContextForExLex-docPairOfCorpus.fullcorpus
8. 词典提取
a) 加载对象文件:
i. 第一步:
1. langOneWordCountForExLex-docPairOfCorpus.fullcorpus
2. langTwoWordCountForExLex-docPairOfCorpus.fullcorpus
ii. 第二步:
1. langOneWordContextForExLex-docPairOfCorpus.fullcorpus
2. langTwoWordContextForExLex-docPairOfCorpus.fullcorpus
iii. Dictionary
iv. langOneWordID, langTwoWordID
b) 开始计算IDF
c) 写出对象文件:docPairOfCorpus.fullcorpus.dic (最终保存的词典路径dicName)
【毕业设计day05】精析代码相关推荐
- ERC721:全生命周期精析,妈妈再也不用担心我不会玩NFT合约啦
ERC721:全生命周期精析,妈妈再也不用担心我不会玩NFT合约啦 由于篇幅有限,本博客将围绕ERC721核心展开介绍,文章内容尽量做到通俗易懂,但其中不可避免地可能涉及一些新手不友好的概念,您可以查 ...
- 为什么剩余数不能相加_公务员考试行测备考数学运算:剩余问题精析
公务员考试行测备考数学运算:剩余问题精析 在我国古代算书<孙子算经>中有这样一个问题:"今有物不知其数,三三数之剩二,五五数之剩三,七七数之剩二,问物几何?"意思就是, ...
- 子网划分详解与子网划分实例精析
目录 文章目录 子网划分理论基础 为什么进行子网划分 知识点 子网划分常见问题 子网划分实例精析 C类子网划分实例分析 已知网络地址和子网掩码,求子网划分结果 已知网络地址和子网掩码求子网划分 已知i ...
- kuka机器人焊接编程入门教程_套装 官方正版 KUKA工业机器人从入门到精通 共3册 库卡 基础入门与应用案例精析 编程高级教程 编程与实操技巧...
<KUKA工业机器人基础入门与应用案例精析> 本书基于作者多年与KUKA机器人相关的从业经验来编写,全书共7章,主要围绕KUKA机器人的机械.电气.操作.配置软件.编程软件以及应用等方面展 ...
- iOS开发-证书问题精析~
在iOS开发过程中,不可避免的要和证书打交道,真机调试.App上架.打包给测试去测试等都需要搞证书.在此过程中我们会遇到很多的问题,但是如果掌握了真机调试的原理和本质:遇到问题,我们就更容易定位问题之 ...
- 人脸识别毕业设计python_25 行 Python 代码毕业设计实现人脸识别
文章来源:淘论文网 发布者:毕业设计 浏览量: 请确保用的是 OpenCV v2 你需要一个网络摄像头 OpenCV OpenCV 是最流行的计算机视觉库,原本用 C 和 C++ 开发,现在也支持 ...
- linux下网络工具之tcpdump精析
tcpdump采用命令行方式,它的命令格式为: tcpdump [-adeflnNOpqStvx] [-c 数量] [-F 文件名] [-i 网络接口] [-r 文件名] [-s snaplen] [ ...
- 软件工程python毕业设计选题2018_计算机软件工程毕业设计(可提供代码)
大学中最折磨人的就是毕业设计阶段,很多计算机专业的学弟学妹们不喜欢计算机,也就不喜欢编码,毕业设计就很头疼.回想我做毕业设计的时候,也确实是这样,我们学校要求也比较严格. 首先,毕设选题要求有创新点. ...
- python人脸识别毕业设计-Python 40行代码实现人脸识别功能
前言 很多人都认为人脸识别是一项非常难以实现的工作,看到名字就害怕,然后心怀忐忑到网上一搜,看到网上N页的教程立马就放弃了.这些人里包括曾经的我自己.其实如果如果你不是非要深究其中的原理,只是要实现这 ...
最新文章
- putty php环境搭建,centos7(linux)系统下php搭建环境和创建laravel项目
- Android获取顶部状态栏statusBar高度、底部导航栏navigationBar高度
- 把二叉搜索树转换为累加树
- Silverlight的4个版本
- java高分面试指南:redis怎么保证高可用
- python 裁判文书网_python - 用selenium模拟登陆裁判文书网,系统报错找不到元素。...
- 各层电子数排布规则_一文读懂PCB多层板各层含义与设计原则
- spark学习-69-源代码:Endpoint模型介绍(1)
- 使用 IntraWeb (2) - Hello IntraWeb
- java socket - 传递对象
- php如何在sql语句中使用,php – 如何在SQL查询中使用数组
- JZOJ 6841. 【2020.11.5提高组模拟】淘淘蓝蓝之树林(凸包+最短路)
- 什么是云服务器?什么是阿里云服务器管理?
- Excel批量转置——录制会循环的宏
- ORACLE 字符集修改,ZHS16GBK转US7ASCII
- HTML+CSS静态页面网页设计作业——我的家乡-四川成都(4页) HTML+CSS+JavaScript
- 再论VS.NET中的安装部署文件
- 使用dig/nslookup命令查看dns解析详情
- 文本分类实战----数据处理篇----embeddings与vocab中词汇不相覆盖问题的处理办法
- 隐私计算加密技术基础系列-Diffie–Hellman key exchange