北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(4)
以下是根据正向索引建立倒排索引的注释
- int main(int argc, char* argv[]) //./CrtInvertedIdx moon.fidx.sort > sun.iidx
- {
- ifstream ifsImgInfo(argv[1]);
- if (!ifsImgInfo)
- {
- cerr << "Cannot open " << argv[1] << " for input/n";
- return -1;
- }
- string strLine,strDocNum,tmp1="";
- int cnt = 0;
- while (getline(ifsImgInfo, strLine))
- {
- string::size_type idx;
- string tmp;
- idx = strLine.find("/t");
- tmp = strLine.substr(0,idx);
- if (tmp.size()<2 || tmp.size() > 8) continue;
- if (tmp1.empty()) tmp1=tmp;
- if (tmp == tmp1)
- {
- strDocNum = strDocNum + " " + strLine.substr(idx+1);
- }
- else
- {
- if ( strDocNum.empty() )
- strDocNum = strDocNum + " " + strLine.substr(idx+1);
- cout << tmp1 << "/t" << strDocNum << endl;
- tmp1 = tmp;
- strDocNum.clear();
- strDocNum = strDocNum + " " + strLine.substr(idx+1);
- }
- cnt++;
- //if (cnt==100) break;
- }
- cout << tmp1 << "/t" << strDocNum << endl; //倒排索引中每个字典单词后的文档编号以table键为间隔
- return 0;
- }
北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(4)相关推荐
- 北大天网搜索引擎TSE分析及完全注释[6]倒排索引的建立的程序分析(2)
面的DocIndex程序输入一个Tianwang.raw.*****文件,会产生一下三个文件 Doc.idx, Url.idx, DocId2Url.idx,我们这里对DocSegment程序进行分析 ...
- 北大天网搜索引擎TSE分析及完全注释[3]来到关键字分词及相关性分析程序
有前面注释我们可以知道查询关键字和字典文件准备好好后,将进入用户关键字分词阶段 //TSESearch.cpp中: view plaincopy to clipboardprint? CHzSeg i ...
- firefox 1.0中添加自定义搜索引擎——北大天网搜索引擎
下面的文件按照<Mozilla Firefox>/searchplugins下面的文件名格式保存,并编辑同名(不包括后缀.src)png文件保存到该目录下即可. 这是添加北大天网的FTP搜 ...
- 【翻译】Tricorder-谷歌如何建立程序分析的生态系统
I. 介绍II. 背景A. 开发流程B. 谷歌的程序分析III. 谷歌程序分析理念A. 0误报率B. 授权用户做出贡献C. 改进数据驱动的可用性D. 工作流集成是关键E. 项目级别定制,而不是用户定制 ...
- 软件 2.0 时代的程序分析
作者 | 张昕 整理 | 晴天 作者经历: 2020.9 – 现在,北京大学计算机系助理教授 2017.9 – 2020.8,美国麻省理工学院计算机与人工智能实验室博士后 2017,博士,美国佐治亚理 ...
- 静态程序分析chapter1 - 概述和两个重要步骤
文章目录 前言 Static Analysis Rice's Theorem Sound & Complete Sound 示例 小结 抽象和过近似(Abstraction + Over-ap ...
- 蜘蛛搜索引擎_「SEO工具」如何利用爱站工具去分析各搜索引擎蜘蛛情况?
想做好网站的SEO优化我们更多的是要做好SEO数据的监测和分析,市面上有很多分析工具,也有一些有条件的SEO技术公司会自己去开发一些SEO分析软件来进行辅助SEO优化,虽然很多人有用过爱站工具去分析搜 ...
- cellassign:用于肿瘤微环境分析的单细胞注释工具(9月Nature)
作者:苑晓梅 责编:SXY 单细胞测序对许多复杂组织重新进行分解分析,打破了我们对细胞类型的固有认知.通常情况下,研究人员首先通过无监督聚类,获得细胞簇,然后根据Marker基因手动注释每个簇可能的细 ...
- 单细胞分析实录(7): 差异表达分析/细胞类型注释
前面已经讲解了: 单细胞分析实录(1): 认识Cell Hashing 单细胞分析实录(2): 使用Cell Ranger得到表达矩阵 单细胞分析实录(3): Cell Hashing数据拆分 单细胞 ...
最新文章
- 深度学习与TensorFlow
- 【风控建模】互联网金融-机器学习及评分卡构建
- 简单的五子棋操作用两种方法实现
- UOJ#84-[UR #7]水题走四方【dp】
- native react 变颜色 点击_在React Native中按下更改按钮样式(Change button style on press in React Native)...
- 重载与覆盖(java)
- big sur 黑苹果_苹果宣布11日再开发布会!自研芯片届时或将发布!
- “死”法不重样,一根数据线如何从“机器伴侣”变身电脑杀手?...
- mfc如何对便签页添加颜色_巧用便签功能,pdfFactory为文档添加备忘事项
- Vue学习笔记(组件篇)
- 数据挖掘:原理与实践(基础篇)(进阶篇)
- echarts 生成 迁徙图_百度地图+echarts(迁徙图)
- 任正非,“血洗”华为
- shift用计算机,shift是什么意思_shift键有什么用? - 学无忧
- java fact函数_Fact 定义一个类Fact表示无符号有理数(分数) 联合开发网 - pudn.com...
- LVGL lv_msgbox消息对话框(22)
- 网络安全之密码安全基础
- 强力推荐—20款免费备份文件软件
- PTA 7-47 打印选课学生名单分数 25 分 (C 邻接表+二叉排序树 )
- 算法(9)汉诺塔图解及其代码实现