hadoop学习-倒排索引
倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下,倒排索引由词组以及相关的文档列表组成。如下表所示。
表1:
单词 文档列表
单词1 | 文档1 | 文档2 | 文档3 |
单词2 | 文档2 | 文档4 | 文档5 |
单词3 | 文档3 | 文档5 | 文档6 |
倒排索引
从表1可以看出单词1出现在{文档1,文档2,文档3},单词2出现在{文档2,文档4,文档5},单词3出现在{文档3,文档5,文档6}。
实际使用中还需要给文档添加一个权值,用来表示该词组与文档的相关性。如表2所示。
表2:
单词 文档列表
<
单词1 | 文档1 | 权 | 文档2 | 权 | 文档3 | 权 |
hadoop学习-倒排索引相关推荐
- Hadoop学习笔记(8) ——实战 做个倒排索引
Hadoop学习笔记(8) --实战 做个倒排索引 倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如 ...
- 大数据之Hadoop学习——动手实战学习MapReduce编程实例
文章目录 一.MapReduce理论基础 二.Hadoop.Spark学习路线及资源收纳 三.MapReduce编程实例 1.自定义对象序列化 需求分析 报错:Exception in thread ...
- Hadoop学习笔记一 简要介绍
Hadoop学习笔记一 简要介绍 这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...
- 我的hadoop学习之路
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上. Ha ...
- Hadoop学习笔记(1) ——菜鸟入门
Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户能够在不了解分布式底层细节的情况下.开发分布式 ...
- Hadoop学习笔记(1)
原文:http://www.cnblogs.com/zjfstudio/p/3859704.html Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分 ...
- Hadoop学习笔记—18.Sqoop框架学习
Hadoop学习笔记-18.Sqoop框架学习 一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据 ...
- [Hadoop] Hadoop学习历程 [持续更新中…]
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...
- Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序
网友分享,拿来共享一下 这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序. 新说明一下我的开发环境: 操作系统:在windows下使用wub ...
最新文章
- 开发可以复用的构件和利用可以复用的构件进行开发
- 同一个页面多个按钮,根据按钮名字执行相应功能
- Citrix Provisioning Services:Windows 10 VDA计算机的登录性
- 主板螺丝是机箱配还是主板配_要配新电脑,A520主板和B450主板哪一个更加值得购买?...
- facenet训练自己的数据_①如何帮助自己简易分析体测数据②没有私教一个人无法开始训练?...
- 数学学得好是一种怎样的体验?
- Java类类getPackage()方法及示例
- golang笔记——数据类型
- #CSP 201912-2 回收站选址(C语言)(100分)
- linux学习笔记:如何更改文件属性?
- 网络营销之怎样推广博客
- linux 0.11根文件系统,构建一个最小Linux根文件系统
- 【SpringCloud实战】一次开发中使用Feign添加动态Header问题思考
- 南阳理工ACM之房间安排
- NiFi+Kylo安装部署
- 7-112 约分最简分式
- android音乐搜索功能实现,撸个应用学Android——空灵音乐本地音乐版
- 常见搜索算法(二):二分查找
- 伦敦国王学院计算机申请要求,伦敦大学国王学院计算机科学与管理本科申请条件.pdf...
- iOS-Mac下安装CocoaPods
热门文章
- 来自 IsayNo (@IsayNooo) 的推文
- 陶哲轩实分析习题17.1.2
- 递归上传文件和文件夹至SharePoint
- 讲解Linux服务器被黑解决方法
- 内存的静态分配和动态分配的区别【转】 静态分配内存与动态分配内存的区别
- 循环冗余码CRC使用matlab实现
- Android中的网格布局
- 包python_Python 包:
- mysql 5.5 5.6 主从_mysql5.6+主从集的版本号(mysql5.5主机和从机载带后,5.5在设置有一定的差距)...
- 树莓派:树莓派的刷机和登录,以及更新新版vim方便使用