倒排索引是文档搜索系统中常用的数据结构。它主要用来存储某个词组在一个或多个文档中的位置映射。通常情况下,倒排索引由词组以及相关的文档列表组成。如下表所示。

表1:

单词      文档列表

单词1 文档1 文档2 文档3
单词2 文档2 文档4 文档5
单词3 文档3 文档5 文档6

倒排索引

从表1可以看出单词1出现在{文档1,文档2,文档3},单词2出现在{文档2,文档4,文档5},单词3出现在{文档3,文档5,文档6}。

实际使用中还需要给文档添加一个权值,用来表示该词组与文档的相关性。如表2所示。

表2:

单词     文档列表

<

单词1 文档1 文档2 文档3

hadoop学习-倒排索引相关推荐

  1. Hadoop学习笔记(8) ——实战 做个倒排索引

    Hadoop学习笔记(8) --实战 做个倒排索引 倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如 ...

  2. 大数据之Hadoop学习——动手实战学习MapReduce编程实例

    文章目录 一.MapReduce理论基础 二.Hadoop.Spark学习路线及资源收纳 三.MapReduce编程实例 1.自定义对象序列化 需求分析 报错:Exception in thread ...

  3. Hadoop学习笔记一 简要介绍

    Hadoop学习笔记一 简要介绍 这里先大致介绍一下Hadoop.     本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一 ...

  4. 我的hadoop学习之路

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上. Ha ...

  5. Hadoop学习笔记(1) ——菜鸟入门

     Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户能够在不了解分布式底层细节的情况下.开发分布式 ...

  6. Hadoop学习笔记(1)

    原文:http://www.cnblogs.com/zjfstudio/p/3859704.html Hadoop学习笔记(1) --菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分 ...

  7. Hadoop学习笔记—18.Sqoop框架学习

    Hadoop学习笔记-18.Sqoop框架学习 一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据 ...

  8. [Hadoop] Hadoop学习历程 [持续更新中…]

    1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成 ...

  9. Hadoop学习全程记录——在Eclipse中运行第一个MapReduce程序

    网友分享,拿来共享一下 这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序. 新说明一下我的开发环境: 操作系统:在windows下使用wub ...

最新文章

  1. 开发可以复用的构件和利用可以复用的构件进行开发
  2. 同一个页面多个按钮,根据按钮名字执行相应功能
  3. Citrix Provisioning Services:Windows 10 VDA计算机的登录性
  4. 主板螺丝是机箱配还是主板配_要配新电脑,A520主板和B450主板哪一个更加值得购买?...
  5. facenet训练自己的数据_①如何帮助自己简易分析体测数据②没有私教一个人无法开始训练?...
  6. 数学学得好是一种怎样的体验?
  7. Java类类getPackage()方法及示例
  8. golang笔记——数据类型
  9. #CSP 201912-2 回收站选址(C语言)(100分)
  10. linux学习笔记:如何更改文件属性?
  11. 网络营销之怎样推广博客
  12. linux 0.11根文件系统,构建一个最小Linux根文件系统
  13. 【SpringCloud实战】一次开发中使用Feign添加动态Header问题思考
  14. 南阳理工ACM之房间安排
  15. NiFi+Kylo安装部署
  16. 7-112 约分最简分式
  17. android音乐搜索功能实现,撸个应用学Android——空灵音乐本地音乐版
  18. 常见搜索算法(二):二分查找
  19. 伦敦国王学院计算机申请要求,伦敦大学国王学院计算机科学与管理本科申请条件.pdf...
  20. iOS-Mac下安装CocoaPods

热门文章

  1. 来自 IsayNo (@IsayNooo) 的推文
  2. 陶哲轩实分析习题17.1.2
  3. 递归上传文件和文件夹至SharePoint
  4. 讲解Linux服务器被黑解决方法
  5. 内存的静态分配和动态分配的区别【转】 静态分配内存与动态分配内存的区别
  6. 循环冗余码CRC使用matlab实现
  7. Android中的网格布局
  8. 包python_Python 包:
  9. mysql 5.5 5.6 主从_mysql5.6+主从集的版本号(mysql5.5主机和从机载带后,5.5在设置有一定的差距)...
  10. 树莓派:树莓派的刷机和登录,以及更新新版vim方便使用