Hadoop之倒排索引
前言:
从IT跨度到DT,如今的数据每天都在海量的增长。面对如此巨大的数据,如何能让搜索引擎更好的工作呢?本文作为Hadoop系列的第二篇,将介绍分布式情况下搜索引擎的基础实现,即“倒排索引”。
1.问题描述
将所有不同文件里面的关键词进行存储,并实现快速检索。下面假设有3个文件的数据如下:
file1.txt:MapReduce is simple file2.txt:mapReduce is powerful is simple file3.txt:Hello MapReduce bye MapReduce
最终应生成如下索引结果:
Hello file3.txt:1 MapReduce file3.txt:2;file2.txt:1;file1.txt:1 bye file3.txt:1 is file2.txt:2;file1.txt:1 powerful file2.txt:1 simple file2.txt:1;file1.txt:1
--------------------------------------------------------
2.设计
首先,我们对读入的数据利用Map操作进行预处理,如图1:
对比之前的单词计数(WorldCount.java),要实现倒排索引单靠Map和Reduce操作明显无法完成,因此中间我们加入'Combine',即合并操作;具体如图2:
--------------------------------------------------------------
3.代码实现
1 package pro; 2 3 import java.io.IOException; 4 import java.util.StringTokenizer; 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.Path; 7 import org.apache.hadoop.io.IntWritable; 8 import org.apache.hadoop.io.Text; 9 import org.apache.hadoop.mapreduce.Job; 10 import org.apache.hadoop.mapreduce.Mapper; 11 import org.apache.hadoop.mapreduce.Reducer; 12 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 13 import org.apache.hadoop.mapreduce.lib.input.FileSplit; 14 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 15 import org.apache.hadoop.util.GenericOptionsParser; 16 17 public class InvertedIndex { 18 final static String INPUT_PATH = "hdfs://hadoop0:9000/index_in"; 19 final static String OUTPUT_PATH = "hdfs://hadoop0:9000/index_out"; 20 21 public static class Map extends Mapper<Object, Text, Text, Text> { 22 23 private Text keyInfo = new Text(); // 存储单词和URL组合 24 private Text valueInfo = new Text(); // 存储词频 25 private FileSplit split; // 存储Split对象 26 27 // 实现map函数 28 public void map(Object key, Text value, Context context) 29 throws IOException, InterruptedException { 30 // 获得<key,value>对所属的FileSplit对象 31 split = (FileSplit) context.getInputSplit(); 32 StringTokenizer itr = new StringTokenizer(value.toString()); 33 while (itr.hasMoreTokens()) { 34 35 // 只获取文件的名称。 36 int splitIndex = split.getPath().toString().indexOf("file"); 37 keyInfo.set(itr.nextToken() + ":" 38 + split.getPath().toString().substring(splitIndex)); 39 // 词频初始化为1 40 valueInfo.set("1"); 41 context.write(keyInfo, valueInfo); 42 } 43 } 44 } 45 46 public static class Combine extends Reducer<Text, Text, Text, Text> { 47 private Text info = new Text(); 48 49 // 实现reduce函数 50 public void reduce(Text key, Iterable<Text> values, Context context) 51 throws IOException, InterruptedException { 52 // 统计词频 53 int sum = 0; 54 for (Text value : values) { 55 sum += Integer.parseInt(value.toString()); 56 } 57 58 int splitIndex = key.toString().indexOf(":"); 59 // 重新设置value值由URL和词频组成 60 info.set(key.toString().substring(splitIndex + 1) + ":" + sum); 61 // 重新设置key值为单词 62 key.set(key.toString().substring(0, splitIndex)); 63 context.write(key, info); 64 } 65 } 66 67 public static class Reduce extends Reducer<Text, Text, Text, Text> { 68 private Text result = new Text(); 69 70 // 实现reduce函数 71 public void reduce(Text key, Iterable<Text> values, Context context) 72 throws IOException, InterruptedException { 73 // 生成文档列表 74 String fileList = new String(); 75 for (Text value : values) { 76 fileList += value.toString() + ";"; 77 } 78 result.set(fileList); 79 80 context.write(key, result); 81 } 82 } 83 84 public static void main(String[] args) throws Exception { 85 86 Configuration conf = new Configuration(); 87 88 Job job = new Job(conf, "Inverted Index"); 89 job.setJarByClass(InvertedIndex.class); 90 91 // 设置Map、Combine和Reduce处理类 92 job.setMapperClass(Map.class); 93 job.setCombinerClass(Combine.class); 94 job.setReducerClass(Reduce.class); 95 96 // 设置Map输出类型 97 job.setMapOutputKeyClass(Text.class); 98 job.setMapOutputValueClass(Text.class); 99 100 // 设置Reduce输出类型 101 job.setOutputKeyClass(Text.class); 102 job.setOutputValueClass(Text.class); 103 104 // 设置输入和输出目录 105 FileInputFormat.addInputPath(job, new Path(INPUT_PATH)); 106 FileOutputFormat.setOutputPath(job, new Path(OUTPUT_PATH)); 107 System.exit(job.waitForCompletion(true) ? 0 : 1); 108 } 109 }
4.测试结果
Hello file3.txt:1; MapReduce file3.txt:2;file1.txt:1;file2.txt:1; bye file3.txt:1; is file1.txt:1;file2.txt:2; powerful file2.txt:1; simple file2.txt:1;file1.txt:1;
Reference:
[1]Hadoop权威指南【A】Tom Wbite
[2]深入云计算·Hadoop应用开发实战详解【A】万川梅 谢正兰
--------------
结语:
从上面的Map---> Combine ----> Reduce操作过程中,我们可以体会到“倒排索引”的过程其实也就是不断组合并拆分字符串的过程,而这也就是Hadoop中MapReduce并行计算的体现。在现今的大部分企业当中,Hadoop主要应用之一就是针对日志进行处理,所以想进军大数据领域的朋友,对于Hadoop的Map/Reduce实现原理可以通过更多的实战操作加深理解。本文仅仅只是牛刀小试,对于Hadoop的深层应用本人也正在慢慢摸索~~
转载于:https://www.cnblogs.com/SeaSky0606/p/4820786.html
Hadoop之倒排索引相关推荐
- hadoop学习-倒排索引
倒排索引是文档搜索系统中常用的数据结构.它主要用来存储某个词组在一个或多个文档中的位置映射.通常情况下,倒排索引由词组以及相关的文档列表组成.如下表所示. 表1: 单词 文档列表 单词1 文 ...
- Hadoop 之 MapReduce 的工作原理及其倒排索引的建立
一.Hadoop 简介 下面先从一张图理解MapReduce得整个工作原理 下面对上面出现的一些名词进行介绍 ResourceManager:是YARN资源控制框架的中心模块,负责集群中所有的资源的统 ...
- lucene 增量 全量 更新索引_搜索引擎:该如何设计你的倒排索引?
搜索引擎如何工作? 信息检索已经发展的非常成熟了,应该所有人都不陌生.我有幸这几年接触过并且实际做过一些搜索引擎开发的工作,特此总结并分享给大家.实际上,一个成熟的搜索引擎是想当复杂的,比如百度的,就 ...
- 【Hadoop基础教程】7、Hadoop之一对一关联查询
我们都知道一个产品唯一对应一个单价,本案例将通过两种类型输入文件:product类(产品)和price类(价格)进行一对一的关联查询,得到产品名(例如:手表)与产品价格(例如:$100)的关联信息. ...
- java_大数据_Hadoop_yarn_hive_sqoop
文章目录 01_Hadoop集群搭建 1.什么是hadoop 1.1 hadoop中有3个核心模块: 2.HDFS整体运作机制 3.搭建HDFS分布式集群 3.1.需要准备多台Linux服务器 3.2 ...
- Hadoop学习笔记(8) ——实战 做个倒排索引
Hadoop学习笔记(8) --实战 做个倒排索引 倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如 ...
- Hadoop入门(十八)Mapreduce的倒排索引程序
一.简介 "倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎.它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来 ...
- Hadoop 倒排索引
倒排索引是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎.它主要是用来存储某个单词(或词组)在一个文档或一组文档中存储位置的映射,即提供了一种根据内容来查找文档的方式.由于不是根据文档来确 ...
- Hadoop实战-MR倒排索引(三)
场景描述 通过切入具体示例代码,解决问题,从而积累 Hadoop 实战经验. 倒排索引,源于实际应用中需要根据属性的值来查找记录,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表. 实验数据 ...
- 倒排索引原理_拜托,面试请不要再问我分布式搜索引擎的架构原理!
欢迎关注头条号:石杉的架构笔记 周一至周五早八点半!精品技术文章准时送上!!! 精品学习资料获取通道,参见文末 目录 (1)倒排索引到底是啥? (2)什么叫分布式搜索引擎? (3)ElasticSea ...
最新文章
- 用Python读取整个文件
- Visual Studio 2013开发 mini-filter driver step by step (4) - 获取文件名
- ​你真正了解使用过的数据集吗?数据集有什么关系?数据集之间有多像?
- activity7 拖不动_Activiti7相关问题汇总
- linux网络编程之posix 线程(三):posix 匿名信号量与互斥锁 示例生产者--消费者问题
- Investigating Div-Sum Property【数位DP】
- 如果你也在学python,准备要学习python,希望这篇文章对你有用。
- 实践案例丨GaussDB网络重传/丢包问题定位总结
- Redis08-事件
- Datawhale编程学习之栈和队列(2)
- 【渝粤教育】国家开放大学2018年秋季 1374T班级管理 参考试题
- 【工具分享】分享一个移动端网络诊断工具(适用于安卓平台)
- linux c如何判断字符串是否为空
- zip 的ZipEntry转换为InputStream
- 大数据应用之啤酒尿布
- 洛谷P5520 [yLOI2019] 青原樱 题解
- PLC PID控制优化系列之积分分离、变积分系数(FC)
- 白化病最新研究进展(2021年9月)
- 方韦——鸦滩的小方韦
- 上传文件Uploading Files
热门文章
- 如何在CentOS/RedHat下实现根据源码包创建rpm包
- 移动开发者的未来在哪里?
- beego使用php,使用GO语言Beego框架开发一个简易留言板
- 一致性hash算法_一致性 Hash 算法的实际应用
- 无可用源 没有为任何调用堆栈加载任何符号_看完这篇后,别再说你不懂JVM类加载机制了~...
- MySQL数据库操作(3)表结构操作
- AngularJs自定义指令的详解
- C#-WinForm-ListView-表格式展示数据、如何将数据库中的数据展示到ListView中、如何对选中的项进行修改...
- 用递归的方法,判断某个字符串是否为回文
- 一个支持CGI的极简WebServer