目录

  • 1.FileInputFormat的实现类
  • 2.TextInputFormat
    • 2.1TextInputFormat实例
  • 3.KeyValueTextInputFormat
    • 3.1TextInputFormat实例
  • 4.NLineInputFormat
    • 4.1NLineInputFormat

1.FileInputFormat的实现类

FileInputFormat常见的接口实现类包括:TextInputformat,KeyValueTextInputFormat,NLineInputFormat,CombineTextInputFormat和自定义的InputFormat等;

2.TextInputFormat

TextInputFormat时默认的FileInputFormat实现类。按行读取每条记录。键是存储该行在整个文件的起始字节偏移量,LongWritable类型。值是这行的内容,不包括任何终止符(换行符和回车符),Text类型。

2.1TextInputFormat实例

3.KeyValueTextInputFormat

每一行均为一条记录,被分割符分割为key,value.可以通过在驱动类中设置conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATTOR,"\t");来设定分隔符。默认分隔符是tab(\t)。

3.1TextInputFormat实例

4.NLineInputFormat

使用NLineInputFormat,代表每个map进程处理的InputSplit不再按Block块去划分,而是按NLineInputFormat指定的行数来划分,即输入文件的总行数/N=切片数,如果不整除,切片数=商+1。

4.1NLineInputFormat

大数据之Hadoop(MapReduce):FileInputFormat实现类相关推荐

  1. 【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce

    文章目录 导学 大数据概述 初识Hadoop 概述 核心组件 HDFS分布式文件系统 资源调度系统YARN MapReduce 优势 发展史 生态系统 发行版本选择 企业应用案例 第3章 分布式文件系 ...

  2. 大数据之Hadoop学习——动手实战学习MapReduce编程实例

    文章目录 一.MapReduce理论基础 二.Hadoop.Spark学习路线及资源收纳 三.MapReduce编程实例 1.自定义对象序列化 需求分析 报错:Exception in thread ...

  3. 大数据技术之MapReduce

    大数据技术之MapReduce 目录 大数据技术之MapReduce 第 1 章 MapReduce 概述 1.1 MapReduce 定义 1.2 MapReduce 优缺点 1.2.1 优点 1. ...

  4. 大数据知识面试题-MapReduce和YARN(2022版)

    序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试 ...

  5. GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景

    目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...

  6. Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

    一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...

  7. 大数据与Hadoop有什么关系?大数据Hadoop入门简介

    学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...

  8. 大数据和Hadoop平台介绍

    大数据和Hadoop平台介绍 定义 大数据是指其大小和复杂性无法通过现有常用的工具软件,以合理的成本,在可接受的时限内对其进行捕获.管理和处理的数据集.这些困难包括数据的收入.存储.搜索.共享.分析和 ...

  9. 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...

最新文章

  1. 七夕|情人节情书指南
  2. XMLHttpRequest Level 2 使用指南
  3. 访问数组元素进行获取
  4. PMP之财务测量指标
  5. 前端学习(2668):删除功能
  6. 富士康海外工厂遭黑客攻击 被勒索1804枚比特币
  7. mba案例分析_2020年(第八届)MBA企业案例分析实践课程暨大赛完美收官!
  8. 机器学习之SVM多分类
  9. DWZ (JUI) 教程 dwz框架 刷新dialog解决方案
  10. 【数据库中间件】分布式组件 - ClusterDB-Client
  11. android游戏开发框架libgdx环境搭建
  12. PostSQL | Debug记录
  13. openlayers+vue水流图
  14. 软件测试需要学数学,数学软件测试有感
  15. uni-app 报错getUserProfile:fail can only be invoked by user TAP gesture.
  16. MySQL二维表转一维表
  17. ciscn_2019_c_1
  18. Java Maven项目文件红叉叉(The compiler compliance specified is 1.6 but a JRE 1.8 is used) java编译报错
  19. Oracle-ADG部署
  20. thinkPHP3.2.3使用过程中遇到的问题收集

热门文章

  1. hmm念什么_HMM解读
  2. php include path pear,安装PHP程序提示“include_path=.;c:/php5/pear”解决办法
  3. day018 mysql单表多表
  4. RAW264.7细胞的养技术攻略
  5. 【说明书】二甲基亚砜 DMSO (细胞级)
  6. excel报“不能使用对象链接和嵌入”的解决方法
  7. linux命令和shell语言的区别,shell脚本语言与linux命令的联系与区别
  8. PHP-大转盘礼包概率
  9. ExpandableListView简介
  10. 德邦快递 x 华为:总成本下降15%,暴力分拣减少50%,智慧物流再提速!