hive默认是只支持单字符的分隔符,默认单字符是\001。当然你也可以在创建表格时指定数据的分割符号。如:

create table user(name string, password string) row format delimited fields terminated by '\t'。

通过这种方式,完成分隔符的指定。

如果你想要支持多字符的分隔符可以通过如下方式:

1、自定义一个 InputFormat ,重写 InputFormat 中 RecordReader 类中的 next 方法.。当然这是输入的时候调用的,输出的时候也是可以设定不同的分隔符的。方法和输入一样,自定义一个OutputFormat,不过这里要注意的是:自定义的OutputFormat必须要实现HiveOutputFormat接口,重写 OutputFormat 中 RecordWriter 中的 write 方法,这里可以参考HiveIgnoreKeyTextOutputFormat类。Hive的InputFormat/OutputFormat与Hadoop 的InputFormat/OutputFormat相当类似,InputFormat负责把输入的数据进行格式化或转换处理,然后提供给Hive,OutputFormat 负责把 Hive输出的数据重新格式化成目标格式再输出到文件,这种对格式进行定制的方式较为底层。重写完成后打包成jar,放入到Hive目录的lib文件夹下面。

[java] view plaincopy
  1. public synchronized boolean next(LongWritable key, Text value)
  2. throws IOException {
  3. while (pos < end) {
  4. key.set(pos);
  5. int newSize = lineReader.readLine(value, maxLineLength,
  6. Math.max((int) Math.min(Integer.MAX_VALUE, end - pos), maxLineLength));
  7. if (newSize == 0)  return false;
  8. String str = value.toString().toLowerCase().replaceAll("::", ":");
  9. value.set(str);
  10. pos += newSize;
  11. if (newSize < maxLineLength)  return true;
  12. }
  13. return false;
  14. }
[java] view plaincopy
  1. @Override
  2. public void write(Writable r) throws IOException {
  3. if (r instanceof Text) {
  4. Text tr = (Text) r;
  5. String strReplace = tr.toString().toLowerCase().replace(":", "::");
  6. Text txtReplace = new Text();
  7. txtReplace.set(strReplace);
  8. outStream.write(txtReplace.getBytes(), 0, txtReplace.getLength());
  9. outStream.write(finalRowSeparator);
  10. } else {
  11. BytesWritable bw = (BytesWritable) r;
  12. outStream.write(bw.get(), 0, bw.getSize());
  13. outStream.write(finalRowSeparator);
  14. }
  15. }

需要重新进入shell模式,在创建表的时候如下操作:

[sql] view plaincopy
  1. create table user(username string,password string)
  2. row format delimited
  3. fields terminated by ':'
  4. stored as
  5. INPUTFORMAT 'org.platform.utils.bigdata.hive.CustomInputFormat'
  6. OUTPUTFORMAT 'org.platform.utils.bigdata.hive.CustomOutputFormat';

2、通过 SerDe(serialize/deserialize) ,在数据序列化和反序列化时格式化数据。 这种方式比较复杂一点,对数据的控制能力也要弱一些,它使用正则表达式来匹配和处理数据,性能也会有所影响。但它的优点是可以自定义表属性信息SERDEPROPERTIES,在 SerDe 中通过这些属性信息可以有更多的定制行为。参考示例:

[sql] view plaincopy
  1. create table user(username string,password string,nickname string)
  2. row format serde 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
  3. with serdeproperties (
  4. 'input.regex'='([^:]*)::([^:]*)::([^:]*)',
  5. 'output.format.string'='%1$s %2$s %3$3')
  6. stored as textfile;

Hive学习笔记-分隔符处理相关推荐

  1. 最全的Hive学习笔记

    最全的Hive学习笔记 1. 什么是hive 1.1. hive基本思想 1.2 为什么使用Hive 1.3. Hive的特点 2. hive的基本架构 3. hive安装 3.1. 最简安装:用内嵌 ...

  2. Hive学习笔记三之函数操作

    文章目录 5 函数 5.1 系统内置函数 5.2 常用内置函数 5.2.1 空字段赋值 5.2.2 CASE WHEN THEN ELSE END(类似于java中的switch case) 5.2. ...

  3. Hive学习笔记【全】

    Hive学习笔记[全] 文章目录 Hive学习笔记[全] 一.Hive简介 1.Hive是什么 2.Hive的架构 3.Hive的数据组织 二.Hive安装 1.环境需求 2.安装Hive 3.启动H ...

  4. Hive学习笔记(1)基本操作

    hive学习官方网站: General Info ============ For the latest information about Hive, please visit out websit ...

  5. Hive—学习笔记(一)

    主要内容: 1.Hive的基本工能机制和概念 2.hive的安装和基本使用 3.HQL 4.hive的脚本化运行使用方式 5.hive的基本语法--建表语法 6.hive的基本语法--内部表和外部表. ...

  6. Hive学习笔记总结

    Hive Hive定义 Hive优缺点 Hive架构 Hive和数据库的区别 Hive元数据包括哪些,存在哪里? Hive中的数据库 建表语句 内部表外部表区别 往表中添加数据的5种方式 往分区中添加 ...

  7. Hive学习笔记,你想知道的Hive

    1. 什么是Hive(蜂巢)? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能.Hive是基于HDFS之上的数据仓库,也就是说Hive中 ...

  8. hive学习笔记-数据操作

    hive数据操作 hive命令行操作 hive -d --define <key=value> 定义一个key-value可以在命令行中使用 hive -d database <da ...

  9. Hive学习笔记(4)—— hive练习

    1 数据 1.1 students.txt Sno,Sname,sex,Sage,Sdept 95001,李勇,男,20,CS 95002,刘晨,女,19,IS 95003,王敏,女,22,MA 95 ...

最新文章

  1. 阿里提出电商搜索全局排序方法,淘宝无线主搜GMV提升5%
  2. 来自星星的你,我要代表月亮消灭你一
  3. [密码学] Shannon保密系统的信息理论 熵与完美保密性
  4. 数据采集与清洗基础习题(二)Python爬虫常用模块,头歌参考答案
  5. 【前端规划】来看看我整理的这一份专属技术知识图谱吧~
  6. mysql 赋权笔记
  7. mysql 安装和修改编码(utf8mb4)
  8. php实现微信网页授权回调代理
  9. 用例设计思路 C/S测试—安装与卸载
  10. Yii Framework2.0开发教程(6)数据库mysql--ActiveRecord
  11. 安卓移动办公软件_安卓免费办公软件套装 速度快功能强大 WPS Office 12.6.4 解锁高级版特权...
  12. 公务员可以做哪些合法正规的兼职
  13. Linux截图gif,Ubuntu下截图与录制视频并作成gif图片
  14. 预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版
  15. 民生问题:房价,房贷,首付之间的暖昧关系(借首页一放,点醒一下各位兄弟)
  16. 后退N帧协议中发送窗口的尺寸大小
  17. jquery canvas网页画布画图
  18. 成都计算机应用研究所夏令营,北京师范大学环境学院2015年大学生暑期夏令营...
  19. 新唐NUC980使用记录:在用户应用中使用GPIO
  20. Word中单倍行间距是多少磅

热门文章

  1. 三体系是哪三体系的认证
  2. 解决servlet resp.getWriter().println(“xxx“)中文乱码问题
  3. esp32 micropython 蓝牙通信测试程序
  4. [国产PLC]耐特稳定PLC在多色印刷机械怎么运用
  5. 输入一个字符串,内有数字和非数字字符,例如 A123x456 17960? 302tab5876 将连续的数字作为一个整数,一次存放到一数组a中, 例如123存放在a[0]中,456放在a[1]中……
  6. 输入一个字符串,内有数字和非数字字符,例如:A123x456 17960? 302tab5876,将其中连续的数字作为一个整数,依次存放到一数组a中。例如,123放在a[0],456放在a[1]...
  7. Dreamweaver2021中文版 附安装教程
  8. 2017年(Lunar Year)读书与看剧
  9. 合并 Ijkplayer 和 ffmpeg-metadata-retriever
  10. 提交bug的书写规范