动态分区

设置如下参数开启动态分区:
hive.exec.dynamic.partition=true
默认值:false
描述:是否允许动态分区
hive.exec.dynamic.partition.mode=nonstrict
默认值:strict
描述:strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的

设置如下参数配置动态分区的使用环境:
hive.exec.max.dynamic.partitions.pernode=100
默认值:100
描述:each mapper or reducer可以创建的最大动态分区数
hive.exec.max.dynamic.partitions=1000
默认值:1000
描述:一个DML操作可以创建的最大动态分区数
hive.exec.max.created.files=100000
默认值:100000
描述:一个DML操作可以创建的文件数

设置如下参数取消一些限制(HIVE 0.7后没有此限制):
hive.merge.mapfiles=false
默认值:true
描述:是否合并Map的输出文件
hive.merge.mapredfiles=false
默认值:false
描述:是否合并Reduce的输出文件

文件类型

lzo文件类型
set mapred.output.compress=true;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;

parquet文件类型
set mapred.output.compress=true;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

转载于:https://www.cnblogs.com/wujin/p/6076784.html

hive中的一些参数相关推荐

  1. hive处理json数据_(转)hive中解析json数组

    hive中解析一般的json是很容易的,get_json_object就可以了. 但如果字段是json数组,比如 [{"bssid":"6C:59:40:21:05:C4 ...

  2. 3.2-3.3 Hive中常见的数据压缩

    一.数据压缩 1. 数据压缩数据量小*本地磁盘,IO*减少网络IOHadoop作业通常是IO绑定的; 压缩减少了跨网络传输的数据的大小; 通过简单地启用压缩,可以提高总体作业性能; 要压缩的数据必须支 ...

  3. hive中如何读取数组_hive解析json嵌套数组

    hive怎么统计json中某一项的内容 Hive提供json抽取函数get_json_object,根据json_path来获取你所抽取的项 get_json_object函数第一个参数填写json对 ...

  4. hive中如何控制mapper的数量

    参考文档:https://www.cnblogs.com/1130136248wlxk/articles/5352154.html 1. 决定map的数据的决定因素有: input的文件总个数,inp ...

  5. 061 hive中的三种join与数据倾斜

    一:hive中的三种join 1.map join 应用场景:小表join大表 一:设置mapjoin的方式: )如果有一张表是小表,小表将自动执行map join. 默认是true. <pro ...

  6. hive(3)——在hive中使用自己写的函数(python实现)

    如果我们想在hive中添加自己写的函数,可用如下方法: 前提:已经开启hdfs,yarn服务,并且关闭safe模式,打开mysql ps:udf是mapper类型的,进来一个数据,出去一个数据 (1) ...

  7. Spark SQL来读取现有Hive中的数据

    Spark SQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如Parquet.Hive.Json等). Spark SQL的其中一个分支就是Spa ...

  8. Hive中JOIN的使用入门

    Hive中join的用法 Hive中Join的通常使用有以下几种: inner join 等值连接 left join  right join  full join left semi join cr ...

  9. hive中建立“按天分区“的外表+存储为ORC文件+指定元数据

    CREATE EXTERNAL TABLE `example`(`axxsdf` string,`mydeailyTime` timestamp) PARTITIONED by (`datetime` ...

最新文章

  1. ACM之【文件操作】
  2. Amazon Redshift数据库
  3. 30分钟时长千行代码《C#程序设计基础》经典程序,C#菜鸟开发必备!
  4. minicom/picocom/cutecom/putty 安装与使用教程
  5. Python操作Redis:键(Key)
  6. 如何写出高质量的shell脚本---------值得注意的地方
  7. linux 韦恩图两个,如何使用R来绘制韦恩图(Venn Diagram)
  8. 多线程往文件里写数据
  9. 从数据黑盒到数据白盒,阿里云基础产品首席架构师黄瑞瑞分享背后的故事
  10. linux编程基础系统,Linux编程基础
  11. 单片机备用电池供电电路_单片机usb供电电路原理图详解
  12. 李沐-斯坦福《实用机器学习》-02章
  13. 哈工大计算机专业复试科目,哈工大 计算机科学与技术学院复试科目.doc
  14. 【Linux杂篇】Windows远程登陆Linux、Linux静态IP配置
  15. Android 简单音乐播放器开发
  16. VC编译DLL时,如何不依赖VC运行库
  17. postgresql安装所需函数插件(比如加密函数hamc()函数使用)
  18. Mysql唯一索引 唯一约束
  19. echart地图双击放大
  20. LTE学习-RACH(1)

热门文章

  1. python编程神器下载_Python编程神器 -程序员必备开发手册
  2. matlab 填充数组,Matlab自动将数组类型从复数转换为double
  3. 【Apache】 alias+proxy 将资源路径指向某个本地目录
  4. c语言 元组顺序随机化,为什么关系中的元组没有先后顺序且不允许有重复元组?...
  5. python猴子吃桃子的问题_Python基础知识初入门
  6. 最优化方法外罚函数法Matlab,最优化方法 第三篇(罚函数法).pdf
  7. dederss.php美国与,Dede经验:全站rss/连载和分类首页模板替换
  8. postman调用webservice接口_【分享】关于接口对前后端和测试的意义
  9. python中str用法_python中的str()不能直接用吗 -问答-阿里云开发者社区-阿里云
  10. Apache Flink 零基础入门(二十)Flink部署与作业的提交