hive中的一些参数

动态分区

设置如下参数开启动态分区：
hive.exec.dynamic.partition=true
默认值：false
描述：是否允许动态分区
hive.exec.dynamic.partition.mode=nonstrict
默认值：strict
描述：strict是避免全分区字段是动态的，必须有至少一个分区字段是指定有值的

设置如下参数配置动态分区的使用环境：
hive.exec.max.dynamic.partitions.pernode=100
默认值：100
描述：each mapper or reducer可以创建的最大动态分区数
hive.exec.max.dynamic.partitions=1000
默认值：1000
描述：一个DML操作可以创建的最大动态分区数
hive.exec.max.created.files=100000
默认值：100000
描述：一个DML操作可以创建的文件数

设置如下参数取消一些限制(HIVE 0.7后没有此限制)：
hive.merge.mapfiles=false
默认值：true
描述：是否合并Map的输出文件
hive.merge.mapredfiles=false
默认值：false
描述：是否合并Reduce的输出文件

文件类型

lzo文件类型
set mapred.output.compress=true;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec;

parquet文件类型
set mapred.output.compress=true;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

转载于:https://www.cnblogs.com/wujin/p/6076784.html

hive中的一些参数相关推荐

hive处理json数据_(转)hive中解析json数组
hive中解析一般的json是很容易的,get_json_object就可以了. 但如果字段是json数组,比如 [{"bssid":"6C:59:40:21:05:C4 ...
3.2-3.3 Hive中常见的数据压缩
一.数据压缩 1. 数据压缩数据量小*本地磁盘,IO*减少网络IOHadoop作业通常是IO绑定的; 压缩减少了跨网络传输的数据的大小; 通过简单地启用压缩,可以提高总体作业性能; 要压缩的数据必须支 ...
hive中如何读取数组_hive解析json嵌套数组
hive怎么统计json中某一项的内容 Hive提供json抽取函数get_json_object,根据json_path来获取你所抽取的项 get_json_object函数第一个参数填写json对 ...
hive中如何控制mapper的数量
参考文档:https://www.cnblogs.com/1130136248wlxk/articles/5352154.html 1. 决定map的数据的决定因素有: input的文件总个数,inp ...
061 hive中的三种join与数据倾斜
一:hive中的三种join 1.map join 应用场景:小表join大表一:设置mapjoin的方式: )如果有一张表是小表,小表将自动执行map join. 默认是true. <pro ...
hive（3）——在hive中使用自己写的函数（python实现）
如果我们想在hive中添加自己写的函数,可用如下方法: 前提:已经开启hdfs,yarn服务,并且关闭safe模式,打开mysql ps:udf是mapper类型的,进来一个数据,出去一个数据 (1) ...
Spark SQL来读取现有Hive中的数据
Spark SQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如Parquet.Hive.Json等). Spark SQL的其中一个分支就是Spa ...
Hive中JOIN的使用入门
Hive中join的用法 Hive中Join的通常使用有以下几种: inner join 等值连接 left join right join full join left semi join cr ...
hive中建立“按天分区“的外表+存储为ORC文件+指定元数据
CREATE EXTERNAL TABLE `example`(`axxsdf` string,`mydeailyTime` timestamp) PARTITIONED by (`datetime` ...

hive中的一些参数

hive中的一些参数相关推荐

最新文章

热门文章