Hive Shell
目录
hive是否执行mr
创建数据库指定目录
删除数据库
显示表信息/表结构
查看表示内部表还是外部表
拷贝一张已经存在的表的表模式(而无需拷贝数据)
复制一张表(包括数据)
hive-cli 显示当前所在数据库
执行命令不进入hive交互模式
hive关联hbase表
创建外部表
查询数据保存到linux系统
创建内部表
创建parquet格式snappy压缩表
外部执行
清空表中所有行数据
导入数据
1.将文件放入表目录下
2.导入本地文件直接导入表中
3.导入hdfs上数据到表中
4.从别的表中查询插入相应的表
5.在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中
UDF
Hive执行引擎设置
Hive指定yarn队列
多表插入
Hive手动创建目录导入数据,表刷新partition
hive是否执行mr
简单的查询,就是只是select,不带count,sum,group by这样的,都不走map/reduce,直接读取hdfs文件进行filter过滤。这样做的好处就是不新开mr任务,执行效率要提高不少,但是不好的地方就是用户界面不友好,有时候数据量大还是要等很长时间,但是又没有任何返回。
改这个很简单,在hive-site.xml里面有个配置参数叫
hive.fetch.task.conversion
将这个参数设置为more,简单查询就不走map/reduce了,设置为minimal,就任何简单select都会走map/reduce
创建数据库指定目录
hive> CREATE DATABASE financials> LOCATION '/my/preferred/directory'> COMMENT 'Holds all financial tables'
删除数据库
hive> DROP DATABASE IF EXISTS financialsIF EXISTS子句是可选的,如果加了这个子句,就可以避免因数据库finanacials不存在而抛出警告信息默认情况下,Hive是不允许用户删除一个包含有表的数据库的。用户要么先删除数据库中的表,然后再删除数据库;要么在删除命令的最后面加上关键字CASCADE,这样可以使Hive自行先删除数据库中的表:hive> DROP DATABASE IF EXISTS financials CASCADE
显示表信息/表结构
hive > DESCRIBE FORMATTED mydb.tableNameFORMATTED 详细表结构
查看表示内部表还是外部表
hive> DESCRIBE extended crawler_hive2;
内部表: tableType:MANAGED_TABLE
外部表:ableType:EXTERNAL_TABLE
拷贝一张已经存在的表的表模式(而无需拷贝数据)
CREATE TABLE IF NOT EXISTS mydb.employees2
LIKE mydb.employees
LOCATION 'xxxx/xxx/xxx'
复制一张表(包括数据)
create table t_copy as select * from t_temp;
hive-cli 显示当前所在数据库
hive> set hive.cli.print.current.db=true;
hive (ods_database)>取消显示
set hive.cli.print.current.db=false;
执行命令不进入hive交互模式
hive -e "SQL" 执行单条语句
hive -f /home/root/insert.sql 执行sql文件,适合多条语句
hive关联hbase表
hive集成hbase:
hive 0.13版本 hbase1.2.5版本无法创建hive创建内部表关联,提示找不到方法,hive更新到2.1.1版本就可以了
- hive创建外部表关联(可以关联hbase已有的表)
CREATE EXTERNAL TABLE hive_high_keyword(key string, keyword string, adCode string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ( "hbase.columns.mapping"=":key,fn:keyword,fn:adCode" )TBLPROPERTIES("hbase.table.name" = "crawl:high_keyword");
- hive创建内部表关联(只能关联hbase中没有的表,删除hive表后hbase表也会删除,并且通过hive创建hbase的内部表,存储数据仍然存在hbse中)
CREATE TABLE biz0728(key string, name string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ( "hbase.columns.mapping"=":key,fn:name" )
TBLPROPERTIES("hbase.table.name" = "biz0728");
创建外部表
create EXTERNAL TABLE u_info
(usrid STRING,age STRING,sex STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n';
查询数据保存到linux系统
insert overwrite local directory '/home/xxx/xxx' select * from tableName;
创建内部表
create TABLE u_info
(usrid STRING,age STRING,sex STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n';
创建parquet格式snappy压缩表
CREATE EXTERNAL TABLE IF NOT EXISTS tableName(xxx string)
partitioned by
(pt_xvc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');
外部执行
hive -f xxx.sql
清空表中所有行数据
truncate table tablename;
导入数据
1.将文件放入表目录下
- 表创建时会指定列分隔符(默认'\t')和行分隔符(默认'\n')
- 将数据以指定形式放入,hive在hdfs存储目录下
测试导入数据如下(a.txt里内容):
user1 27 1
user2 28 1
user3 29 0
user4 30 1
user5 31 0
user6 32 1
user7 33 1
user8 34 0
我 是 测试
外 部 表
- 步骤:
- 用上面创建表命令创建一个内部或者外部表
- 将a.txt里的内容导入到hdfs该表的目录下
- select * from u_info;即可查询到数据
- 如果有两个txt,查询时会合并到一起
2.导入本地文件直接导入表中
测试导入数据a.txt
load data local inpath 'a.txt' into table u_info;
- a.txt,文件路径默认是用户的根目录,如root用户,读取目录为/home/root/a.txt
- 推荐写绝对路径
load data local inpath '/home/root/a.txt' into table u_info;
- 在hive中可以直接查看hdfs上的数据,使用命令:
dfs -ls /user/hive/warehouse/xxx ;
3.导入hdfs上数据到表中
测试导入数据a.txt
load data inpath '/a.txt' into table u_info;
- 与2中的区别是少了一个 local
4.从别的表中查询插入相应的表
- 创建表 test 并且以age进行分区
create table testc(
id int, name string
,tel string,sdf string)
partitioned by
(age int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
- 查询另一个表的数据并且插入到test表
insert into table test
partition (age='25')
select id, name, tel
from wyp;
这里做一下说明: 我们知道我们传统数据块的形式insert into table values(字段1,字段2),这种形式hive是不支持的。
- 我们也可以在select语句里面通过使用分区值来动态指明分区:
set hive.exec.dynamic.partition.mode=nonstrict;
insert into table test
partition (age)
select id, name,
tel, age
from wyp;// partition (age),指定创建表时候的列
// partition跟select 中查询的列名无关,对应select查询最后一个列为test表中的age做partition(describe tablename 可以查看partition在哪个位置)
这种方法叫做动态分区插入,但是Hive中默认是关闭的,所以在使用前需要先把hive.exec.dynamic.partition.mode设置为nonstrict
5.在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中
- 在实际情况中,表的输出结果可能太多,不适于显示在控制台上,这时候,将Hive的查询输出结果直接存在一个新的表中是非常方便的,我们称这种情况为CTAS(create table .. as select)如下:
create table test4
as
select id, name, tel
from wyp;
UDF
- UDFClass
public class Uppercase extends UDF
{
//参数列表可以使用多个参数public Text evaluate(Text s1){String retsult=s1.toString().toUpperCase();return new Text(retsult);}
}
maven引用
<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.7.1</version></dependency><dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>1.2.1</version></dependency>
- 在hive交互界面输入
//添加自己写入的jar包到hive中
add jar /home/root/udf.jar;
// 将自己写的类创建为函数,函数名为mytest
create temporary function mytest as 'com.xxx.hive.udf.Uppercase';
//查看所有可用函数,会发现自己刚刚添加的函数
show functions;
//使用udf函数查询
select mytest(u_info.age) from u_info;
- 使用函数查询后结果
704512 BJ-华龙达 北京市华龙达商贸公司
2457600 NNZQD 南宁市百花谷文化传播有限公司
21889024 LYYZC@Y.COM ztc
7979008 GX303YY200XLWW014 中国人民解放军第三0三医院
- 不使用函数结果
704512 bj-华龙达 北京市华龙达商贸公司
2457600 nnzqd 南宁市百花谷文化传播有限公司
21889024 lyyzc@y.com ztc
7979008 gx303yy200xlww014 中国人民解放军第三0三医院
- 使用hive -i 参数在进入hive时自动初始化
$ cat hive_init
add jar /home/root/udf.jar;
create temporary function mytest as 'com.xxx.hive.udf.Uppercase';
$ hive -i hive_init
//进入hive交互界面就可直接使用函数了
和前两者相比,第三种方式直接将用户的自定义函数作为注册为内置函数,未来使用起来非常简单,但这种方式也非常危险,一旦出错,将是灾难性的,因此,建议如果不是特别通用,并且固化下来的函数,还是使用前两种方式比较靠谱。
Hive执行引擎设置
set hive.execution.engine=mr;
Hive指定yarn队列
set mapred.job.queue.name=queue3;
多表插入
FROM tableName1
INSERT OVERWRITE TABLE tableName2SELECT column1,colum2 GROUP BY year
INSERT OVERWRITE TABLE tableName3SELECT column1,count(1)WHERE column2 = 100
- CTAS(CREATE TABLE... AS SELECT) 把查询到的结果创建一个新表保存起来,原子性操作,查询失败表不会被创建
CREATE TABLE tableName
AS
SELECT column1,column2
FROM tableName2
Hive手动创建目录导入数据,表刷新partition
alter table crawler_other_article_hive add partition(created_date=201801) location 'hdfs://xxx:8020/user/hive/warehouse/ods_crawler.db/crawler_other_article_hive/created_date=201801';删除表分区
ALTER TABLE testc DROP PARTITION (pt_date=20181212)
Hive Shell相关推荐
- linux下的hive命令大全,Hive shell 常用命令
连接 hive shell 直接输入 hive 1.显示表 hive> show tables; OK test Time taken: 0.17 seconds, Fetched: 1 row ...
- Hive基本操作,DDL操作(创建表,修改表,显示命令),DML操作(Load Insert Select),Hive Join,Hive Shell参数(内置运算符、内置函数)等
1. Hive基本操作 1.1DDL操作 1.1.1 创建表 建表语法 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_nam ...
- 第2关:Hive Shell入门基础命令
Hive Shell运行在Hadoop集群环境上,是Hive提供的命令行接口(CLI),在Hive提示符输入HiveQL命令,Hive Shell把HQL查询转换为一系列MapReduce作业对任务进 ...
- [HIVE] shell调用hive客户端导致nohup后台进程stopped
nohup启动java进程调用shell执行hive客户端命令导致nohup进程stopped,java进程消失了. 环境变量增加如下之后解决. export HADOOP_CLIENT_OPTS=& ...
- java双斜线转义_转义字符\(在hive+shell以及java中注意事项):正则表达式的转义字符为双斜线,split函数解析也是正则...
转义字符将后边字符转义,使特殊功能字符作为普通字符处理,或者普通字符转化为特殊功能字符. 各个语言中都用应用,如java.python.sql.hive.shell等等. 如sql中 "\& ...
- Hive Shell 常用命令
Hive 命令行常用命令 加载数据 load data local inpath '/home/IVR_CSR_MENU_MAP.txt' into table ivr_csr_menu_map; ...
- hive shell/sql 命令行
命令hive进入hive命令行 //列表数据库 show databases; //创建数据库 create database myhive; //创建数据库时检查存在与否 create databa ...
- hive shell 导入数据
数据 10046,108100000036-IOS,2.4,appStore,34C11930-796E-4F79-892D-D648052C06BF1457624722526,20160310235 ...
- hive链接mysql的shell命令_Hive shell 基本命令
首先连接 hive shell 直接输入 hive启动, 使用--开头的字符串来表示注释 hive>quit; --退出hive hive> exit; --exit会影响之前的使用,所以 ...
最新文章
- while true 死循环判断端口按顺序启动应用
- Ubuntu 16.04 和 Ubuntu 18.04 启用 点击Launcher图标,窗口实现最小化 功能
- HTML CSS JavaScript 从一个表格到一个灰阶颜色表(目录)
- 自动布局AutoLayout
- 高光谱图像pca降维_高光谱图像的数据特性之探讨
- 四、scrapy爬虫框架——scrapy管道的使用
- JAVA的Date类与Calendar类
- opencv一些常用的操作
- ES6的Set使用方法
- mysql通信协议的半双工机制理解
- ue设置MySQL_MySQL的安装与配置——详细教程 - Winton-Q
- TensorFlow安装中碰到的问题汇总
- DsoFramer-辛酸泪史
- 小程序-腾讯视频插件
- 博弈论python实例_博弈论读书笔记(七)贝叶斯博弈举例和显示原理
- MSP-FET-430UIF无法使用
- 变身成为互联网设计师
- 专用集成电路 -- 反相器
- Linux下ESC键无法退出
- Shutdown自定义自动关机软件
热门文章
- 如何计算实际物理地址?
- java float 存储方式_java-解析以字符串形式存储的float会抛出异...
- 滤波器的优点_声光可调谐滤波器
- linux shadow 时间,Linux Shadow-Password-HOWTO - 7. 将 Shadow Suite 放进来使用(1)
- 学习Java编程-Java Timezone类常见问题
- Java开发中数据类型之间的转换
- 【学习笔记】第三章——内存 II(分页存储、快表与局部性原理、两级页表)
- tail将输出的日志放到文件中_如何将Spring Boot应用中日志输出格式改为JSON?
- php七牛分片上传_七牛视频切片方案 - 张小超fly的个人空间 - OSCHINA - 中文开源技术交流社区...
- transferto的流这么关闭_Java 9中InputStream的transferTo()方法的重要性?