一、引言

  基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例。

二、源数据-每日行情数据

三、建表脚本

CREATE TABLE IF NOT EXISTS t_day_detail(
id STRING,
lastday FLOAT,
today FLOAT,
highest FLOAT,
lowest FLOAT,
today_end FLOAT,
today_jisuan FLOAT,
updown1 FLOAT,
updown2 FLOAT,
sum int,
empity int,
rise int,
turnover FLOAT,
delivery FLOAT
)
PARTITIONED BY (dt STRING,product STRING);

四、数据导入1

1 load data local inpath '/home/hadoop/source/in'
2 overwrite into table t_day_detail
3 partition(dt='2014-04-22',product='1');

五、数据导入2

1 load data local inpath '/home/hadoop/source/in'
2 overwrite into table t_day_detail
3 partition(dt='2014-04-23',product='1');

六、执行结果

hive> select * from t_day_detail> ;
OK
CF405,17365.0,17390.0,17390.0,17360.0,17380.0,17380.0,15,15,72.0,1090.0,-36,625.66,0.0  NULL    NULL    NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-22      1
CF407,17275.0,17370.0,17415.0,17320.0,17320.0,17365.0,45,90,22.0,52.0,2,191.01,0.0      NULL    NULL    NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-22      1
CF409,17450.0,17380.0,17395.0,17310.0,17320.0,17330.0,-130,-120,7860.0,34584.0,-940,68099.08,0.0        NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-22      1
CF411,16370.0,16315.0,16350.0,16220.0,16255.0,16240.0,-115,-130,984.0,17436.0,-380,7990.01,0.0  NULL    NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-22      1
CF501,16130.0,16030.0,16085.0,15920.0,15995.0,15970.0,-135,-160,26210.0,115120.0,-1906,209311.56,0.0    NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-22      1
CF503,16195.0,16030.0,16065.0,16000.0,16065.0,16045.0,-130,-150,60.0,526.0,12,481.42,0.0        NULL    NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-22      1
CF405,17365.0,17390.0,17390.0,17360.0,17380.0,17380.0,15,15,72.0,1090.0,-36,625.66,0.0  NULL    NULL    NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-23      1
CF407,17275.0,17370.0,17415.0,17320.0,17320.0,17365.0,45,90,22.0,52.0,2,191.01,0.0      NULL    NULL    NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-23      1
CF409,17450.0,17380.0,17395.0,17310.0,17320.0,17330.0,-130,-120,7860.0,34584.0,-940,68099.08,0.0        NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-23      1
CF411,16370.0,16315.0,16350.0,16220.0,16255.0,16240.0,-115,-130,984.0,17436.0,-380,7990.01,0.0  NULL    NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-23      1
CF501,16130.0,16030.0,16085.0,15920.0,15995.0,15970.0,-135,-160,26210.0,115120.0,-1906,209311.56,0.0    NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-23      1
CF503,16195.0,16030.0,16065.0,16000.0,16065.0,16045.0,-130,-150,60.0,526.0,12,481.42,0.0        NULL    NULL    NULL    NULLNULL     NULL    NULL    NULL    NULL    NULL    NULL    NULL    NULL    2014-04-23      1
Time taken: 0.391 seconds
hive> 

七、问题聚焦

(1)Hive分区设置的原则和技巧?

(2)Hive分区内行记录完全一致问题如何解决?

(3)Hive中文乱码问题如何解决?

胖子哥的大数据之路(10)- 基于Hive构建数据仓库实例相关推荐

  1. 胖子哥的大数据之路(7)- 传统企业切入核心or外围

    一.引言 昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨: 问题1:对于一个传统企业而言什么是核心业务,什么是外围业务? 问 ...

  2. 胖子哥的大数据之路(五)- 数据资源-垄断的壁垒

    一.事件背景 昨天接触到一个客户,政府背景,行业应用,某部委直属的下属企业,算是垄断行业,依托政府资源,手里面掌握着全国XX行业所有的数据.原以为是大数据平台的一个营销对象,聊半天才发现,原来这也是一 ...

  3. 胖子哥的大数据之路(14):数据价值链模型

    一.模型示意图 二.模型解读 Knowledge is also defined using taxonomy, with levels describing data, information, k ...

  4. 胖子哥的大数据之路(15):互联网企业数据战略运营规划之总决式

    一.总决 "天下武功唯快不败",数据化运营战略在不同的行业.不同的企业之间是不同的,但是亦有其共性,即:快速的数据就绪和响应能力.完美主义者适合生活在保温箱里,唯有实践者才是真英雄 ...

  5. 2022 IoTDB Summit:阿里白渐《迈向物联网时代大数据计算平台——MaxCompute 基于IoTDB构建解决方案》...

    12 月 3 日.4日,2022 Apache IoTDB 物联网生态大会在线上圆满落幕.大会上发布 Apache IoTDB 的分布式 1.0 版本,并分享 Apache IoTDB 实现的数据管理 ...

  6. 大数据之路读书笔记-10维度设计

    大数据之路读书笔记-10维度设计 文章目录 大数据之路读书笔记-10维度设计 10.1 维度设计基础 10.1.1 维度的基本概念 10.1.2 维度的基本设计方法 10.1.3 维度的层次结构 10 ...

  7. 淘宝走过的大数据之路

    回顾丨13年来,淘宝走过的大数据之路 来源:CSDN大数据 时间:2016-11-07 10:19:15 作者: - 淘宝大数据之路 - 2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘 ...

  8. 大数据之路读书笔记-16数据应用

    大数据之路读书笔记-16数据应用 全球知名咨询公司麦肯锡称:"数据,已经 透到当今每一个行业和业务职能领域,成为重要的生产要素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈 ...

  9. 马哥教育大数据专家:深入解读大数据的就业前景

    现在大数据越来越火热,很多人早早听说了大数据的名声,但对于大数据工程师这个职业的具体内容了解的还是不够.今天马哥教育(magedu.com)大数据专家为大家带来一份关于大数据工程师的详细分析,值得收藏 ...

最新文章

  1. Nginx 代理转发阿里云OSS上传的实现代码
  2. sed 正则表达式【MAC地址】GLPI转换华为交换机MAC格式
  3. Markdown--语法说明
  4. 个人计算机网刻系统,全自动网刻后修改计算机配置信息(网管轻松方便)
  5. PHP运行模式的深入理解
  6. Python正则表达式练习
  7. 支持-vsdoc.js的jQuery智能提示的VS2008 SP1补丁发布
  8. 业绩爆发,押注“泛半导体”,TCL押对了吗?
  9. java 求方差_java计算方差、标准差(均方差)实例代码
  10. C++指针(pointer)
  11. [Gym] - 100886K 2015-2016 Petrozavodsk Winter Training Camp, Saratov SU Contest K - Toll Roads
  12. 史上最强吃鸡电脑配件更新!这张显卡都能买一套房子了
  13. 麻雀爱上凤凰在线播放,麻雀爱上凤凰详细剧情
  14. AD常用DRC规则简单介绍
  15. Mysql在表中添加约束条件
  16. Mac 配置Git与常用命令
  17. 【20210416期AI简报】微软分层ViT模型开源、 DIY一只“眼睛”摄像头
  18. 4椭圆曲线密码学:破坏安全性及与RSA的比较
  19. 跨平台应用开发进阶(二十九) :uni-app 实现Android原生APP-云打包集成神策详细教程
  20. Leetcode1189. “气球” 的最大数量(C++思路与代码)

热门文章

  1. 给研发工程师的代码质量利器 | SOFAChannel#5 直播整理
  2. Android进阶:七、Retrofit2.0原理解析之最简流程【上】
  3. Petuum提出序列生成学习算法通用框架
  4. 安全证书导入到java中的cacerts证书库
  5. MongoDB 启动 Failed to connect to 127.0.0.1:27017, reason: 由于目标计算机积极拒绝,无法连接。...
  6. oracle惯用缩写的含义
  7. 【老孙随笔】关羽和吕蒙——天才的失败
  8. Flask自定义转换器,实现路由匹配正则表达式参数
  9. LeetCode - 69. x 的平方根
  10. springboot数据源配置属性