文章目录

  • track_info分区表的创建
  • 将ETL的数据加载到Hive表

track_info分区表的创建

分区表
因为日志是一天一个分区
create external table track_info(
ip string,
country string,
province string,
city string,
url string,
time string,
page string
)partitioned by (day string)
row format delimited fields terminated by ‘\t’
location ‘/project/trackinfo/’;

hadoop常用操作之删除:
[hadoop@hadoop000 data]$ hadoop fs -rmr /project删除project目录下的全部内容

将ETL的数据加载到Hive表

创建目录

[hadoop@hadoop000 data]$ hadoop fs -mkdir -p /project/input/raw

将原始数据拷贝进来

[hadoop@hadoop000 data]$ hadoop fs -put trackinfo_20130721.data /project/input/raw/
[hadoop@hadoop000 shell]$ vi etl.sh

hadoop jar /home/hadoop/lib/hadoop-train-v2-1.0.jar com.imooc.bigdata.hadoop.mr.project.mrv2.ETLApp hdfs://hadoop000:8020/project/input/raw/ hdfs://hadoop000:8020/project/input/etl/

执行从而得到etl数据

[hadoop@hadoop000 shell]$ ./etl.sh

1)可以使用crontab表达式[比较基础]进行调度
2)以为要先执行ETLApp得到etl==>才可以进行其他的统计分析,
像这种后面的依赖前面的可以使用Azkaban调度(因为它可以配置依赖 关系):
可以去慕课网看下《python3实战spark大数据分析及调度》
加载hdfs的数据到表中:因为load操作执行的是move操作(原来的数据被删除),所以如果把表track_info 删除后,用以下命令会执行不成功,要重新[hadoop@hadoop000 shell]$ ./etl.sh才可以
load data inpath ‘hdfs://hadoop000:8020/project/input/etl’ overwrite into table track_info partition(day=‘2013-07-21’);

查一下分区里(day=‘2013-07-21’)总共有多少条数据
hive> select count(*) from track_info where day=‘2013-07-21’;

track_info分区表的创建并将ETL的数据加载到Hive表相关推荐

  1. hive 如果表不存在则创建_从零开始学习大数据系列(四十七) Hive中数据的加载与导出...

    [本文大约1400字,阅读时间5~10分钟] 在<从零开始学习大数据系列(三十八) Hive中的数据库和表>和<从零开始学习大数据系列(四十二)Hive中的分区>文章中,我们已 ...

  2. oracle 加载数据戽_走进大数据丨 ETL - Load(数据加载)

    LOAD 加载经转换和汇总的数据到目标数据仓库中,可实现SQL或批量加载数据加载(Load) 经过数据转换生成的文件的结构与数据仓库数据表的结构完全一致,可以直接通过数据加载工具,以Bulk Load ...

  3. Hive 分区表 数据加载

    1. Hive表数据的导入方式 1.1 本地上传至hdfs 命令: hdfs dfs -put [文件名] [hdfs绝对路径] 例如:测试文件 test_001.txt 内容如下 在 hdfs 绝对 ...

  4. ETL 数据加载机制概述

    ETL 是数据抽取(Extract).转换(Transform).加载(Load)的简写,它的功能是从数据源抽取出所需的数据,经过数据清洗和转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库 ...

  5. cocos2dx 3.3创建新项目 和 VS2012解决方案加载失败问题

    cocos2dx 3.3创建新项目 和 VS2012解决方案加载失败问题 参考文章: (1)cocos2dx 3.3创建新项目 和 VS2012解决方案加载失败问题 (2)https://www.cn ...

  6. 创建MFC项目,资源视图加载失败

    创建MFC项目,资源视图加载失败. 原因可能是路径中含有中文,将路径修改为全英文后,无此错误

  7. Hive表路径修改和分区表数据加载命令

    1.对于同一张表,如果不是分区,那要变更数据来源,就只有改变其hdfs存储路径: 修改tmp_fjs_ftp表的location,两种方式: 方式一:通过修改表DDL alter table tmp_ ...

  8. Visual Studio点击之前创建的Form提示“由于从未加载设计器的文档,因此无法显示设计器”

    现象 打开之前创建的工程,点击其中一个Form后,提示"由于从未加载设计器的文档,因此无法显示设计器",打不开界面,点击其他Form可以正常打开,就这个打开不了. 解决方法 把工程 ...

  9. android9.0无法创建照片路径,Android9.0无法加载图片及访问不了服务器问题

    Cause (1 of 1): class java.io.IOException: Cleartext HTTP traffic to xxxx.xxxx.xxxx not permitted 这是 ...

最新文章

  1. 偏方收藏(此信息为本人收藏,安全性无法验证,使用后产生的一些后果自负)...
  2. 想做个手机app,大家帮忙提些建议~thx
  3. 【iCore4 双核心板_FPGA】例程七:状态机实验——状态机使用
  4. Linux 跟踪进程对CPU的占用情况,对内存的占用情况
  5. 更改apk安装包对android系统等级要求
  6. python pil_python PIL 图像处理
  7. 查看http的并发请求数及其TCP连接状态
  8. java的头怎么写_JAVA对象布局之对象头(Object Header)
  9. java 定义动态接口_使用自定义annotation接口进行aspectj动态缓存
  10. 四.单纯形法(两阶段和大M法)
  11. 第三阶段:数据存储与计算(离线场景):3.2 数据存储hdfs
  12. mysql sniffer master_MySQL Sniffer
  13. 百度自动php推送蜘蛛怎么不来访问,使用代码向百度蜘蛛主动推送链接
  14. atcod D - Staircase Sequences
  15. python 定时运行 定时关闭_Python脚本用于定时关闭网易云音乐PC客户端
  16. Java中的函数(方法)
  17. TextRCNN、TextCNN、RNN
  18. 多线程编程之Linux环境下的多线程(三)——好文
  19. 关于 Web 可访问性的神话
  20. 【echarts】echarts绘制关系图

热门文章

  1. 调试js 试用火狐的firebug
  2. hadoop--HDFS的读写数据流程
  3. Python基础学习篇-2-数值运算和字符串
  4. angular js 常用指令ng-if、ng-class、ng-option、ng-value、ng-click是如何使用的?
  5. rest-assured之获取响应数据(Getting Response Data)
  6. 高性能JavaScript-JS脚本加载与执行对性能的影响
  7. maya2015 改变界面语言
  8. nagios-3种报警方式–声音–email/邮件—短信
  9. 应用visual studio的正则表达式替换功能
  10. FTP and Firewalls