hive shell

创建外表,指定目录
CREATE EXTERNAL TABLE IF NOT EXISTS songs2 (
sid string,
aid string,
ptime string,
sinit int,
language int,
gender int) 
COMMENT 'This is the staging page view table'   
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION  '/bs/music/songs/'; 
导入HDFS文件(原文件消失)
LOAD DATA INPATH '/bs/music/input/mars_tianchi_songs.csv' OVERWRITE INTO TABLE songs2;
查看前10条数据
select * from songs2 limit 10;
创建外表,指定目录
CREATE EXTERNAL TABLE IF NOT EXISTS useraction (
uid string,
sid string,
btime string,
atype int,
ds string) 
COMMENT 'This is the staging page view table'   
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION  '/bs/music/useraction/'; 
导入HDFS文件(原文件消失)
LOAD DATA INPATH '/bs/music/input/mars_tianchi_user_actions.csv' OVERWRITE INTO TABLE useraction;
select * from useraction limit 10;
表连接 小表在前
SELECT t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
Map join连接
SELECT /*+mapjoin(songs2)*/ t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
导出查询数据到hdfs 
INSERT OVERWRITE DIRECTORY '/bs/music/data' 
SELECT /*+mapjoin(songs2)*/ t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
查询结果保存到表
CREATE EXTERNAL TABLE IF NOT EXISTS usersongs (
sid string,
aid string,
ptime string,
sinit int,
language int,
gender int,
uid string,
sid2 string,
btime string,
atype int,
ds string) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION  '/bs/music/data/'; 
INSERT OVERWRITE TABLE usersongs 
SELECT /*+mapjoin(songs2)*/ t1.*,t2.* FROM songs2 t1 JOIN useraction t2 on t1.sid=t2.sid;
查询结果保存到本地
hive -e "select * from usersongs limit 10" >> /opt/tools/test.csv
查看HDFS上文件的前5行
hadoop fs -text  /bs/music/data/000000_0 |head -n 5
去重分组查询 同一aid的uid去重总量,sid的去重总量
select count(distinct uid),count(distinct sid),aid from usersongs  where atype=1 group by aid;

利用hive完成阿里天池大数据音乐预测比赛数据处理工作相关推荐

  1. 阿里天池大数据竞赛——口碑商家客流量预测 A2

    阿里天池大赛koubeiyuce1 2017年二月份,天池大数据比赛,口碑商家客流量预测,参赛地址及详情: https://tianchi.shuju.aliyun.com/competition/i ...

  2. 阿里天池大数据之移动推荐算法大赛总结及代码全公布

    移动推荐算法比赛已经结束了一个多星期了,现在写一篇文章来回顾一下自己的参赛历程. 首先,对不了解这个比赛的同学们介绍一下这个比赛(引用自官网): 赛题简介 2014年是阿里巴巴集团移动电商业务快速发展 ...

  3. 9个比赛7进top10,阿里天池大数据竞赛思路分享

    向AI转型的程序员都关注了这个号

  4. 阿里天池大数据竞赛第一名,如何用AI检测肺癌

    向AI转型的程序员都关注了这个号

  5. 阿里天池大数据竞赛(一)用ODPS提取特征

    //2015年4月30日 提取特征之所以难,是因为我们写出的sql语句往往只能提取一个特征. 而在ODPS上却不一样,一条语句可以提取很多特征. 如提取最近1.2.3.4天四种行为的数量 重点是dec ...

  6. 新人 天池大数据初涉水

    天池精准医疗大赛--人工智能辅助糖尿病遗传风险预测 一直想做一个天池大数据方面的比赛,以前一直没时间,正逢糖尿病风险预测比赛,阿里举办的,课题比较喜欢,哈哈 进入天池大数据竞赛中心,就可以看到相关信息 ...

  7. 阿里云天池大数据:【入门】精灵宝可梦数据集分析

    目的 学习,实践,不同机器学习算法 使用的包及安装 pip install numpy pip install Pandas 数据获取 阿里云天池大数据竞赛官网获取 莫某 引入包 import pan ...

  8. 天池大数据竞赛第一名,上海交通大学人工智能实验室如何用AI定位肺结节

    癌症,犹如黑暗中的魔鬼,带给人们恐惧与绝望.而肺癌,在我国作为发病率.死亡率最高的一类癌症,伤害着无数家庭.在我国每年都有近60万人死于肺癌.然而,癌症的死亡率与首次发现癌症的时期紧密相关,早期肺结节 ...

  9. 漫谈阿里那些大数据技术,大数据学习者必看

    目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...

最新文章

  1. FAST-CGI安装与使用
  2. NS安装问题收集(2)
  3. 从贝叶斯理论到马尔可夫随机场(MRF)--以图像分割为例
  4. 问题 G: Search Problem (IV)
  5. matlab2c使用c++实现matlab函数系列教程-prod函数
  6. Android布局之RelativeLayout
  7. 在infoWindow中显示Geocode server(地理编码服务)
  8. 判断系统误差的matlab,基于MATLAB的误差数据处理实验报告
  9. 我的知识星球 -【达叔与他的朋友们】程序员
  10. 个人电脑php网站搭建,如何在本地电脑搭建自己网站的流程(图文教程)
  11. Aspose.Words 创建表格
  12. 10-JDBC的完整步骤【建议收藏】
  13. StringUtils常用方法(五)
  14. Win10 / Win11 wifi 已连接但是却依然显示小地球
  15. 复杂推理的进展与挑战——从LSAT讲起
  16. 多元线性回归推导过程
  17. 二叉搜索树的JAVA实现-201805
  18. ghost还原服务器系统,Ghost超详细图文教程 – 还原恢复系统全程图解(上部)
  19. JAR 文件打包方法
  20. 高速动车组全谱系图解

热门文章

  1. Vscode 打开终端窗口
  2. 爱企查青龙可跑 一个月一张爱奇艺月卡最细教程
  3. 测试工程师的福利!各远程移动测试平台对比分析
  4. html中padding在ie8兼容性,怎么解决bootstrap在各版本IE浏览器中的兼容性问题?
  5. tdd测试_变异测试是TDD的发展
  6. 制作u盘版的kail linux 系统,即插即用,用于破解邻居妹子家的wifi
  7. qpython3使用手册图_qpython 图
  8. 扫码支付 (基于微信)
  9. 程序员必备的5个工作技能
  10. 一台pc计算机系统启动不了,电脑装系统引导不进去怎么办