先使用Tos建立模型,将Oracle中的数据导入到本地:

build job后,形成独立可以运行的程序:

将生成的zip文件,上传到hadoop集群上,有hive环境的机器上:

[hive@h1 work]$ ls
file.zip  jobInfo.properties  join  lib
[hive@h1 work]$ cd join/
[hive@h1 join]$ ls
bigdatademo  items  join_0_1.jar  join_run.bat  join_run.sh  src  user_activity2
[hive@h1 join]$ pwd
/home/work/join
[hive@h1 join]$ ls
bigdatademo  items  join_0_1.jar  join_run.bat  join_run.sh  src  user_activity2
[hive@h1 join]$ pwd
/home/work/join
[hive@h1 join]$ ./join_run.sh > user_activity2 2>&1 &

这样就得到了SQL语句执行的结果,存放在user_activity2中。

hive建表语句:

hive> show create table user_activity2;
OK
CREATE TABLE `user_activity2`(`user_id` string, `user_name` string, `sex` string, `age` string, `reg_hosp` string, `reg_community` string, `type` string, `disease_code` string, `disease` string, `doctor` string, `hosp_name` string, `service_id` string, `drug_id` string, `drug_name` string, `antibiotic` string, `hormone` string, `source` string, `base_drug` string, `community` string, `date` string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION'hdfs://h1:8020/apps/hive/warehouse/cyw.db/user_activity2'
TBLPROPERTIES ('transient_lastDdlTime'='1435547544')
Time taken: 0.288 seconds, Fetched: 31 row(s)

将数据导入到hive表中:load data local inpath './user_activity2' into table user_activity2;

hive> show tables;
OK
Time taken: 0.794 seconds
hive> use cyw;
OK
Time taken: 0.256 seconds
hive> show tables;
OK
user_activity
user_activity2
Time taken: 0.136 seconds, Fetched: 2 row(s)
hive> load data local inpath './user_activity2' into table  user_activity2;
Loading data to table cyw.user_activity2
Table cyw.user_activity2 stats: [numFiles=1, totalSize=216927483]
OK
Time taken: 10.898 seconds
hive> select * from user_activity2;
OK
F805418B-335F-4CA3-A209-7C9655148146    余泽英  2       47      成都高新区合作社区卫生服务中心  合作    1               急性支气管炎    谭万龙  成都高新区合作社区卫生服务中心  1E972231-C65A-4CE3-9233-8EA1B18058DE  灭菌注射用水    d875aacf-4723-4777-91ec-12d63732b58f    0       0       其他            合作    2014-02-27
F805418B-335F-4CA3-A209-7C9655148146    余泽英  2       47      成都高新区合作社区卫生服务中心  合作

查询语句:

select a.个人id,b.姓名,b.性别,round((sysdate - b.出生日期) / 365) as fage,b.建档单位,replace(replace(replace(b.建档单位, '高新区'), '社区卫生服务中心'),'成都') 建档社区,1 as ftype,a.问题编码,a.问题名称,a.处理医生,c.机构名,a.服务记录id,f.名称,f.id 药品ID ,f.抗生素, f.激素类药,case when f.药品来源 is null then '其他' else f.药品来源 end 药品来源,       f.基药分类,replace(replace(replace(c.机构名, '高新区'), '社区卫生服务中心'),'成都') 诊疗社区, to_char(a.发现日期,
'yyyy-mm-dd') 诊疗日期from ZLCHS.个人问题列表 a,ZLCHS.个人信息 b,ZLCHS.服务活动记录 c,(select d.事件id, e.名称, e.id, h.药品来源, h.基药分类, g.抗生素, g.激素类药from ZLCHS.个人费用记录 d, ZLCHS.收费项目目录 e, ZLCHS.药品规格 h, ZLCHS.药品特性 gwhere d.收费项目id = e.idand d.收据费目 in ('西药费', '中草药费', '中成药费')and h.药品id(+) = e.idand h.药名id = g.药名id) f                 where a.个人id = b.id(+)and a.服务记录id = c.id(+)and a.服务记录id = f.事件id(+)

加入分区字段:

CREATE TABLE `user_activity`(`user_id` string, `user_name` string, `sex` string, `age` string, `reg_hosp` string, `reg_community` string, `type` string, `disease_code` string, `disease` string, `doctor` string, `hosp_name` string, `service_id` string, `drug_id` string, `drug_name` string, `antibiotic` string, `hormone` string, `source` string, `base_drug` string, `community` string, `date` string)
PARTITIONED BY ( `dt` string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION'hdfs://h1:8020/apps/hive/warehouse/cyw.db/user_activity'
TBLPROPERTIES ('transient_lastDdlTime'='1435559269')
Time taken: 0.252 seconds, Fetched: 33 row(s)

默认的字段分隔符为ascii码的控制符\001,建表的时候用fields terminated by '\001',如果要测试的话,造数据在vi 打开文件里面,用ctrl+v然后再ctrl+a可以输入这个控制符\001。按顺序,\002的输入方式为ctrl+v,ctrl+b。以此类推。

使用Talend Open Studio将数据分步从oracle导入到hive中相关推荐

  1. sqoop从musql导入到hive中数据缺失

    sqoop从musql导入到hive中数据缺失 sqoop是大数据架构中常用的数据导入导出组件之一,只要简单的设置一些参数就可以将数据库的数据快速导入数据仓库中. 但在实际使用过程中,常常会碰到一些问 ...

  2. 离散元后处理,将PFC数据写出并导入到matlab中形成云图

    离散元后处理,将PFC数据写出并导入到matlab中形成云图. 支持二维三维绘图. 内容包括:案例文件,fish代码和matlab代码. pfc2d.3d_to_matlab. ID:71200677 ...

  3. 数据仓库Hive编程——HiveQL的数据定义(一):Hive中的数据库

    分类目录:商业智能<数据仓库Hive编程>总目录 相关文章: HiveQL的数据定义(一):Hive中的数据库 HiveQL的数据定义(二):修改数据库 HiveQL的数据定义(三):创建 ...

  4. coba mysql_在Android Studio中将数据从MySQL数据库显示到TextView中-问答-阿里云开发者社区-阿里云...

    我是新手,Android Studio我想将数据库(我使用MySQL)中的数据显示到中TextView.我也使用Button和RadioButton.单击按钮后,数据将显示在中TextView.这是我 ...

  5. 大数据学习笔记(十)-Hive中的Storage format

    1.Storage format 行存储:SEQUENCEFILE.TEXTFILE 列存储:ORC.PARQUET.AVRO 行列混合存储:RCFILE. 2.行存储VS列存储 行式存储: ①一行数 ...

  6. php中怎么连接数据库中的表,php 连接 excel表格数据库数据-php中如何将execl的数据导入到数据库中...

    php中如何将execl的数据导入到数据库中 php导出大量数据的Excel: PHP从数据库分多次读取100万行记录,和分多次将100万行写入文本文件都没问题 Excel可以支持100万行记录,Ex ...

  7. sqlbulkcopy mysql_c# SqlBulkCopy实现批量从数据集中把数据导入到数据库中

    今天遇到了一个导入类第一次见 SqlBulkCopy 可以实现从一个数据集导入到数据库中的表中 本来想从数据集中一条条遍历insert到库中 有了这个后发现: 只在把表与数据集的列做一下对应关系,再走 ...

  8. hive 导入hdfs数据_将数据加载或导入运行在基于HDFS的数据湖之上的Hive表中的另一种方法。

    hive 导入hdfs数据 Preceding pen down the article, might want to stretch out appreciation to all the well ...

  9. 用sqoop将mysql的数据导入到hive表中,原理分析

    Sqoop 将 Mysql 的数据导入到 Hive 中 准备Mysql 数据 如图所示,准备一张表,数据随便造一些,当然我这里的数据很简单. 编写命令 编写参数文件 个人习惯问题,我喜欢把参数写到文件 ...

最新文章

  1. 管理虚拟机的艺术——有备无患
  2. 【控制】《多无人机协同控制技术》周伟老师-第11章-多无人机协同航迹规划方法
  3. 像素/厘米与像素/英寸区别_像素/体素艺术入门指南
  4. 星梦缘陈彦妃_浙江舟山80后女演员,2003年出演偶像剧《星梦缘》,还是专业模特...
  5. ubuntu 禁用透明大页_如何在ubuntu上默认启用透明的大页面?
  6. matlab曲线拟合 新浪,Matlab曲线拟合
  7. python paas_到底什么是PaaS?——【PaaS概述科普文】
  8. php 在模板中赋值数组变量,PHP自定义函数实现assign()数组分配到模板及extract()变量分配到模板功能示例...
  9. php一次上传多张图片,html5 multiple的使用。
  10. Android studio中的一次编译报错’Error:Execution failed for task ':app:transformClassesWithDexForDebug‘,困扰了两天
  11. c语言退格键ascii码,【回车键的ASCII码是多少】
  12. 史上最简单,利用Spring-boot快速搭建邮件发送服务!
  13. 中国法律年鉴Excel版本(1990-2021年)
  14. Linux超详细指令及其解析
  15. Nature Biotechnol | 李家洋/余泓团队利用平铺删除策略打破性状连锁,突破水稻产量瓶颈...
  16. Redis过期时间及过期策略
  17. 深度视场角(Depth Field of View)
  18. 线段树模板(建树+更新)
  19. 剑指offer_递归与循环---跳台阶
  20. python通讯录编程_python实现简单通讯录

热门文章

  1. input 单选框ajax提交,input radio单选框绑定change事件
  2. mvvm模式和mvc的区别_Android 开发中的架构模式 -- MVC / MVP / MVVM
  3. 有三AI高质量内容推荐(广告)须知
  4. 【AI白身境】搞计算机视觉必备的OpenCV入门基础
  5. 传统方法怎么玩计算机审美
  6. 按装oracle后 eclips提示jvm版本太低的问题
  7. axios捕获401 赋值token
  8. ABP框架连接Mysql数据库
  9. BZOJ 1821: [JSOI2010]Group 部落划分 Group【MST】
  10. 翘课老黄历——设计文档