hive中导入csv,本地CSV导入hive表
背景 从mysql 导出的数据保存为csv文件
导出两个文件,一个有csv的文件头 record1.csv
一个没有csv文件的文件头 record0.csv
try1
建表语句直接导入
sql='''
CREATE TABLE IF NOT EXISTS default.records
(
exer_recore_id BIGINT,
user_id int,
channel tinyint,
item_id int,
question_id int,
`type` tinyint,
question_num int,
orgin tinyint,
orgin_id int,
cate_id int,
is_hf tinyint,
user_answer string,
correct_answer string,
is_correct tinyint comment "正确与否",
dutration int,
record_id int,
subject_1 int,
subject_2 int,
subject_3 int,
status tinyint,
is_signed tinyint,
create_time int,
practice_level_1 string,
practice_level_2 string,
practice_level_3 string,
update_time int
)
comment "做题记录"
'''
spark.sql("LOAD DATA LOCAL INPATH '*/Desktop/record0.csv' OVERWRITE INTO TABLE "
"records")
df=spark.sql("select exer_recore_id,user_id,is_correct from records ")
df.show()
df.printSchema()
输出
+--------------+-------+----------+
|exer_recore_id|user_id|is_correct|
+--------------+-------+----------+
| null| null| null|
| null| null| null|
| null| null| null|
| null| null| null|
| null| null| null|
导入失败
try 2
建表语句加入 分隔符
comment "做题记录"
ROW FORMAT delimited fields terminated by ','
res 失败
加入了csv 的分隔符’,'依旧失败
文本查看文件
如下图
try3
comment "做题记录"
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = ",",
"quoteChar" = "'"
)
success
下一个问题(表头不导入)
加入属性tblproperties(“skip.header.line.count”=“1”)
‘1’ 代表忽略第一行
comment "做题记录"
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = ",",
"quoteChar" = "'"
)
tblproperties("skip.header.line.count"="1")
解决
again
大意失荆州啊
刚才的输出
+------------------+-------+----------+---------+
| exer_recore_id|user_id|is_correct|record_id|
+------------------+-------+----------+---------+
|"1001110000021295"| "11"| "0"| "109"|
|"1001110000021296"| "11"| "0"| "109"|
|"1001110000021297"| "11"| "1"| "109"|
root
|-- exer_recore_id: string (nullable = true)
|-- user_id: string (nullable = true)
|-- is_correct: string (nullable = true)
|-- record_id: string (nullable = true)
全是字符串格式,还带着“
改
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = ",",
"quoteChar" = "\\"",
"escapeChar" = "\\\\"
)
tblproperties("skip.header.line.count"="1")
分隔符是"
输出
+----------------+-------+----------+---------+
| exer_recore_id|user_id|is_correct|record_id|
+----------------+-------+----------+---------+
|1001110000021295| 11| 0| 109|
|1001110000021296| 11| 0| 109|
hive中导入csv,本地CSV导入hive表相关推荐
- hive遍历_从Hive中的stored as file_foramt看hive调优
一.行式数据库和列式数据库的对比 1.存储比较 行式数据库存储在hdfs上式按行进行存储的,一个block存储一或多行数据.而列式数据库在hdfs上则是按照列进行存储,一个block可能有一列或多列数 ...
- hive中导入text文件遇到的坑
今天帮一同学导入一个excel数据,我把excel保存为txt格式,然后建表导入,失败!分隔符格式不匹配,无法导入!!!!怎么看两边都是\t,怎么不匹配呢? 做为程序员,最不怕的就是失败,因为我们有一 ...
- Hive中的常用函数
一.Hive中collect_list和collect_set的区别 二.Hive中四种排序(order by.sort by.distribute by.cluster by) 2.1 order ...
- hive中NULL值问题
问题描述 源端数据oracle数据库,通过cdm迁移工具将数据迁移到目标端hive.在oracle中的NULL值迁移到hive中后有的字段表现为NULL,有的字段表现为空串""(即 ...
- Hive中的多维分析函数
Hive中的多维分析函数 众所周知,Hive是一个OLAP数据库,拥有着很强大的数据分析能力. 但是当我们一张表的维度信息特别多,并且需要各种维度组合的统计分析结果时就很不方便.比如一张表有5个维度, ...
- hive(四)Hive中的窗口函数
目录 一.后台启动Hive的JDBC连接 1.关闭后台启动的jdbc 2.Hive中的wordcount实例 二.Hive窗口函数 1.with as 用法 2.集合函数 3.行列互换 4.LATER ...
- 关于Hive中的存储格式及压缩格式详解
最近面试,遇到了关于Hive的数据存储格式的问题,回答不尽人意,抽时间总结多看看关于Hive存储格式和压缩格式的内容. Hive底层数据是以HDFS文件的形式存储在Hadoop中的,选择一个合适的文件 ...
- hive 如果表不存在则创建_从零开始学习大数据系列(四十七) Hive中数据的加载与导出...
[本文大约1400字,阅读时间5~10分钟] 在<从零开始学习大数据系列(三十八) Hive中的数据库和表>和<从零开始学习大数据系列(四十二)Hive中的分区>文章中,我们已 ...
- 数据仓库Hive编程——HiveQL的数据定义(一):Hive中的数据库
分类目录:商业智能<数据仓库Hive编程>总目录 相关文章: HiveQL的数据定义(一):Hive中的数据库 HiveQL的数据定义(二):修改数据库 HiveQL的数据定义(三):创建 ...
最新文章
- CSS Hack-清除浮动的最简单写法V2010-08
- 宣汉计算机公办学校,宣汉职业中专学校是公办的吗
- 并发编程面试题(2021最新版)
- IBATISNETNET 1.3 开发指南系列文章
- leetcode 850. Rectangle Area II | 850. 矩形面积 II(递归分割未重叠矩形)
- cad求和插件_黑科技 | 无BIM建模下平面CAD自动生成门窗表
- Android Webview实现文件下载功能
- 如何优雅的设计 React 组件
- 转:华 为 路 由 常 用 命 令
- 【Oracle】Oracle错误编码大全
- 用代码查询ASCII码和Unicode码表序号
- 机器学习的数学基础——线性代数篇(一)
- 51单片机智能循迹小车的通俗易懂讲解
- iView 日期时间选择器设置开始时间至结束时间限制
- python 马赛克拼图_用Python和OpenCV实现照片马赛克拼图(蒙太奇照片)
- Java一般要学多久?
- 抖音壁纸小程序v1.0.2版本功能,新增达人入住功能
- karabiner-elements Mac下实现按键全定制 capslox完美替代品
- VMware Station pro15虚拟机的下载与安装
- Dubbo NoSuchMethodException: Not found method “xxx“ in class xxx问题解决
热门文章
- vs在linux下的环境搭建,linux下vscode环境配置
- Job 存储和持久化 (第五部分)
- 基于JAVA+SpringMVC+Mybatis+MYSQL的外卖点餐系统
- Linux最常用的基础命令 下篇
- HDU-2084(简单DP)
- HTML标签(持续更新)
- [转载]CSS 创作指南(Beta)(css规范)
- android.graphics.Color 包含颜色值
- 46 - 算法 - Leetcode-155-最小栈
- 50 - 算法 -二叉树 - 递归 - LeetCode 101