2019独角兽企业重金招聘Python工程师标准>>>

本文首先发布在: http://leanote.com/blog/view/539276d41a91080a06000002

本文作者系 leanote 的核心开发者, 多谢关注leanote. leanote官网, leanote github


为什么要使用hive+python来分析数据

举个例子,

当年没有数据库的时候, 人们通过编程来操作文件系统, 这相当于我们编写mapreduce来分析数据.

后来有了数据库, 没人再操作文件系统了(除非有其它需求), 而是直接使用sql再加一些数据的处理. 这就相当于 hive + python了

hive + python能解决大多的需求, 除非你的数据是非结构化数据, 此时你就回到了远古时代不得不写mapreduce了.

而为什么不使用hive+java, hive+c, hive+...

因为:

python真是太好用了, 脚本语言, 无需编译, 有强大的机器学习库, 适合科学计算(这就是数据分析啊!!)


使用hive+python来分析数据

hive与python的分工: 使用hive sql作为python的数据源, python的输出作为map的输出, 再使用hive的聚合函数作为reduce.

下面使用一个例子来分析: 统计每个人在某日期人下吃的各种食品的数量

建表 user_foods 用户食品表

hive> create table user_foods (user_id  string, food_type string, datetime string
)  partitioned by(dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE# partitioned by(dt string) 以日期分区
# 以\n分隔, 字段与字段间以\t分隔.

根据业务需要, 因为是按天来统计, 为减少分析时的数据量, 上述hive表以dt(日期)为分区.

创建Hive表后, 会在HDFS /hive/目录下创建一个与表名同名的文件夹

导入数据

建立分区

hive> ALTER TABLE user_foods ADD PARTITION(dt='2014-06-07');

创建分区后, hdfs目录/hive/user_foods/下多了一个df='2014-06-07'的目录

创建测试数据

创建一个文件如data.txt, 加入测试数据

user_1 food1   2014-06-07 09:00
user_1  food1   2014-06-07 09:02
user_1  food2   2014-06-07 09:00
user_2  food2   2014-06-07 09:00
user_2  food23  2014-06-07 09:00

导入数据

hive> LOAD DATA LOCAL INPATH '/Users/life/Desktop/data.txt' OVERWRITE INTO TABLE user_foods PARTITION(dt='2014-06-07');

导入成功后, 使用select * from user_foods查看下.

或使用

hive> select * from user_foods where user_id='user_1'

这会生成一个mapreduce

仅使用hive来分析

"统计每个人在某日期人下吃的各种食品的数量"  太过简单, 不需要python就可实现:

hive> select user_id, food_type, count(*) from user_foods where dt='2014-06-07' group by user_id, food_type;

结果:

结合使用python

如果需要对数据清洗或更进一步处理, 那么肯定需要自定义map, 这就可以使用python来实现了.

比如food2与food23认为是同一类型食品, 此时利用python进行数据清洗, python的脚本如下: (m.py)

#!/usr/bin/env python
#encoding=utf-8import sysif __name__=="__main__":# 解析每一行数据for line in sys.stdin:# 略过空行if not line or not line.strip():continue# 这里用try 避免特殊行解析错误导致全部出错try:userId, foodType, dt = line.strip().split("\t")except:continue# 清洗数据, 空数据略过if userId == '' or foodType == '':continue# 清洗数据if(foodType == "food23"):foodType = "food2"# 输出, 以\t分隔, 即map的输出print userId + "\t" + foodType

再使用hql结合python脚本来分析, 有以下两步.

1. 加入python脚本, 相当于将脚本加入到 distributed cache

2. 执行, 使用transform和using

hive> add file /Users/life/Desktop/m.py;
hive> select user_id, food_type, count(*) from (
select transform (user_id, food_type, datetime) using 'python m.py' as (user_id, food_type)
from user_foods where dt='2014-06-07'
) tmp group by user_id, food_type;

结果:

python脚本调试建议

1. 首先保证脚本没有语法错误, 可以执行python m.py来验证
2. 确保代码没有其它输出
3. 可以使用测试数据来测试脚本, 比如:

$> cat data.txt | python m.py
user_1  food1
user_1  food1
user_1  food2
user_2  food2
user_2  food2

1, 2, 3都正确后, 如果再使用hive+python有错误, 可能的错误有:

1. python脚本对数据的处理不健壮, 有些边界条件没有考虑, 导致python出现exception

2. 自己总结吧...

其它

上面这个例子的python脚本充当map的角色, 当然也可以再建立一个reduce.py来统计map的输出而不使用hive的聚合函数.

这是建立在hive已不能满足你的需求之上的.

转载于:https://my.oschina.net/lifephp/blog/275750

hive+python数据分析入门相关推荐

  1. python数据分析要学什么_python数据分析学什么?python数据分析入门

    有很多没有基础的新手想学习python数据分析,却在纠结python数据分析难不难学?下面万古网校小编给大家整理了资料,为各位分享! 1.python难不难? Python可以说是目前比较主流而且易学 ...

  2. Python数据分析入门之pandas基础总结

    Pandas--"大熊猫"基础 Series Series: pandas的长枪(数据表中的一列或一行,观测向量,一维数组...) Series1 = pd.Series(np.r ...

  3. python 数据分析学什么-python数据分析学什么?python数据分析入门

    有很多没有基础的新手想学习python数据分析,却在纠结python数据分析难不难学?下面万古网校小编给大家整理了资料,为各位分享! 1.python难不难? Python可以说是目前比较主流而且易学 ...

  4. 分享一份60页的《Python数据分析入门PPT》

    小伙伴你好,资料会有的,我先做个自我介绍. 我是小詹.一名即将毕业的研究生,一个懂点技术和运营的产品人. 爱折腾爱分享,我在大学时通过副业实现了经济独立,偶尔还能补贴家用,在北漂求学的 7 年里还算精 ...

  5. python数据分析入门

    python数据分析入门,作为入门文章系列主要包含以下几个内容: 1.数据的来源(本案例采用的数据来自于上一篇文章中爬取的智联招聘信息):读取数据库数据.数据写入csv文件.读取csv文件等 2.数据 ...

  6. Python数据分析入门教程(更新中)

    Python数据分析入门教程 你好! 这是一篇适用于初学者的Python数据分析入门教程 1. Numpy关于矩阵的操作 1.1数组与矩阵的基本概念 矩阵:矩阵是一个按照长方阵列排列的实数或复数集合( ...

  7. python数据分析入门学习笔记

    python数据分析入门学习笔记儿 学习利用python进行数据分析的笔记儿&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我 ...

  8. Python数据分析入门笔记10——简单案例练习(学生信息分析)

    系列文章目录 Python数据分析入门笔记1--学习前的准备 Python数据分析入门笔记2--pandas数据读取 Python数据分析入门笔记3--数据预处理之缺失值 Python数据分析入门笔记 ...

  9. python数据分析入门【二】 --- 数据处理

    python数据分析入门[二] - 数据处理 上一章内容python数据分析入门[一] - DataFrame & Series 下一章内容python数据分析入门[三] - 数据分析 文章目 ...

最新文章

  1. “利他主义者”乔治·普莱斯的一生(全文翻译自Independent)
  2. java条件操作_关于java:条件为true时,从头开始执行各种操作的顺序
  3. oracle对日期date类型操作的函数
  4. 神策数据薛创宇:数据分析与场景实践之“坑位运营”
  5. 定时器 槽函数没执行_Web服务器项目详解 07 定时器处理非活动连接(上)
  6. 21适配器模式(Adapter Pattern)
  7. Flink中的状态管理
  8. QT5基础操作(一)
  9. django mysql filter_Django filter中用contains 在mysql中的问题
  10. 二分法查找的JAVA程序
  11. python3.8.5-Python 3.8.5下载
  12. rank(),允许并列名次、复制名次自动空缺,结果如12245558……
  13. 现代通信原理A.5:数字基带传输系统误码性能仿真
  14. 使用宏破解EXCEL工作表保护密码的方法
  15. pytz 太平洋时区_使用pytz模块打印所有时区的Python程序
  16. win10下u盘检测的到,但是盘符不显示
  17. PAT题目答案与经验总结1(持续更新,大家放心关注)
  18. 小熊派-FreeRTOS-串口打印
  19. kubernetes 401 You have been logged out because your token has expired
  20. Google两步验证安装使用方法

热门文章

  1. html 把文字显示控制,控制字体加粗显示的html标签是哪个
  2. word手写字体以假乱真_轻松制作个人“电子版手写签名”
  3. react打包服务器文件,react项目搭建及打包发布
  4. 我本人一直以来犯的错误,在看了 Think In Java 后才抓了出来
  5. 在JS中使用trim 方法
  6. 从Scala2.13.0开始废弃了一些方法
  7. 安卓学习笔记30:解析XML与JSON
  8. MySQL学习笔记:MySQL管理
  9. 【BZOJ2120】数颜色,带修莫队
  10. 【BZOJ1001】狼抓兔子,平面图转对偶图(从最小割到最短路)