1.hbase和hive结合

(1)hbase建表添加数据

#test是表名,name是列族
#hbase可以一个列族里边多个字段
create 'test','name'#添加数据
put 'test','1','name:t1','1'
put 'test','1','name:t2','2'#查询
scan 'test'#查询 get 表名,row-key,列族
get 'test','1','name:t1'#删除表
disable 'test'
drop 'test'#查看表信息
desc 'test'

(2)在hive上创建外部表,映射hbase

CREATE EXTERNAL TABLE  test( key string,t1 int,
t2 int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\u0001'
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,name:t1,name:t2")
TBLPROPERTIES ("hbase.table.name" = "test", "hbase.mapred.output.outputtable" = "test");

测试,两个平台数据是否相通。且数据同步更新。

2.hive连接和并用pandas读取数据

(1)配置hive-site.xml文件

<property><name>hive.server2.thrift.bind.host</name><value>192.168.99.250</value>
</property>
<property><name>hive.server2.thrift.port</name><value>10000</value>
</property>

(2)启动hive

hive --service metastore &
hiveserver2 &

(3)读取数据

from pyhive import hive
import pandas as pd
conn = hive.Connection(host = IP地址, port = 10000, username = 'hive')
#host主机ip,port:端口号,username:用户名,database:使用的数据库名称cursor = conn.cursor()
cursor.execute('show databases')# 打印结果
for result in cursor.fetchall():print(result) 或者pandas读取
sql = 'select * from default.employees'df = pd.read_sql(sql,conn)

大数据学习-python通过Pyhive连接hive数据库相关推荐

  1. 大数据学习笔记(十)-Hive中的Storage format

    1.Storage format 行存储:SEQUENCEFILE.TEXTFILE 列存储:ORC.PARQUET.AVRO 行列混合存储:RCFILE. 2.行存储VS列存储 行式存储: ①一行数 ...

  2. hive hql文档_大数据学习路线分享hive的运行方式

    大数据学习路线分享hive的运行方式,hive的属性设置: 1.在cli端设置 (只针对当前的session) 3.在java代码中设置 (当前连接) 2.在配置文件中设置 (所有session有效) ...

  3. 2022年Python+大数据学习路线图,源码笔记,最优学习资源

    任何学习过程都需要一个科学合理的学习路线,才能够有条不紊的完成我们的学习目标.Python+大数据所需学习的内容纷繁复杂,难度较大,所以今天特别为大家整理了一个全面的Python+大数据学习路线图,帮 ...

  4. 【大数据学习之路之hive】

    大数据学习之路之hive hive安装 mysql安装 前言 安装步骤 1.解压文件 2.安装依赖库 3.安装结束后,配置mysql 4.设置开机自启动 5.添加环境变量 6.初始化mysql 7.开 ...

  5. 大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

    引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...

  6. 大数据学习笔记一:大数据的发展历程--MapReduce,Hive,Yarn,Hadoop,Spark,Flink

    大数据学习系列文章:大数据-博客专栏 今天在学习极客时间专栏:<从0开始学大数据> 从预习 01 | 大数据技术发展史:大数据的前世今生到预习 03 | 大数据应用领域:数据驱动一切,系统 ...

  7. 试图加载格式不正确的程序_好程序员大数据学习路线之hive存储格式

    好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . orc .自定义 set hive.default.fil ...

  8. 大数据学习系列之八----- Hadoop、Spark、HBase、Hive搭建环境遇到的错误以及解决方法

    大数据学习系列之八----- Hadoop.Spark.HBase.Hive搭建环境遇到的错误以及解决方法 参考文章: (1)大数据学习系列之八----- Hadoop.Spark.HBase.Hiv ...

  9. 深圳大数据培训:好程序员大数据学习路线之hive 存储格式

    深圳大数据培训:好程序员大数据学习路线之hive 存储格式 好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . ...

最新文章

  1. 色彩(颜色)空间原理(上)
  2. LOOPS HDU - 3853 (概率dp):(希望通过该文章梳理自己的式子推导)
  3. Kafka设计原理看了又忘,忘了又看?
  4. dbgrideh的功能
  5. Laravel核心解读--HTTP内核
  6. python异步查询数据库_Python中使用aiomysql异步操作MySQL实例效果
  7. spring-chapter02-IoC Container
  8. direct3D 状态设置
  9. postman添加cookie_有了这款IDEA插件,再也不需要postman了
  10. centos7配置时间同步服务器
  11. 为什么我的世界服务器显示红叉,我的世界藏宝图怎么看红叉
  12. Java基础-子类和父类之间的诡异事件
  13. Photoshop文字特效——炫彩效果文字
  14. 赛博朋克2077配置要求2022
  15. 什么是薄膜应力、薄膜应变
  16. 《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》中文分享(12)
  17. 220v转15v芯片-220v转15v用什么芯片?
  18. SerialPort
  19. 一文快速搞懂Kudu到底是什么
  20. 数据结构之树的基础知识

热门文章

  1. VisualVM远程连接Linux服务器通过jstatd方式监控JVM内存状态
  2. 2012.2.9日晚亚马逊的一个错误链接截图
  3. 飞康CEO:敢于向传统的灾备法则说“不”
  4. mac地址和ip地址的区别(转)
  5. 算法面试题汇总(更新中)
  6. python实例化对象做实参_如何在Python中记住类实例化?
  7. 单例设计模式-懒汉式(线程安全)
  8. linux替换某个文件夹下所有文件,Linux 批量查找并替换文件夹下所有文件的内容...
  9. DES的原理及python实现
  10. 计算机专业联考335分,联考专业分、文化分达到多少能过本科线(附2019年美术高考分数线汇总...