Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据。它提供了一系列对数据进行提取、转换、加载的工具。依赖于HDFS存储数据,依赖MR处理数据。

1

Q:Hive和传统数据库有什么不同?各有什么试用场景。

A:1、数据存储位置。Hive是建立在Hadoop之上的,所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中。

2、数据格式。Hive中没有定义专门的数据格式,由用户指定,需要指定三个属性:列分隔符,行分隔符,以及读取文件数据的方法。数据库中,存储引擎定义了自己的数据格式。所有数据都会按照一定的组织存储。

3、数据更新。Hive的内容是读多写少的,因此,不支持对数据的改写和删除,数据都在加载的时候中确定好的。数据库中的数据通常是需要经常进行修改。

4、执行延迟。Hive在查询数据的时候,需要扫描整个表(或分区),因此延迟较高,只有在处理大数据是才有优势。数据库在处理小数据是执行延迟较低。

5、索引。Hive没有,数据库有

6、执行。Hive是MapReduce,数据库是Executor

7、可扩展性。Hive高,数据库低

8、数据规模。Hive大,数据库

2

Q:Hive有哪些应用场景?

A:1、Data Ingestion (数据摄取)

2、Data Discovery(数据发现)

3、Data analytics(数据分析)

4、Data Visualization & Collaboration(数据可视化和协同开发)

3

Q:大数据分析与挖掘方法论是哪六步活动?

A:大数据分析与挖掘方法论被称为CRISP-DM方法,是以数据为中心迭代循环进行的六步活动,它们分别是:商业理解、数据理解、数据准备、建立模型、模型评估、结果部署。

4

Q:数据分析挖掘方法大致包含哪些组成部分?

A:1.分类 Classification

2.估计Estimation

3.预测Prediction

4. 关联规则Association Rules

5. 聚类Cluster

6. 描述与可视化Description and Visualization

5

Q:在数据分析与挖掘中对数据的访问性有哪些要求?


A:交互性访问、批处理访问、迭代计算、数据查询,Hadoop仅仅支持了其中批处理访问,而Spark则支持所有4种方式

福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

推荐阅读:

  • 微博宕机复盘:什么样的技术架构,可支持80个明星并发出轨?

  • 漫画 | Kubernetes带你一帆风顺去远航

  • Android 告急!

  • 超酷炫!Facebook用深度学习和弱监督学习绘制全球精准道路图

  • 多地GitHub账号使用受限;Python之父考虑重构解释器;62岁程序员埋逻辑炸弹 | 开发者周刊

  • 3个核心差异, 告诉你为什么Libra永远成不了比特币!

真香,朕在看了!

Hive精华问答 | Hive和传统数据库有什么不同?相关推荐

  1. Hive精华问答 | Hive的数据模型是怎样的?

    Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据.它提供了一系列 ...

  2. 云数据库精华问答 | 什么是云数据库?

    戳蓝字"CSDN云计算"关注我们哦! 云数据库是部署和虚拟化在云计算环境中的数据库.云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能 ...

  3. 一文带你了解Hive【详细介绍】Hive与传统数据库有什么区别?

    大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师.欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦. 前期回顾 ...

  4. Redis,传统数据库,HBase,Hive区别联系

    首先介绍各个数据库: Redis: 传统数据库: HBase: Hive: 转载于:https://www.cnblogs.com/gentle-awen/p/10179148.html

  5. Hive对比传统数据库区别

    Hive对比传统数据库 ①Hive和关系数据库存储文件系统不同,Hive使用的是hadoop的HDFS(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统: ②Hive使用的计算模型是 ...

  6. hive 查询去除空值_hive 查看数据库表

    Hive之导入外部数据 利用以下命令可以查看Hive中的数据库和表格. show databases; #查看数据库 show tables; #查看表格 (一)将本地/home/training/s ...

  7. hive的数据定义之创建数据库和表

    1.对数据库的操作 create database hive_db //创建数据库hive_db create table hive_db.test(字段) //在数据库hive_db中创建test表 ...

  8. 云数据库精华问答 | 云数据库与其他数据库的关系

    戳蓝字"CSDN云计算"关注我们哦! 云数据库是部署和虚拟化在云计算环境中的数据库.云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能 ...

  9. Docker精华问答 | 数据库为什么不适合放在 Docker 中运行?

    戳蓝字"CSDN云计算"关注我们哦! Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux或Windo ...

最新文章

  1. TypeError: unhashable type: 'dict'
  2. Java 连接各种数据库
  3. consul php,go-micro+php+consul实现简单的微服务
  4. c++如何获取文件时间_如何在Windows 10上获取文件或文件夹的所有权
  5. myeclipse如何换一个漂亮的主题
  6. 前端证券项目_证监会公告[2018]6号 证券公司投资银行类业务内部控制指引
  7. 《Cortex-M0权威指南》之体系结构---程序映像和启动流程
  8. 高效编排有状态应用——TiDB 的云原生实践与思考
  9. wamp php 安装redis,wampServer的php安装Redis 扩展
  10. Android中Bitmap和Drawable 总结
  11. VBS操作 PDF时,常用快捷键(Adobe Acrobat Reader)
  12. linux wifi驱动rtl8188移植
  13. Python写excel练习
  14. 019-zabbix数据库表详解
  15. 渗透测试必备前置知识
  16. 智能电话机器人--基于 UniMRCP 实现讯飞 ASR MRCP Server
  17. 前馈神经网络与支持向量机实战 --- 手写数字识别
  18. 软件测试思维总结(2)-----跳跃性思维:不按套路出牌
  19. 6.案例 - 实现少量线程 处理多个客户端请求
  20. [PMZL]第1卷-误入天庭-02

热门文章

  1. mysql 5.1.53_mysql 5.1.53免安装版的优化配备和精简
  2. oracle resize什么意思,Oracle调整表空间大小resize
  3. mysql游标的概述_MySQL游标简介
  4. 用java做一个截图工具_Java制作屏幕截图软件(还可以保存到剪切板内)
  5. helm安装mysql_helm安装配置
  6. python上传文件接口_python程序的web接口:上传和下载文件
  7. 完美数:数学宝库中的一颗璀璨明珠
  8. Gartner发布2020年十大战略科技发展趋势
  9. 对谈|人工智能来了,翻译们会失业吗?
  10. 贝叶斯线性回归方法的解释和优点