clickhouse mysql引擎_玩数据的,有必要搞搞这个大数据框架——ClickHouse
一、 什么是ClickHouse?
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)——开源的!。ClickHouse最初是一款名为Yandex.Metrica(俄罗斯最大的搜索引擎公司)的产品,主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse,简称ClickHouse。
二、为啥要搞ClickHouse呢? 搞数据分析,人家就是快!!!
2.1 ClickHouse 是列式数据库(具体原理请看下图)
列存储索引主要在下面三个特性上提升查询的性能:
- 行存储使用逐行处理模式,每次只处理一行数据;而列存储索引使用批处理模式,每次处理一批数据行。
- 行存储是逐行存储(Row Store),每一个Page存储多行数据,而列存储(Column Store)把数据表中的每一列单独存储在Page集合中,这意味着,Page集合中存储的是某一列的数据,而不是一行中所有列的数据。在读取数据时,行存储把一行的所有列都加载到内存,即使有些列根本不会用到;而列存储只把需要的列加载到内存中,不需要的列不会被加载到内存中。
- 列存储索引自动对数据进行压缩处理,由于同一行的数据具有很高的相似性,压缩率很高,数据读取更快速。
行式数据库
列式数据库
2.2 ClickHouse 是性价比最高的列式数据库
上图列举了包含count、sum、group by、order by等情况的查询对比,同等条件下,ClickHouse的查询性能异常强悍:
是MySQL的839倍
是Greenplum的24倍
是Vertica的5倍
三、ClickHouse的基本尝试——Docker 安装 + Dbeaver客户端使用
3.1 ClickHouse 的Docker 安装
首先,创建Docker挂载目录
mkdir /data/clickhouse
然后,直接在命令行执行(Docker 的安装,请执行百度~):
docker run -d --name some-clickhouse-server --ulimit nofile=262144:262144 -p 9000:9000 -p 8123:8123 --volume=/data/clickhouse:/var/lib/clickhouse yandex/clickhouse-server
备注:/data/clickhouse挂载/var/lib/clickhouse
3.2 Clickhouse Dbweaver客户端的使用
直接到官网下载:https://dbeaver.io/download/
3.3 Clickhouse Python 程序的控制
首先,安装python对应的包
pip3 install --timeout 1000 clickhouse_driver
然后,通过Python实现增加,删除,修改,以及查询的功能
from clickhouse_driver import Client
client = Client('localhost')
res = client.execute('SHOW DATABASES')
print(res)
clickhouse mysql引擎_玩数据的,有必要搞搞这个大数据框架——ClickHouse相关推荐
- 大数据建设意义_从宜信中台构架看企业大数据建设的意义
对于公司来说业务的属性是"分",越来越精细,不同的人干不同的事情,还干得越来越好,这就是业务.数据的属性其实是"合",要整合.联合,把所有的数据拿到一起去看待一 ...
- 华为大数据中心山西_吕梁智能大数据产业技术创新研究院 、华为山西(吕梁)大数据中心吕梁职业技术学院大数据学院同日揭牌成立...
图为吕梁智能大数据产业技术创新研究院揭牌仪式现场.记者王益炜摄 在第二届"数谷吕梁·智赢未来"吕梁大数据产业发展推介会举办之际,8月18日,吕梁智能大数据产业技术创新研究院.华为山 ...
- odps传大文件到oss上_【大数据干货】数据进入阿里云数加-大数据计算服务MaxCompute(原ODPS)的N种方式...
原文链接:http://click.aliyun.com/m/13946/ 想用阿里云大数据计算服务(MaxCompute),对于大多数人首先碰到的问题就是数据如何迁移到MaxCompute中.按照数 ...
- 大数据智能学院的硕士论文怎么写_大数据智能营销骗局,鹰眼大数据怎么样。...
大数据智能营销骗局,鹰眼大数据怎么样.市面上总有一些大数据智能营销公司,为了把软件卖出去弄出很多荒唐的说法: 1.在别人网站上留言的客户信息,比如同行网站 2.app后台注册的客户.(了解更多威xss ...
- 大数据技术系列:图解【大数据平台开发】
导言 在前面的文章<「大数据技术体系」学习实践导览>中,概要式的梳理了大数据平台的业务目标,大数据平台的架构框架,大数据平台中常用的技术及工具,数据治理四方面的内容,算是对自身所了解大数据 ...
- 大数据学习总结+JAVA学习总结+大数据面试+java面试+大数据java异常总结
文章目录 一.java模块面试问题 1.动态代理 2.浏览器禁用Cookie后的Session处理 3.主从复制的流程[重要] 5.redis的数据类型[重要] 6.Junit测试的注解 7.缓存问题 ...
- 大数据培训有前途吗,大数据工资一般多少?
大数据工资一般多少_参加大数据培训有前途吗?光环大数据了解到,近几年间大数据人才缺口就已高达百万,目前企业高薪都难以找到足够的大数据开发人才,大数据从业者的增长量,远远满足不了市场需求的扩张,大数据人 ...
- 大数据架构:全网最全大数据架构生态
文章目录 简介 1.数据采集技术框架 2.数据存储技术框架 3.分布式资源管理框架 4.数据计算框架 (1)离线数据计算 5.数据分析技术框架 6.任务调度技术框架 7.大数据底层基础技术框架 8.数 ...
- 2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》 畅销书籍 清华大学出版社发行上市!
2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作<SPARK大数据商业实战三部曲>畅销书籍 清华大学出版社发行上市! 本书基于Spark 2.2.0新版本,以Spark商业案例实战 ...
最新文章
- 对于STM32F103三轴机械臂控制器进行基本功能测试-关节角度读取
- 终端下中文乱码解决方法
- java.io.IOException: No space left on device
- 网页性能优化02-懒加载工作原理
- javascript创建对象的几种方式 .
- android action bar 风格,自定义ActionBar风格和样式
- 如何限制浏览器使用_论如何优雅地使用chrome 浏览器
- 为什么说ip协议是无连接协议
- 组合数学 —— 卡特兰数列(Catalan)
- 阿里人工智能实验室招聘计算机视觉算法专家-交互图像方向
- okhttp 源码解析 - 网络协议的实现 - HTTP 之 cookie 管理
- python做算法题_Python 笔试常见基础算法题
- 【HAVENT原创】Eureka 注册中心服务上线下线邮件提醒
- 大量精品国学论文免费下载
- 2019上半年网络工程师真题解析
- 豆瓣读书TOP250书籍信息爬虫脚本
- pytroch、tensorflow对比学习—功能组件(数据管道、回调函数、特征列处理)
- 例题—html(4)
- 域格4G模块专网设置说明
- VPP线程之间报文调度