一、 什么是ClickHouse?

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)——开源的!。ClickHouse最初是一款名为Yandex.Metrica(俄罗斯最大的搜索引擎公司)的产品,主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse,简称ClickHouse。

二、为啥要搞ClickHouse呢? 搞数据分析,人家就是快!!!

2.1 ClickHouse 是列式数据库(具体原理请看下图)

列存储索引主要在下面三个特性上提升查询的性能:

  • 行存储使用逐行处理模式,每次只处理一行数据;而列存储索引使用批处理模式,每次处理一批数据行。
  • 行存储是逐行存储(Row Store),每一个Page存储多行数据,而列存储(Column Store)把数据表中的每一列单独存储在Page集合中,这意味着,Page集合中存储的是某一列的数据,而不是一行中所有列的数据。在读取数据时,行存储把一行的所有列都加载到内存,即使有些列根本不会用到;而列存储只把需要的列加载到内存中,不需要的列不会被加载到内存中。
  • 列存储索引自动对数据进行压缩处理,由于同一行的数据具有很高的相似性,压缩率很高,数据读取更快速。

行式数据库

列式数据库

2.2 ClickHouse 是性价比最高的列式数据库

上图列举了包含count、sum、group by、order by等情况的查询对比,同等条件下,ClickHouse的查询性能异常强悍:

是MySQL的839倍

是Greenplum的24倍

是Vertica的5倍

三、ClickHouse的基本尝试——Docker 安装 + Dbeaver客户端使用

3.1 ClickHouse 的Docker 安装

首先,创建Docker挂载目录

mkdir /data/clickhouse

然后,直接在命令行执行(Docker 的安装,请执行百度~):

docker run -d --name some-clickhouse-server --ulimit nofile=262144:262144 -p 9000:9000 -p 8123:8123 --volume=/data/clickhouse:/var/lib/clickhouse yandex/clickhouse-server

备注:/data/clickhouse挂载/var/lib/clickhouse

3.2 Clickhouse Dbweaver客户端的使用

直接到官网下载:https://dbeaver.io/download/

3.3 Clickhouse Python 程序的控制

首先,安装python对应的包

pip3 install --timeout 1000 clickhouse_driver

然后,通过Python实现增加,删除,修改,以及查询的功能

from clickhouse_driver import Client

client = Client('localhost')

res = client.execute('SHOW DATABASES')

print(res)

clickhouse mysql引擎_玩数据的,有必要搞搞这个大数据框架——ClickHouse相关推荐

  1. 大数据建设意义_从宜信中台构架看企业大数据建设的意义

    对于公司来说业务的属性是"分",越来越精细,不同的人干不同的事情,还干得越来越好,这就是业务.数据的属性其实是"合",要整合.联合,把所有的数据拿到一起去看待一 ...

  2. 华为大数据中心山西_吕梁智能大数据产业技术创新研究院 、华为山西(吕梁)大数据中心吕梁职业技术学院大数据学院同日揭牌成立...

    图为吕梁智能大数据产业技术创新研究院揭牌仪式现场.记者王益炜摄 在第二届"数谷吕梁·智赢未来"吕梁大数据产业发展推介会举办之际,8月18日,吕梁智能大数据产业技术创新研究院.华为山 ...

  3. odps传大文件到oss上_【大数据干货】数据进入阿里云数加-大数据计算服务MaxCompute(原ODPS)的N种方式...

    原文链接:http://click.aliyun.com/m/13946/ 想用阿里云大数据计算服务(MaxCompute),对于大多数人首先碰到的问题就是数据如何迁移到MaxCompute中.按照数 ...

  4. 大数据智能学院的硕士论文怎么写_大数据智能营销骗局,鹰眼大数据怎么样。...

    大数据智能营销骗局,鹰眼大数据怎么样.市面上总有一些大数据智能营销公司,为了把软件卖出去弄出很多荒唐的说法: 1.在别人网站上留言的客户信息,比如同行网站 2.app后台注册的客户.(了解更多威xss ...

  5. 大数据技术系列:图解【大数据平台开发】

    导言 在前面的文章<「大数据技术体系」学习实践导览>中,概要式的梳理了大数据平台的业务目标,大数据平台的架构框架,大数据平台中常用的技术及工具,数据治理四方面的内容,算是对自身所了解大数据 ...

  6. 大数据学习总结+JAVA学习总结+大数据面试+java面试+大数据java异常总结

    文章目录 一.java模块面试问题 1.动态代理 2.浏览器禁用Cookie后的Session处理 3.主从复制的流程[重要] 5.redis的数据类型[重要] 6.Junit测试的注解 7.缓存问题 ...

  7. 大数据培训有前途吗,大数据工资一般多少?

    大数据工资一般多少_参加大数据培训有前途吗?光环大数据了解到,近几年间大数据人才缺口就已高达百万,目前企业高薪都难以找到足够的大数据开发人才,大数据从业者的增长量,远远满足不了市场需求的扩张,大数据人 ...

  8. 大数据架构:全网最全大数据架构生态

    文章目录 简介 1.数据采集技术框架 2.数据存储技术框架 3.分布式资源管理框架 4.数据计算框架 (1)离线数据计算 5.数据分析技术框架 6.任务调度技术框架 7.大数据底层基础技术框架 8.数 ...

  9. 2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》 畅销书籍 清华大学出版社发行上市!

    2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作<SPARK大数据商业实战三部曲>畅销书籍 清华大学出版社发行上市! 本书基于Spark 2.2.0新版本,以Spark商业案例实战 ...

最新文章

  1. 对于STM32F103三轴机械臂控制器进行基本功能测试-关节角度读取
  2. 终端下中文乱码解决方法
  3. java.io.IOException: No space left on device
  4. 网页性能优化02-懒加载工作原理
  5. javascript创建对象的几种方式 .
  6. android action bar 风格,自定义ActionBar风格和样式
  7. 如何限制浏览器使用_论如何优雅地使用chrome 浏览器
  8. 为什么说ip协议是无连接协议
  9. 组合数学 —— 卡特兰数列(Catalan)
  10. 阿里人工智能实验室招聘计算机视觉算法专家-交互图像方向
  11. okhttp 源码解析 - 网络协议的实现 - HTTP 之 cookie 管理
  12. python做算法题_Python 笔试常见基础算法题
  13. 【HAVENT原创】Eureka 注册中心服务上线下线邮件提醒
  14. 大量精品国学论文免费下载
  15. 2019上半年网络工程师真题解析
  16. 豆瓣读书TOP250书籍信息爬虫脚本
  17. pytroch、tensorflow对比学习—功能组件(数据管道、回调函数、特征列处理)
  18. 例题—html(4)
  19. 域格4G模块专网设置说明
  20. VPP线程之间报文调度

热门文章

  1. MySQL递归查询父节点或递归查询子节点-陈远波
  2. Linux基础命令介绍十:文本流编辑 sed
  3. Theano2.1.5-基础知识之打印出theano的图
  4. python 装饰器入门
  5. [美文欣赏]清华胡宇迪教授谈
  6. 蘋果iPhone 3G S更出色
  7. 图文方式管理Linux服务器(Webmin)
  8. Java机器学习库ML之七分类预测输出概率值
  9. Java实现余弦定理计算文本相似度
  10. 美国-5大牛校--8条小牛--14好校--18很不错的大学