引入BI系统是减少重复劳动、增加产出的必要手段和步骤

什么是Metabase

在选择使用Metabase之前,也调研过许多BI软件,满足免费开源,灵活多变,我们选择了Metabase

Metabase是一款开源免费的BI软件,适用于中小型企业、初创公司,用最少的投入,使用数据驱动,为公司带来更多价值。

Metabase基于一种ClojureLisp方言编写,运行起来是个Tomcat。支持多种数据源,例如常见的MySQLPostgreSQL,以及类似Redshift这样的数据仓库。

Metabase基础架构

Metabase的架构如下图所示,自身需要一个存储自身数据以及Schema数据的数据库,另一侧则是需要连接我们自身的数据仓库。Metabase本身也支持多种数据库存储自身数据。

Metabase本身对配置要求并不高,使用一个2核4G的云主机就能跑起来了,但是在导出大数据量Excel的时候,CPU就比较吃紧了。

安装和初始化使用

安装是非常简单的,我们使用Docker进行安装,非常方便升级。 默认情况下,使用的是一种类似SQLite的数据库,名为H2,我们需要改成自己的PostgreSQL数据库,下面是我的docker-compose.yml文件:

version: '3'
services:metabase:image: metabase/metabaserestart: alwaysenvironment:MB_DB_TYPE: 'postgres'MB_DB_DBNAME: 'metabase'MB_DB_PORT: '5678'MB_DB_USER: 'metabase'MB_DB_PASS: '*******'MB_DB_HOST: '192.168.1.1'JAVA_TOOL_OPTIONS: '-Xmx2g'# 下面是配置时区JAVA_TIMEZONE: 'Asia/Shanghai'ports:- "3000:3000"

直接使用docker-compose up -d就可以启动了。

打开3000端口,就能看见我们的metabase了。

点击Let's get Started就可以开始配置了。(建议使用英文版,中文翻译实在是不咋样)

一路下一步,按照提示配置好,就可以了

进入之后,可以看到示例数据了。随便点一点,可以看到相关的图表。下面介绍Metabase的概念。

Metabase基本概念

Metabase中最基本的概念是Question,任何一个简单结果集,都可以看成是一个Question,而数个Question可以放到一个组里面,称之为Collection,而Dashboard也是位于Collection当中。

1. Question

对于Metabase ,有三种Question类型:

  • Simple Query
  • Custom Query
  • Native Query

其中前两种,我个人感觉差别不大,仅仅是UI不同,有些许变化,都是可以互相转换的,点击右上角即可转换,都是通过图形化界面创建查询图表,其中主要需要选择查询的指标和Group By的参数,或者是Join的图表。而Native Query是指数据库查询,可以通过数据库查询创建图表。

2. Collection和Dashboard

创建好查询可以将Question保存,存入Collection并在Dashboard中引用。其中Dashboard仅支持五分钟的自动刷新粒度,作为实时报表,还是有些难度的。

一波三折

BI上线的过程也是一波三折,我想也是很多和我一样刚接触BI的人一样,对整个过程没有一个概念,下面我要分享的是我们在建设BI系统中遇见的种种问题。

1. 团队协作问题

数据有了以后,我们应该如何进行团队协作?数据看板应该由哪一方进行配置?

大部分小伙伴第一次咨询我Metabase问题的时候,都是想让业务部门自生自灭,作为基础设施支持,只需要将数据源和BI软件搞好就好了。其实这样的想法是极度错误的。如果业务部门没有专门的数据分析师,即使引入了BI软件,业务部门也只能是干瞪眼。所以在这里,我们选择的是,研发部门在前期配合数据分析师(如果没有数据分析师,则要求研发来执行),根据业务需求,完成看板配置。同时应该考虑为业务部门招聘专门的数据分析师,能够完成业务部门数据提取操作,从而提升灵活性。关于数据分析师的问题,我在后续的文章里面会讨论。

2. 数据仓库性能问题

我们将生产数据库中的订单数据导入至数据仓库所在数据库,当时选型是用了一个PostgreSQL做数据库。万万没想到,在接入数据库后,数据库无法承受压力,CPU直接跑满,长时间无法平稳运行,最终花大价钱切换成阿里云ADB for PG解决。

3. Metabase自身限制

免费版本Metabase有一些限制,比如导出只能接受一百万行以内的,这个时候就需要一些取舍,过于复杂的,可以要求业务部门提工单解决,虽然依然需要做一些操作,但是无需再为每次导出重新编写SQL,减少了业务流程。

总结

Metabase作为一款免费开源软件,还是非常棒的选择。而真正引入BI系统,也很难一步到位的将研发和业务部门之间划清职责范围,需要一步一步地将复杂工作标准、流程化,最终实现解放生产力的终极目标。

启动metabase_引入开源BI软件Metabase——数据分析平台建设(一)相关推荐

  1. 智慧平安社区系统开发解决方案,智慧小区大数据分析平台建设

    智慧平安社区系统开发解决方案,智慧小区大数据分析平台建设 智慧平安社区系统开发解决方案实现了对小区"人.地.车.物.事"的动态掌控,提升了社区的安全性,方便居民出行,为有特殊需要的 ...

  2. 重点人员动态管控系统开发,智慧公安大数据分析平台建设

    重点人员动态管控系统开发,智慧公安大数据分析平台建设 重点人员动态管控系统以公安七类人员为基础,以智能预警.组合战法.精确管控为目的,综合利用各类数据资源,进行大数据深层挖掘和智能研判,实现对重点人员 ...

  3. 郑州商品交易所与阿里云达成合作,推进核心数据分析平台建设

    简介:5月20日,郑州商品交易所(以下简称"郑商所")日前与阿里云达成技术合作,通过引入阿里云AnalyticDB云原生数据仓库,进一步提升郑商所数据平台数据分析效率和用户体验. ...

  4. 【金猿案例展】某国家级研究所——组学大数据分析平台建设

    荣联科技集团案例 本案例由荣联科技集团投递并参与"数据猿年度金猿策划活动--2020大数据产业创新服务企业榜单及奖项"评选. 大数据产业创新服务媒体 --聚焦数据 · 改变商业 大 ...

  5. 63页智慧政务大数据分析平台建设和运营整体解决方案

    智慧政务大数据云平台的建设是实现电子政务升级发展的突破口,是政府从"管理型"走向"服务型.智慧型"的必然产物,也是引导智慧城市建设的主干线. 1.缺乏顶层设计, ...

  6. 186页13万字智慧能源大数据分析平台建设方案

    目录 智慧能源大数据分析平台及能源集团数字化平台建设方案 目录 一.相关项目背景 二.需求理解 2.1 需求理解 三.方案设计 3.1 整体方案设计 3.3.1 整体架构 3.3.2 解决方案说明 3 ...

  7. 自定义sql_一个简单易用的开源BI软件,专为SQL用户设计的开源库

    poli 一个易于使用的SQL报告应用程序,专为SQL爱好者而设计. SQL中的电源数据分析,可获得更快的业务洞察力. 特性 ⚡️ 自托管和轻松设置 平台独立的Web应用程序 单个JAR文件+单个SQ ...

  8. poli-java开源BI软件

    目录 快速入门 Github地址: 特性 一个易于使用的SQL报告应用程序,专为SQL爱好者而设计. SQL中的电源数据分析,可获得更快的业务洞察力. 快速入门 https://shzlw.githu ...

  9. 开源BI平台软件特性对比

    原文转载地址: 头条号 IT思维 前提 数据时代来临,随着更多的社会资源进行网络化和数据化改造,数据所能承载的价值也必将不断提到提高.于此同时数据正在成为企业重要的生产材料之一,企业可以通过数据来完成 ...

最新文章

  1. AI算法在FPGA芯片上还有这种操作?| 技术头条
  2. 《术以载道——软件过程改进实践指南》—第1章1.1节对CMMI的基本认识
  3. openwrt dhcp不分配_【装维技巧】DHCP工作原理详解(上)
  4. iview日期选择器更改显示日期书_如何动态 设置 iview DatePicker 控件的 禁用日期(option)...
  5. 工业级POE交换机技术优势及供电方法详解!
  6. 解决mysql表被crash的一次维护始末
  7. 5G精华问答 | 除了速度,5G还能带来什么?
  8. 东北大学c语言真题及答案,东北大学C语言总测试题(含答案).pdf
  9. 分布式事物一致性设计思路
  10. 授权(Authentication)
  11. quartus仿真27:JK触发器构成的同步二进制加法计数器(分析)
  12. 对比学习Python实现
  13. StrictMode使用和查询联系人手机联系人和sim卡联系人
  14. 通过代码自定义cell
  15. 【python练习题01】字符串格式化输出
  16. 如何卸载 adobe creative cloud?
  17. 广域虚拟数据空间中边缘缓存系统的研究与实现
  18. Quartus II下载器件库(新)
  19. mflac0这个格式解码不成功
  20. vscode +git diff 快速定位修改差异

热门文章

  1. 最新!兰州大学发布对上海市的新冠肺炎疫情预测!
  2. 复盘阿里城市大脑这3年
  3. CGCKD2021大会报告整理(3)--贝叶斯深度网络
  4. 通过一个例子来理解二维码纠错机制
  5. linux线程间同步(1)读写锁
  6. 图结构练习——最小生成树
  7. 揭晓阿里云神龙团队拿下TPCx-BB排名第一的背后技术
  8. 数禾云上数据湖最佳实践
  9. 分享实录 | 企业CICD规模化落地浅析
  10. 开源应用诊断利器 Arthas GitHub Star 突破两万