Presto是什么?

Presto是一个开源的分布式SQL查询引擎,它以集群的方式运行,采用MPP架构,用在交互式分析查询场景下,可以将多种不同数据量级(从GB到PB)的数据源组合起来进行统一计算。Presto本身只是一个查询引擎,它通过connector的方式完成外部数据源的接入;也就是说通过使用Presto提供的ANSI标准SQL,可以完成多种数据源的标准化计算工作。以下是Presto在数据栈中所处位置的图形化展示。

Presto是专为交互式分析而设计和编写的,其速度接近商业数据仓库的速度,可以应用在像Facebook等体量庞大的公司。Presto通过Presto基金会来推动其自身的发展,该基金会是隶属于Linux基金会的独立非盈利组织。

Presto能做什么?

Presto允许查询任何数据源的数据,例如:Hive、Cassandra、关系型数据库或其他专有数据存储。一个单独的Presto查询可能由多个不同数据源的数据组成,这就给大家提供了一种在整个公司层面上做多数据源综合分析的能力。

Presto的定位是解决一些响应时间在秒到分钟级别的分析场景。让大家除了使用昂贵的商业解决方案进行快速分析或使用需要过多硬件的“免费”解决方案之外,又多了一种选择。

Presto的生产部署应该包含一个coordinator和多个worker。查询从客户端(如Presto CLI)提交给coordinator。coordinator解析、分析和计划如何执行该查询,然后将处理分发给worker。

Presto的几个典型应用场景如下

  • 交互式分析:通过使用可视化界面、看板、BI工具等进行快速数据查询和分析,时间通常在秒级到分钟级别;
  • ETL批处理:提高数据仓库中数据处理的吞吐量和效率;
  • A/B测试:通过假设检验,选择要切片和切割的数据,并评估产品变化,结果以小时(而不是天)为单位。
  • 应用分析:构建面向外部的定制报告工具,低延迟、高并发(数百个)。

谁在用Presto?

Presto是Facebook开源的MPP架构的OLAP查询引擎,所以Presto在Facebook内部的交互式查询场景中已经得到了广泛的使用,甚至接入了其300PB的数据仓库。每天有上千名FB员工使用Presto处理超过3万多个查询。其他有在使用的企业包括很多头部互联网公司:Airbnb、Dropbox、美团等。

以下是两位国外大佬对Presto的评价:

Presto is amazing. Lead engineer Andy Kramolisch got it into production in just a few days. It's an order of magnitude faster than Hive in most our use cases. It reads directly from HDFS, so unlike Redshift, there isn't a lot of ETL before you can use it. It just works. —— Christopher Gutierrez, Manager of Online Analytics, Airbnb

We're really excited about Presto. We're planning on using it to quickly gain insight about the different ways our users use Dropbox, as well as diagnosing problems they encounter along the way. In our tests so far it's been rock solid and extremely fast when applied to some of our most important ad hoc use cases. —— Fred Wulff, Software Engineer, Dropbox

Presto不是什么?

因为很多社区的小伙伴都把Presto称作“数据库”,所以这里要澄清一下Presto不是什么。

Presto可以提供标准数据库的很多特性,可以理解标准SQL查询。但是Presto并不是我们通常认为的关系型数据库。它不能替代我们常用的MySQL、PostgreSQL或Oracle,因为它不是为在线事务处理(OLTP)而设计的。当然这个问题对于Doris、Hive、ClickHouse等也是普适的。所以还是像上面说的,Presto只适合OLAP等分析类场景。

大数据产品研究 - Presto简介相关推荐

  1. 阿里云发布大数据产品ODPS 6小时处理100PB数据

     阿里云发布大数据产品ODPS 6小时处理100PB数据 阿里云发布ODPS 可分析PB级海量数据 新浪科技讯 7月8日下午消息,阿里云计算发布大数据产品--ODPS.通过ODPS在线服务,小型公 ...

  2. 国内首批!阿里云实时计算 Flink 版通过信通院大数据产品能力测试

    简介:阿里云实时计算 Flink 版通过信通院分布式流处理平台测评,成为国内首批通过测试的厂商. 2021年6月24日,中国信息通信研究院(以下简称"中国信通院")在北京主办&qu ...

  3. 广州市城市智能交通大数据体系研究与实践

    广州市城市智能交通大数据体系研究与实践 张孜1, 黄钦炎2, 冯川2 1 广州市交通运输局,广东 广州 510620 2 广州交通信息化建设投资营运有限公司,广东 广州 510620 摘要:为了构建现 ...

  4. 基于云原生的大数据产品前端实践 | 第七期图文直播文字回放

     点击"蓝字"关注我们 2月5日晚,智领云第七次社群图文技术直播如约而至.本次直播由智领云Web开发经理陈磊为大家分享了<基于云原生的大数据产品前端实践>主题内容,其中 ...

  5. 金融科技大数据产品推荐:荣之联·风报—人工智能企业情报分析系统

    荣之联·风报在企业对外投资管理.企业内部管理.渠道管理.内部审计.司法调查.行业研究和日常经营中均具有丰富的应用场景.以企业对外的投资管理为例,荣之联·风报可以被灵活应用于对投资标的利益相关方的监测. ...

  6. 大数据24小时:链家研究院发布地产大数据产品Real Data,上海交大与依图共建AI联合实验室

    联发科预计推出两款P系处理器,聚焦人工智能与面部识别:上海交大与依图医疗合作,共同成立人工智能联合实验室:链家研究院发布地产大数据产品--Real Data--以下为您奉上更多大数据热点事件 编辑 | ...

  7. 金融科技大数据产品推荐:金鹏汽车金融大数据风控系统

    金鹏汽车金融大数据风控系统主要基于大数据科技.决策树规则引擎.深度学习等多项核心技术,有效针对新车贷款.二手车贷款等业务,提高风控效率. 官网 | www.datayuan.cn 微信公众号ID | ...

  8. 金融科技大数据产品推荐: 换汇API/海外支付API——让跨境支付更简单

    官网 | www.datayuan.cn 微信公众号ID | datayuancn 本产品为数据猿推出的"金融科技价值-数据驱动金融商业裂变"大型主题策划活动第一部分的文章/案例/ ...

  9. 一个与微软大数据产品经理交流的机会 | 独家

    大家好: 我是徐倩,微软大数据部门高级产品经理,毕业于北京大学. 2011年我开始踏入互联网行业,担任百度翻译的实习产品经理.毕业四年,一直在微软大数据核心团队担任产品经理.迄今为Office365和 ...

最新文章

  1. React 项目----setState 方法修改 state (16)
  2. 中介分析 相对直接效应 相对简介效应_中介效应分析方法和流程
  3. SAP WM初阶之移动类型设置里的Additional Data?
  4. CentOS6软件包管理
  5. nginx反向代理结合apache和php的配置示例
  6. kubernetes-Pod结构
  7. jenkins的历史
  8. vm虚拟远程部署windows驱动
  9. python列表的小东西_小谈python里 列表 的几种常用用法
  10. python工具用什么语言_Python中一些自然语言工具的使用的入门教程
  11. numpy 常用api(三)
  12. 鼠标光标一直在闪烁_硬核鼠标科普,选出适合你的鼠标
  13. Docker 网易镜像仓库使用
  14. java单词200个,请收藏!贼有用
  15. 国内开源镜像(下载Linux系统)
  16. 如何加声调口诀_汉语拼音声调标注口诀
  17. 福州铁通DNS是多少
  18. 赛制出炉!西门子白帽黑客大赛吹响集结号
  19. Gradle 2.0 用户指南翻译——第十九章. Gradle 守护进程
  20. Android BLE GATT CONN LMP TIMEOUT 0x22

热门文章

  1. 竞品商业情报收集和竞品商业情报分析该怎么做?
  2. 深度学习: 数据扩充 (Data Augmentation)
  3. ExtJs 学习教程,个人感觉不错。
  4. HTTPS能否避免流量劫持?
  5. coreldraw x4怎么写字_CorelDRAW实例:给文字排版的几个小技巧(4)
  6. css html 鼠标手型,鼠标形状,鼠标效果,样式
  7. 灾备联盟牵头研制《云灾备技术发展趋势与应用白皮书》
  8. 【reverse】2021 极客大挑战(部分)
  9. 蓝桥杯-第九届决赛——采油
  10. 数据科学分布——二项式分布