Pentaho公司的软件定位一直是做整合数据集成和分析,不过在即将发布的7.0平台中,该公司提供了用于加速和提升数据准备流程的功能。

升级后的分析、集成、数据准备工具于11月发布,支持用户在处理和准备过程中的任何环节直观地检查数据。这样数据科学家、数据工程师和业务分析师都可以使用图表、图形和其它可视化组件来动态检查数据,发现并提前解决潜在的数据质量问题,而无需等到完成整个分析工作才能发现。

例如,他们可以看到整合两个表的数据结果对于支持准确分析来说,是否缺少了很多数值;或者在抽取、转换和加载(ETL)集成处理过程中应用回归分析技术检查是否产生错误信息。Pentaho 7.0还支持IT团队发布预定义数据源给业务用户,这样可以加速数据准备阶段的协作。

Pentaho公司表示,在运行过程中,通过准备流程以协作的方式可视化检查和评估数据,这样的功能可以缩短数据科学家和其它用户为分析用途准备数据的时间。当然,数据工程师不大可能会对数据质量问题创建流程(减少了错误概率)。(2015年日立集团有限公司收购了Pentaho公司)

Pentaho 7.0还提供了新功能,支持与Spark SQL集成,方便ETL开发人员和数据分析师在Apache Spark集群中使用标准SQL的变体查询数据。还有几种其它类似功能也是专为处理大数据环境的数据而设计,包括支持Kafka消息队列系统、Avro和Parquet文件格式。

David Menninger是Ventana研究公司的一名技术分析师,他说Pentaho的新功能混合了分析和数据准备两方面的工作,这可能意味着数据管理的一种发展趋势。

越来越多的企业都希望可以把数据准备和分析任务更紧密地整合到一起,这样整合过程就更能以自服务的形式完成。Menninger说:“自服务数据准备成为了流行趋势。实际上,它需要与分析过程紧密集成。”

现在,Menninger认为Pentaho公司走在了市场的前沿,但是他预计其它厂商会很快跟风,推出比较类似的功能。

Paxata公司就是这样一个自服务数据工具供应商,该公司才初创几年,致力于拓展软件实现更高级功能。规划增加的功能包括:引导客户做必要的数据转换;通过机器学习技术帮助用户在语义层面更好地理解数据。

Paxata公司位于美国加州Redwood市,该公司上个月迈出了第一步,发布了同名软件的更新版本,新版本利用了Paxata连接技术,可以从不同的Hadoop集群、NoSQL数据库和其它系统中抽取整合数据。Paxata公司首席产品官Nenshad Bardoliwalla表示,该公司计划以季度为周期增加更多功能,不过全面打造设想的平台还有很长的路要走。

本文转自d1net(转载)

Pentaho 7.0更新:数据准备和分析两不误相关推荐

  1. php更新数据步骤,Thinkphp5模型更新数据方法

    thinPHP5模型更新数据的方法有两个一个是update,一个是save方法,下面看实际案例代码. namespace app\index\controller; use think\Control ...

  2. Apache Kudu 加速对频繁更新数据的分析

    为什么80%的码农都做不了架构师?>>>    上图是 Hadoop 生态体系中,存储引擎和应用场景的对应关系. 横轴代表数据查询分析的频度(Pace of Analysis),依次 ...

  3. JAVA中的GridView每一个赋值,在ASP.NET 2.0中操作数据之六十二:GridView批量更新数据...

    导言: 在前面的教程,我们对数据访问层进行扩展以支持数据库事务.数据库事务确保一系列的操作要么都成功,要么都失败.本文我们将注意力转到创建一个批更新数据界面. 在本文,我们将创建一个GridView控 ...

  4. GridView直接更新数据,kartik\grid\EditableColumn用法 [ 2.0 版本 ]

    GridView直接更新数据,kartik\grid\EditableColumn用法 [ 2.0 版本 ] 视图的_columns.php文件,这里用到的是crudajax生成的 <?php ...

  5. 03 使用T-SQL语句实现数据的添加、更新、删除测试分析 1214

    03 使用T-SQL语句实现数据的添加.更新.删除测试分析 1214

  6. Android9.0 SIM卡初始化---更新数据

    Sim卡初始化 启动过程中初始化 SIM卡的一些相关数据 主要的类及其作用: 类名 描述 PhoneGlobals 里面的OnCreate直接调用了 PhoneFactory.makeDefaultP ...

  7. mybatis之update返回响应条数/受影响行数(如果更新数据与原数据一致则返回0)

    需求:笔者最近有一个需求是这样的,每个机柜每1分钟都会发一个心跳包,这个心跳包的数据如果和mysql数据库存在的数据一样,那么就不要更新了,直接给我返回一个0,我会根据这个0判断要不要存入这个心跳日志 ...

  8. 百度绿萝算法2.0更新 外链数降低分析

    自百度绿萝算法2.0更新后,引来了很多站长对这次算法的讨论.重点是如何做外链.网站内部优化是否会全权代替外链.软文外链是否还要坚持做下去.正当站长们讨论的热火朝天的时候,以为百度打击的是那些以发布推广 ...

  9. BigData NoSQL —— ApsaraDB HBase数据存储与分析平台概览

    一.引言 时间到了2019年,数据库也发展到了一个新的拐点,有三个明显的趋势: 越来越多的数据库会做云原生(CloudNative),会不断利用新的硬件及云本身的优势打造CloudNative数据库, ...

最新文章

  1. R语言ggplot2可视化使用guide_axis函数避免X轴标签互相重叠(Overlapping)、Dodge Overlapping X-axis Text with guide_axis()
  2. ​kdevelop用法_weixin_44594953的博客-CSDN博客_kdevelop​
  3. X is not a member of 'cv'异常解决
  4. 【Unity 3D 游戏开发】Unity3D 入门 - 工作区域介绍 与 入门示例
  5. MIT_18.03_微分方程_Laplace_Transform_拉普拉斯变换_Notes
  6. JVM-08垃圾收集Garbage Collection【GC常用参数】
  7. Macbook 中如何通过命令行打开 vscode
  8. .Net环境下基于Ajax的MVC方案
  9. java吃豆人代码讲解_在吃豆人的这一关里,隐藏着来自程序员的深深恶意
  10. JAVA设计模式-适配器模式(Adapter)
  11. 没有人躲得过:被数学支配的噩梦
  12. java 物联网项目_物联网工程综合实践-JAVA WEB开发.ppt
  13. 高通SDX55平台:Modem Loopback测试指导
  14. 上门洗车APP --- Android客户端开发 前言及业务简介
  15. vue实现ps辅助线功能
  16. E/WindowManager: android.view.WindowLeaked: Activity com.xxx.xxx.xxx
  17. Java方法excel文件转换成xml文件
  18. Windows系统怎么使用TeamViewer打印
  19. Squeez-Net
  20. 20190912-1 每周例行报告

热门文章

  1. python使用openpyxl读取数据_Python-openpyxl读取和写入数据1
  2. 不间断电源ups标准_UPS不间断电源全套基础知识
  3. matlab decomposition filters,MATLAB小波去噪求助(附算法和显示图片)!不知自己哪个地方出了问题,求指点! - 信息科学 - 小木虫 - 学术 科研 互动社区...
  4. STC自动高速下载线
  5. 网站自己生成专题php,phpcms生成专题的同时自动生成专题相关文章
  6. 电脑硬件知识学习_学习计算机基础必读的4本经典入门书籍,自学编程必备书单!...
  7. linux降内核版本_ubuntu18.04 降内核版本的问题
  8. eclipse 右键项目为什么没有properties菜单_只需几步,从零开始搭建SSM项目
  9. linux解码base64工具,如何解码Linux中的base64编码行?(How do I decode base64 encoded lines in linux?)...
  10. mysql sql 1到10_(1.10)SQL优化——mysql 常见SQL优化