使用Datameer分析和可视化数据

Datameer使您可以轻松地将所有数据集成到Hadoop中。 这是一个端到端平台,消除了大数据分析任务的复杂性。 您可以在数分钟而不是数月内得出数据驱动的决策。 Datameer是一站式商店,可将您的所有数据放入Hadoop,分析数据并以您喜欢的格式可视化见解。

Datameer Analytics App Market是世界上第一个预构建的分析应用程序市场,通过它您可以简单地插入自己的数据并以图形方式查看最终结果。 您无需构建任何东西。

如果您具有从分布式源收集的大量数据,具有不同的结构,具有不断扩大的范围并且具有不同的速度,则Datameer可以帮助您实现数据“虚拟化”。 如果数据在云中,旧数据库中以及桌面上的电子表格中,则Hadoop很有帮助,但不足以使分布式数据有意义。 现在,借助Datameer,您可以像按照向导一样轻松地将所有数据集成到Hadoop中。 通过与所有常见的结构化和非结构化数据源的内置连接器,简化了大数据集成。 您只需在Datameer中指出:

  • 将哪些数据带入Hadoop以及如何
  • 一次性导入还是在添加新数据时进行流式导入
  • 根据您确定的时间表导入

分析工具

使用Datameer,大数据分析就像使用电子表格一样简单。 要建立分析,请使用向导执行以下操作:

  • 选择要在电子表格中使用的数据
  • 从250多种预建的分析功能中进行选择
  • 通过Datameer的Smart Sampling技术,以思想的速度使用迭代式点击分析

Datameer与多个Hadoop平台(例如Cloudera,Hortonworks和MapR)绑定在一起。 Datameer使用IBMBigInsights®,它是Apache Hadoop的可靠且企业就绪的实现。 Datameer和Cloudera共同提供了完整的大数据分析解决方案。 借助Cloudera的企业级数据中心,您可以以Hadoop原始的保真度集中并经济高效地存储所有数据。 任何符合标准的大数据分析平台均可与Datameer平台无缝连接。

可视化

数据分析工具有助于揭示务实的见解,应以用户偏爱的格式提供。 与Designer打包在一起的Datameer所见即所得业务信息图提供了拖放式可视化,而与数据类型,大小或源无关。 您从空白HTML5画布开始设计信息图表报告,该报告将在每次数据更新时自动更新。 您可以导入任何图像,嵌入视频,编写自由格式的文本以及无限地自定义广告。 借助HTML5,您的可视化内容可在任何设备上使用。

系统要求

用于生产环境的推荐硬件包括:

  • 1U服务器
  • 2个四核CPU
  • 8 GB以上的RAM
  • 2 x 1 TB硬盘驱动器(建议可用磁盘空间为250 GB)
  • RAID-0剥离
  • RAID-1个镜像
  • 冗余电源
  • 故障转移需要具有相同配置的备用服务器

表1显示了Datameer支持的操作系统。

表1.支持Datameer的操作系统
操作系统 注释
Ubuntu 10 10.04 LTS MySQL 5.1.41
Ubuntu 12 12.04 LTS MySQL 5.5
Debian 5(莱尼) 5.0.5 MySQL 5.1.47
Solaris 10 10 MySQL 5.1.30
红帽企业Linux(RHEL) 5.5、6.x MySQL 5.0.77
软呢帽 13
14
MySQL 5.1.48
MySQL 5.1.60
CentOS的 5.5
6.x
MySQL 5.0.77
MySQL 5.1.61
科学Linux 6.1 MySQL 5.1.52

在IBM SoftLayer上配置CentOS服务器

要在SoftLayer云中置备虚拟机,请使用以下IP详细信息:

  • 公用IP: 158.85.184.55
  • 伺服器IP: 10.122.153.190
  • 服务器名称: datameerpoc.softlayer.com
  • 地址: 10.122.153.190 / 158.85.184.55
  • 用户: root / xxxxx

安装Datameer

  1. 从Datameer网站下载Datameer。
  2. 使用WinSCP或FillZilla将datameer_apache_1.0.3-4.5.0-1.noarch.rpm文件拖到目录中的VM中。
  3. 将Datameer软件复制到usr / local目录,如图1所示,然后通过输入以下命令来授予必要的权限:
    chmod -R 777 datameer_apache_1.0.3-4.5.0-1.noarch.rpm
    图1.设置文件权限
  4. 在VM命令行中,通过输入以下命令来导出软件包:
    export INSTALL_LOCATION=/usr/local
  5. 在安装Datameer之前,请通过输入java -version命令检查是否已安装Java™编程语言。
  6. 如果未安装Java语言,请通过输入以下命令进行安装:
    sudo yum install java-1.7.0-openjdk-devel

    将显示一条消息,显示已安装的Java语言版本以及已安装的依赖项,如图2所示。

    图2.成功的Java语言安装消息

    安装Java语言之后,可以开始Datameer安装。

  7. 通过输入以下命令来扩展归档文件:
    rpm2cpio datameer_apache_1.0.3-4.5.0-1.noarch.rpm | cpio -idmv

    列出了存档中的文件,如图3所示。

    图3.扩展档案

    刷新目录路径。

启动Datameer应用程序服务器

要启动Datameer应用程序服务器:

  1. 通过输入清单1中的命令切换到Datameer。

    清单1.切换到Datameer用户并启动服务器
    su – datameer
    cd /usr/local/Datameer-trial-5.0.1-apache-1.0.3
    cd bin
    ./conductor.sh start
  2. 启动Datameer服务器后,打开URL http://158.85.184.55:8080的浏览器会话,该会话将带您进入Datameer软件协议,如图4所示。

    选择我同意许可条款 ,然后单击继续

    图4.软件协议
  3. 您应该看到Datameer仪表板,如图5所示,其中包含用于Home,Browser,App Market和Administration的选项卡。

    在Datameer仪表板的左侧,这些选项是过滤器,管理,分析,数据,示例,图像,用户和可视化。

    选择窗口左侧的管理员

    图5.欢迎屏幕

将CSV文件上传到Datameer服务器

要开始上传CSV文件,请点击浏览器标签,点击+图标,如图6所示,然后选择数据 > 文件上传

图6.添加项目的图标
  1. 在New File Upload窗口中,如图7所示,单击Browse 。 在文件类型字段中,选择CSV / TSV以使用我们的示例文件,然后单击下一步

    图7.指定文件类型
  2. 图8显示了我们示例的Define Fields选项卡。 Datameer团队在示例应用程序中提供了数据。 该文件显示了不同城市中的人们的年龄。
    图8.定义字段
  3. 在Data Details页面上,可以从Data Details选项卡中输入Delimiter,Schema和Column名称,如图9所示。在本文中,我们保留了默认数据,因为这里没有任何客户模式。
    图9.数据详细信息
  4. 对于样本量,请在Sample选项卡中保留Sample Records字段5000,如图10所示,然后单击Next
    图10.示例
  5. 提供数据的简短描述,如图11所示,然后单击Save
    图11.保存
  6. 图12显示该文件已成功加载到工具中。 选择删除记录 ,其他字段保持不变,然后单击下一步
    图12.占位符
  7. 您应该在“数据”标签下看到上传的文件。 指定文件名,然后单击保存 。 如图13所示,您可以看到所有保存的文件。
    图13.保存的文件
  8. 双击保存的文件(图13中的FileUpload)以查看当前状态,如图14所示。
    图14.文件的当前状态
  9. 单击新工作簿中的链接数据,然后单击浏览数据以查看结果,如图15所示。
    图15.结果
  10. 单击Download查看决策树,如图16所示。
    图16.决策树
  11. 单击图14中的在新工作簿中链接数据选项卡,以查看使用示例数据的选择,如图17所示。
    图17.分析选项
  12. 选择图17的红色框中突出显示的Decision Tree Sheet图标,进入图18所示的Settings窗口。在这里,您可以创建所需的表单或设置。 然后,将这些列拖放到设置框中。
    图18.设置
  13. 单击Create Sheet查看输出,如图19所示。
    图19.电子表格
  14. 从工具栏选项中进行选择,该选项在图20中的红色框中突出显示,以创建聚类表,决策树表,建议表,列依赖表和翻转表。 (我们的示例仅提供了一个样本表作为该软件的介绍。)
    图20.选择工作表
  15. 加载的数据将存储在Workbooks的Analytics文件夹下,如图21所示。要查看数据,请选择Home选项卡,然后选择Analytics
    图21.存储的数据

分析数据

要开始分析数据:

  1. 在Datameer中,单击“ App Market”选项卡,如图22所示。

    图22.应用市场
  2. 选择并安装LinkedIn Pro Network。 单击Authorize Datameer检索数据 ,如图23所示。将要求您提供LinkedIn个人资料认证。
    图23.安装LinkedIn Pro Network

    提供相关详细信息后,根据提示单击“ 确定 ”。 登录到LinkedIn Pro Network后,单击Save&Run ,如图24所示。

    图24.保存并运行
  3. 图25显示了LinkedIn Pro Network的第一个屏幕,以及您的连接是否成功。
    图25. LinkedIn Pro网络
  4. 等待数据完全加载,然后单击Open infographic以查看LinkedIn Statics屏幕,如图26所示。LinkedIn已对数据进行了排序和可视化。 例如,您可以查看您的LinkedIn个人资料中有多少朋友,有多少共同朋友,他们在世界上的位置等等。
    图26. Linkedin统计

    图27显示了您朋友在世界各地的位置。

    图27. Linkedin统计

例子

本节将介绍Datameer应用程序市场中的示例。

单击App Market选项卡(如图22所示),然后安装Tutorial Email Word应用程序。 该应用程序从您的LinkedIn个人资料中获取数据,并过滤诸如登录次数,使用该程序的次数等信息。

加载应用所需的时间因您的网络速度而异。 当看到“安装教程电子邮件单词复杂性”时,单击“运行” 。图28显示了安装进度。

图28.开始教程电子邮件词的复杂性

要查看上传到应用程序中的所有数据,复选标记符号应为绿色,如图29所示。

图29.上传的所有数据

单击“ 打开信息图”以查看电子邮件内容的可视化,如图30所示。

图30.信息图

要添加数据并将它们彼此链接:

  1. 单击浏览器选项卡(如图22所示)。
  2. 单击窗口左上方的+图标。
  3. 选择分析 > 工作簿

    您应该看到Add Data窗口,如图31所示。

  4. 选择用户 > 管理员 > 应用程序 > 资源 ,然后单击添加数据
图31.添加数据

从“简单”选项卡中,选择要显示和下载分区数据的分区,如图32所示,然后单击“全选”

图32.按分区过滤

数据已加载,如图33所示。这些列是从业务角度填充的。 您可以按年,按月,按日和按小时查看用户数据。

图33.示例数据

添加更多数据

返回“添加数据”窗口,添加更多数据。 选择资源 > 客户... ,然后单击添加数据 ,如图34所示。

图34.添加数据

如图35所示,您应该看到ID,Users,Email等的列表。

图35.新数据

您可以在此处合并两个不同的数据表。 单击工具栏上的Join Sheet来创建一个连接表,如图36所示。

图36.选择工作表和列

如图37所示,选择remoteUser > User > Clickstream_Data > Customer_Profile / User ,然后单击Create Joined Sheet

图37.创建连接表

图38显示了组合数据表。

图38.组合数据表

现在,您已经将两个工作表添加在一起,请从当前工作表中单击“ 添加其他工作表 ”。 您应该看到“公式生成器”窗口。 选择第一列,称为Group,在图39的红色框中突出显示。选择GroupingGROUPBY ,然后单击OK

图39.公式生成器

选择第二列并重复前面的步骤以查看图40中的数据。第二列基于第一列中的所选对象。 (第二列将显示第一列对象的相关属性。)

图40.访客数据

要过滤数据,请点击Apply Filter 。 选择您的条件,然后单击Create ,如图41所示。

图41.将过滤器应用于表

要保存数据,请从工具栏中单击“ 保存 ”,为文件命名,然后再次单击“ 保存” ,如图42所示。

图42.保存工作簿

所有保存的数据都存储在Workbooks文件夹中,如图43所示。

图43.保存的数据

以图形方式可视化数据

要可视化信息,请单击窗口左上方的+图标,然后选择可视化 > 信息图表 。 您应该看到如图44所示的窗口。

图44.保存的文件

将饼图小部件拖动到画布上。 将数据文件拖到饼图上,以查看图45中所示的结果。

图45.信息图

从工具栏中单击“ 保存 ”,然后在窗口中单击“ 保存 ”。 图46和图47显示了您选择的项目。

图46.以图形方式可视化数据

从图47中可以选择Browser

图47.选择浏览器

行政

如果需要再次启动应用程序,请输入bin/conductor.sh start

要停止应用程序,请输入bin/conductor.sh stop

结论

有多种平台和工具可帮助您从大数据中提取重要见解,但拥有端到端平台以加快分析过程至关重要。 Datameer被定位为针对内部和外部环境的下一代大数据分析平台。 您可以使用基于云的Datameer减轻与大数据分析相关的许多复杂性。 本文使用一个示例应用程序,展示了如何将Datameer迁移到IBM SoftLayer云并对其进行配置以实现最佳性能。


翻译自: https://www.ibm.com/developerworks/analytics/library/ba-big-data-datameer-softlayer-trs/index.html

softlayer iso_在IBM SoftLayer上使用Datameer从大数据中获得敏锐的见解相关推荐

  1. softlayer iso_使用IBM SoftLayer标记简化操作

    在本教程中,我们向您展示如何使用IBM SoftLayer API使用Python编程语言来标记和列出设备. 标记使您能够识别您的云基础架构资产,这有助于简化其他业务流程,例如报告和计费. 我们提供了 ...

  2. 大数据打造你的变美频道——数加平台上小红唇的大数据实践

    在2017在线峰会--票选最美云上大数据暨大数据技术峰会上,来自小红唇的王洋分享了数加平台上小红唇的大数据实践.他对数据仓储解决方案和搜索引擎进行了详细介绍.通过算法平台应用的基于视频元信息的回归.近 ...

  3. 史上最全的大数据入门手册!

    一.大数据分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能 ...

  4. “云”上贵州,阔步大数据时代

    国家级新区贵安新区日益便捷的交通. 资料图片 2014年3月,北京. "贵州·北京大数据产业发展推介会"在中关村国家自主创新示范区举行,仅3小时的会议,共签约项目35个,总金额达5 ...

  5. 上亿级的大数据量,如何高性能实现展示分析?

    上亿级的大数据量,如何高性能实现展示分析? 日常一提数据分析和可视化,就想到这个工具操作要多简单易用,图表要多美多炫,然而总是忽略背后的数据支撑. excel 几十万行数据就卡死崩,谈何数据透视表.可 ...

  6. 史上最全的“大数据”学习资源

    2019独角兽企业重金招聘Python工程师标准>>> 资源列表: 关系数据库管理系统(RDBMS) 框架 分布式编程 分布式文件系统 文件数据模型 Key -Map 数据模型 键- ...

  7. 原创干货 | 史上最全的大数据学习资源(Awesome Big Data)

    很多人在学习大数据的时候比较迷茫,不知从何学起,也不能够比较系统.全面的了解大数据框架.为此,过往记忆花了一个周末的时间把 Awesome Big Data (https://github.com/o ...

  8. 收藏 | 史上最全的“大数据”学习资源

    2019独角兽企业重金招聘Python工程师标准>>> 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门.当今"大数据" ...

  9. 更好地在云上:物联网,大数据和人工智能

    就在几年前,公司主要通过创新和数字化转型来脱颖而出并保持竞争力. 自从过去几年以来,数字技术和云计算的迅猛发展改变了这种观念. 如今,组织必须具有创新性,并利用最新技术来保持业务正常运转. 实施在线零 ...

最新文章

  1. php server script name,$_SERVER[SCRIPT_NAME]变量可值注入恶意代码
  2. 深度特征提取方法_深度学习|三维重建:StereoDRNet
  3. EOSIO:EOSIO最新版1.4.0 钱包开发环境搭建
  4. 关于README的内容
  5. spring+hibernate中clob、blob字段的处理方法
  6. 【带着canvas去流浪(13)】用Three.js制作简易的MARVEL片头动画(下)
  7. c# 循环com,分别对串口写入与读取,获取需要的串口信息
  8. 大数据技术原理与应用学习笔记(一)
  9. 开启笔记本WIFI热点功能Microsoft Virtual WiFi Miniport Adapter
  10. CRM IFD部署更换证书 - adfs证书更换
  11. 幽默感七个技巧_16个聊天幽默技巧 几招让你变的风趣幽默
  12. windpy 连接数据库_python wind数据库
  13. 硅谷始祖-仙童半导体浮沉录
  14. 2017年11月最新Nagios4.3.4部署 邮件音频告警 自定义监控脚本
  15. 电子邮件及PE工作盘
  16. android新手用什么工具包,分享七个很是有用的Android开发工具和工具包
  17. 【golang】go-admin系统进行项目开发,还是一个非常不错的项目,使用golang做管理后台,非常方便项目的快速搭建,基础功能鉴权已经完善了,就需要开发相关的业务逻辑即可。
  18. 教你如何用duilib实现控件可拖动,可拖拽
  19. 索引,主键,唯一索引,联合索引 的区别
  20. 基于TI SitaraAM335x ARM Cortex-A8处理器设计的评估板的拓展IO口和0ADC接口

热门文章

  1. input的样式设置
  2. VHDL 整数转化为向量 integer to std_logic_vector
  3. 一个屌丝程序猿的人生(一)
  4. pdfbox报错缺少字体问题解决
  5. 袁毓林 李强:怎样用物性结构知识解决“网球问题”?(下)
  6. gloo pytorch_使用Solo Gloo等微服务/ API网关公开在AWS EKS中运行的微服务
  7. 杭电OJ 1047(C++)
  8. JavaScript直接通过id获取对象
  9. 第七周项目(5):排队看病时模拟
  10. 初,中高级宏观经济学区别和联系