knime 大数据

Knime(K是无声的,因此发音为nīm )是一个高度评价的数据分析平台,具有广泛的适用性,并且与其他产品(例如与数据库,语言,机器学习框架和深度学习框架)进行了许多集成。 Knime的理念是包容性,并“融合”您要使用的任何软件和数据源。

该平台的探索,模型构建,可视化,报告和开发部分以及社区扩展都是开源的。 提供协作,自动化,管理和部署功能的Knime Server和合作伙伴扩展都是商业化的。 Knime Analytics Platform和Knime Server可用于本地安装以及AWS和Azure云。

[InfoWorld的要点: 用于AI开发的5种最佳编程语言 。 • 为什么应该使用Python进行机器学习 。 • Julia与Python的对决:Julia语言在数据科学方面的兴起 • 五个 用于数据科学的 基本Python工具(现已改进) • 数据科学的Python发行版Anaconda入门 。 • Python的Anaconda发行版中的新增功能 。 | 通过InfoWorld的App Dev Report新闻通讯了解编程方面的热门话题。 ]

在本教程中,我将专注于开源Knime Analytics Platform和选定的开源扩展。 我的目标是带您找到一个现有的Knime工作流程,以用作自己的数据科学工作的起点,并充分了解Knime工作流程以对其进行自定义。 为了在有限的空间内完成此操作,我将带您参考Knime自己的一些材料来填充细节。

为什么要使用Knime?

如果您希望通过从处理元素(称为节点)以图形方式组装处理管道(称为工作流)来构建模型,请选择Knime来满足您的分析需求,如以下所示的简单分类器工作流所示。 如果您喜欢编写代码或在电子表格中运行模型,请选择其他工具。

IDG

Knime Analytics Platform展示了一个非常简单的,带有注释的工作流程示例。 [ 查看大图 。]

如果您想混合使用语言和工具,则Knime是将它们融合在一起的一个很好的框架。 如果您的组织中有数据科学家可以构建模型和工作流程以供分析师应用,则Knime也非常适合,特别是如果您购买了Knime Server订阅。

与具有模块和框架的编程语言(例如带有Scikit-learn的Python和深度学习框架)相比,拥有图形工作流程设计器使Knime更易于学习和使用。 但是,我之前所说的关于个人偏爱的内容仍然适用。 简单不一定意味着更好,特别是对于训练有素的程序员和数据科学家而言。

Knime拥有2,000多个可用节点,具有相当多的功能-比您一次学习所有功能要多得多。 这些节点包括许多领域,例如IO,视图,分析,数据库连接器,结构化数据,脚本,工具和服务,工作流,社交媒体,报告和化学-仅包含基本节点和一些可用扩展。 报告扩展使用开源BIRT包。

Knime通常使用具有高可靠性和准确性的同类最佳算法,例如R和IBM Modeler。 正如最近的一篇学术论文所讨论的,其他软件包并非总是如此。

尽管Knime本身是Java应用程序,但其许多扩展使用其他语言。 例如,最好的内置可视化工具使用JavaScript图形库,并且脚本扩展包括R和Python类别。 自Knime 3.6.1起,一些深度学习扩展仍被归类为Knime Labs的预览。

Knime Analytics Platform概述

Knime Analytics Platform建立在Eclipse之上。 从下面的屏幕图像中可以看到,从左上角顺时针方向看,这里有一些窗格,用于浏览本地和远程服务器工作流程,显示和编辑工作流程,显示当前所选节点的描述,显示控制台输出,用于显示当前工作流程的大纲,以及浏览已安装的节点。

IDG

Knime欢迎屏幕,显示用于显示和编辑工作流程以及浏览节点的窗格。

某些常用的Eclipse chrome已被删除,因此您不能轻易迷失于其他插件,但是帮助仍然主要是Eclipse。 虽然在的帮助下底部的Knime节点,内容比你可以找到关于Knime的网站,并在实际的平台是什么老。 假设您已连接到Internet,建议您在浏览器中转到Knime学习中心以获取参考,而不要打开本地帮助。 在使用时,请下载初学者备忘单 。

Knime工作流通过将节点的输出和输入端口连接到模型数据流来将节点绑定在一起。 您可以通过将节点从资源库中拖到工作流窗格并绘制端口之间的连接来创建它们。 工作流本质上是自我记录的,但是您可以通过在工作流窗格中添加注释来进行改进,就像我们在第一个屏幕截图中所做的那样。

节点在数据上执行任务,通常需要在运行之前对其进行配置(双击该节点以显示属性表)。 节点在操作块下方显示交通信号灯以指示其状态:成功运行后,红色表示未配置,黄色表示已配置,绿色。

端口是数据流动的地方。 通常,节点为绿色后双击输出端口将显示数据。 对于图形视图输出端口,双击该端口将显示一个图形窗口。

我推荐的Knime入门课程的第1章包括一个视频,演示基本的工作流程操作。

Knime应用

您可以用Knime做什么? 在哪里适用?

Knime用于许多领域,包括客户情报,社交媒体,金融,制造,制药,零售,跨行业和政府。 这不是一个完整的列表,但是Knime已记录了其中每个示例工作流程的示例 ,如下所示。 您可以在Knime示例服务器上找到其他示例工作流,您可以通过在Knime Explorer窗格中的“示例”下双击来从Knime Analytics Platform中访问这些工作流。

IDG

Knime应用领域。

安装Knime和扩展

此时,建议您在自己的计算机上安装Knime。 这很简单。 浏览至初步下载页面 ,填写第一页上的表单以注册帮助和更新,然后移至实际下载页面以获取Windows,Linux或MacOS的安装程序。 对于Windows,您有几种选择。 对于Linux和Mac,每个都有一个选择。

我建议您还下载《 Knime快速入门指南PDF》 ,以便您可以在单独的窗口中查看它,而不必依赖可以在工作台中查看的副本。 《快速入门指南》中讨论或显示的某些内容已过时,但不足以使您感到困惑。 例如,安装部分讨论将下载文件解压缩到目录中,但是其中一些可能的下载文件是您需要运行的安装程序,例如MacOS安装程序。

首次运行Knime时,您会看到一个工作区选择器。 现在使用默认值。 然后,您将看到一个欢迎屏幕,类似于本教程概述部分中的屏幕截图。 在“这里的去向”部分中有一个获取其他节点的选项。 有必要下载所有其他节点,甚至是听起来没有用的节点,理由是所提供的功能和示例即使在节点声称的用途之外也常常具有价值。

如果您不想立即执行此操作,则可以随时使用欢迎工作流程中的链接或使用“文件|添加”来添加节点。 安装Knime扩展程序…”菜单项。 两种方法都将调出Eclipse“可用软件”安装程序。

IDG

Knime节点安装。

我建议您花一些时间浏览平台实例中安装的Knime节点,并通读《 Knime Node Guide》 ,以便大致了解可用的内容。 这也是阅读《 Knime快速入门》指南和《 要做的七件事》页面并逐步执行步骤的好时机。

您将使用Knime进行的工作是创建工作流,以导入和清理数据,将数据转换为适合您要拟合的模型的新变量,然后执行模型拟合和评估,最后生成报告。 Knime拥有您所需的大部分或全部。 如果您需要使用其他软件包或您自己的脚本来扩展Knime以实现您的目标,则应该能够找到有助于将它们绑定到Knime工作流程中的节点。

Knime示例工作流程

“ 要做的七件事”页面建议您通过安装在“示例工作流|示例”下的“构建简单分类器”示例进行工作。 基本示例。” 它对标准数据集进行决策树分类。 它以前使用的是虹膜形态数据。 现在,它使用人口统计数据来预测收入。

该示例是一个很好的开始。 我要添加到正式讨论中的唯一一件事是指向工作流工具栏中的双箭头图标,该图标将执行所有节点。 您可能还需要将鼠标悬停在工具栏上的每个图标上,以查看其作用及其键盘快捷键。

IDG

Knime工作流程工具栏。

快捷键通常是面向Windows的功能键,但是您可以通过在按下Shift-F7的同时按fn键(在所有可用节点上执行)来使它们在Mac上可以使用。 如果您想使用在Mac上更方便的组合键,请使用“系统偏好设置| 键盘| 快捷方式| “应用程序快捷方式”窗口,添加Knime应用程序,然后将您的首选键映射到“节点”菜单项。

“ 要做的七件事”页面还建议您从示例服务器下载工作流。 它提出了一些建议,并举例说明了其中的一个建议:情感分类,该模型通过分析文本来预测IMDB电影评论是正面还是负面。 这是出色的第二步。

使用这两个工作流程,我希望您单击每个节点并阅读说明,该说明将显示在右侧。 我还希望您尝试研究“数据融合”和“简单报告”示例,以了解如何使用Knime进行ETL和生成报告。

Knime下一步

在这一点上,我建议您花一些时间在Knime Example Workflows上 。 您可以浏览所有主题,并查看可能感兴趣的元信息。 您还可以搜索感兴趣的特定领域。 与“情感分类”一样,复制要运行和自定义的所有工作流程,然后将其放入本地工作空间。 这是添加一些工作流组以将分析组织到项目中的好时机。

Knime学习中心是下一个浏览的好地方,因为您可能尚未了解针对不同数据和不同(或更多)算法自定义工作流所需的全部知识。 根据您的背景,兴趣和技能水平,您可能需要查看学习中心中的各种用法和应用程序领域。 如果您打算开发自己的节点,那么SDK信息现在位于GitHub上 。

在各种“学习中心”应用程序选项卡下,有几本书和课程建议。 我看了几本书。 内容很好,尽管Knime UI的图形性质意味着操作说明需要大量屏幕截图以及有关单击位置的详细说明,这意味着它很容易在杂草中迷失。 我还浏览了推荐视频中的六个。 只要您了解演讲者的口音,您就会发现这些演讲很有用。

翻译自: https://www.infoworld.com/article/3318263/how-to-use-knime-for-data-science.html

knime 大数据

knime 大数据_如何使用Knime进行数据科学相关推荐

  1. knime 大数据_如何将KNIME用于数据科学

    knime 大数据 . KNIME(K是无声的,因此发音为nīm )是一个高度评价的数据分析平台,具有广泛的适用性,并且与其他产品(例如与数据库,语言,机器学习框架和深度学习框架)进行了许多集成. K ...

  2. 科学价值 社交关系 大数据_服务的价值:数据科学和用户体验研究美好生活

    科学价值 社交关系 大数据 A crucial part of building a product is understanding exactly how it provides your cus ...

  3. 微软大数据_我对Microsoft的数据科学采访

    微软大数据 Microsoft was one of the software companies that come to hire interns at my university for 202 ...

  4. 爬虫goodreads数据_使用Python从Goodreads数据中预测好书

    爬虫goodreads数据 Photo of old books by Ed Robertson on Unsplash 埃德·罗伯森 ( Ed Robertson)的旧书照片,内容为Unsplash ...

  5. python如何读dat数据_如何用Python进行数据质量分析

    概述 数据挖掘的第一步工作是数据准备,而数据准备的第一步就是数据质量分析了.本篇文章着重介绍如何使用Python进行数据质量分析的初步工作,属于比较基础的入门教程. 为什么要进行数据质量分析 根据百度 ...

  6. 分布式从mysql查数据_技术分享 | 从库数据的查找和参数 slave_rows_search_algorithms...

    作者:高鹏 文章末尾有他著作的<深入理解MySQL主从原理 32讲>,深入透彻理解MySQL主从,GTID相关技术知识. 本文节选自<深入理解MySQL主从原理>第24节 注意 ...

  7. retrofit 解析百度地图api 返回数据_新版百度地图建筑数据含高度解析

    注:本文中所述内容仅作为研究用途,不包括任何技术细节,不提供数据爬取.非法攻击的咨询和支持.另:百度建筑轮廓数据中存在明显签名式错误,下载使用容易被追求侵权. 矢量瓦片:爬取百度地图必须要了解矢量瓦片 ...

  8. python爬虫excel数据_最简单的爬数据方法:Excel爬取数据,仅需6步

    原标题:最简单的爬数据方法:Excel爬取数据,仅需6步 在看到这篇文章的时候,大家是不是都还停留在对python爬虫的迷恋中,今天就来教大家怎样使用微软的Excel爬取一个网页的后台数据,注:此方法 ...

  9. python爬取分页数据_爬虫抓取分页数据的简单实现

    昨天,我们已经利用Jsoup技术实现了一个简单的爬虫,原理很简单,主要是要先分析页面,拿到条件,然后就去匹配url,采用dome解析的方式循环抓取我们需要的数据,从而即可轻松实现一个简单的爬虫.那么, ...

最新文章

  1. 创建git项目的feature分支以及下载特定分支的仓库代码
  2. GPIO代码使用流程(伪代码部分示例)
  3. 区块链创业者:谈企业级区块链落地,传统行业的崛起(分享实录)
  4. 【转】ASP.NET AJAX入门系列
  5. python好吗-老男孩学习python好吗?
  6. psfaddtable - 添加一个Unicode字符表到控制台字体中
  7. 12.PDE与PTE
  8. mybatis高级查询,批量新增
  9. 学术谱系树:来看看你导师的师承
  10. springboot07多环境切换
  11. 2017 技术大检阅
  12. 如何打开计算机共享文件,如何打开共享文件 局域网文件共享的图文方法
  13. C盘扩容_解决过程记录
  14. 个人面试问答题知识库(一)百面机器学习篇
  15. 探究MySQL的索引结构选型
  16. stm32f105固件包_STM32F105/107
  17. python智力问答测试,python实现智力问答测试小程序
  18. linux用户名不在sudoers,Ubuntu 用户名 不在 sudoers文件中,此事将被报告。
  19. MYSQL 存储过程的简单使用
  20. iphone功率测试软件,iPhone充电功率检测方法

热门文章

  1. 计算机学的好的人性格,适合“性格内向”的人选择的几大专业,工作稳定,薪资可观!...
  2. C#中的JSON序列化方法
  3. 阿里云CDN的双11再进化
  4. linux drm 架构及linux drm 架构 之代码分析
  5. R语言指数平滑预测法分析南京出租车打车软件空载率时间序列补贴政策可行性...
  6. SPI全双工通信--看懂这篇就够
  7. 学习NodeJS第五天:JavaScript的继承
  8. 1 行代码,实现微信消息发送
  9. 捷图书排行Top 20
  10. 收集一些让我感触的话语