IBM 数据挖掘分析平台IBM SPSS Modeler在市场上一直占据领导者地位,其专业性及易用性一直受到广大用户的喜爱,该平台也不负众望,我们的研发团队一直致力于不断的技术更新及功能的提升,最新版本IBM SPSS Modeler 18.1于2017-6-20正式发布,该版本又给我们带来了哪些新的功能及技术要点,我们将在本文做介绍,需要更进一步了解的,可以随时与我们联系。

首先,该版本从3个大的方面做了增强,分别是:

接下来一一为大家做介绍:

一、进一步增强和扩展与开源技术的集成

从IBM SPSS Modeler 16.0版本开始,就已经开始与开源平台R与Python的集成,在最新版本中,集成力度增强。

1.新增Python编写的功能节点

在该版本,最受关注的一个功能就是在IBM SPSS Modeler下方的面板中,新增了Python面板,并新增加了4个Python编写的节点功能,包括【SMOTE】、【XGBoost Liner】、【XGBoost树】以及【一类SVM】,如下图:

接下来我们简单介绍下这几个节点的功能:

  • SMOTE

在数据分析过程中,经常会遇到数据集不平衡的问题,不平衡数据集指的是数据集内各类样本点数目相差较大的数据集,比如做设备故障预测的时候,出现故障的设备可能只有1%,而99%的设备是正常的,这时候,数据的不平衡,如果不加以处理,会造成模型无法生成或者模型效果很差,SMOTE就是解决数据不平衡问题的高级技术,SMOTE全称是 SyntheticMinority Over-sampling Technique, 在IBM SPSS Modeler中,有【平衡】节点可以处理数据不平衡的问题,但只是简单的对数据集进行复制或删减,有时候效果并不好,而SMOTE对不平衡数据集进行预处理,通过利用已有样本以及其近邻,合成新样本数据对少数类进行“过采样”,效果要更好一些,并且该节点还提供SMOTE算法的提升算法,包括Borderline1-SMOTE和Borderline2-SMOTE,可最大限度解决数据不平衡的问题。

  • XGBoost树和XGBoost Linear

XGBoost是使用梯度提升框架实现的高效、灵活、可移植的机器学习库,全称是eXtreme Gradient Boosting,在很多数据分析竞赛中(比如Kaggle),该算法都被实践证明是表现很好的算法,因此在实际应用中,推荐大家尝试使用。

在IBM SPSS Modeler 18.1版本中,集成了XGBoost Tree和XGBoost Linear两个算法,XGBoost Tree是将树模型用作基本模型的梯度提升算法的高级实现。提升算法以迭代方式学习弱分类器,然后将它们添加到最终的强分类器中。XGBoost Tree 具有很高的灵活性,并提供了很多参数调整。

XGBoost Linear是将线性模型用作基本模型的梯度提升算法的高级实现。提升算法以迭代方式学习弱分类器,然后将它们添加到最终的强分类器中。

  • 一类SVM

一类 SVM 节点使用无监督学习算法,此节点可用于新内容检测,它将检测指定样本集的软边界,以便按是否属于该集合对新点进行分类。

这几个算法都是由Python语言编写,因此在该版本中,IBM SPSS Modeler已经集成了Python 2.7环境,用户不需要再去安装Python环境以及IBM SPSS Modeler与Python 的集成插件,即可直接运行Python算法。

2.新增直接运行R或Python的功能节点

在该新版本中,可直接使用R或Python for Spark构建【扩展导入】、【扩展转换】、【扩展输出】和【扩展导出】的功能节点,如下图:

比如在源节点中的【扩展导入】,用户可以自由选择使用R或Python for Spark语法实现,如果使用R,可以是任何版本的R(官方建议使用R 3.3.3),而不像之前的18.0版本一样,要求必须是3.2.2,而如果是Python语法,因为已经集成了Python 2.7版本,所以用户直接用就可以了,需要注意的是Python 2与Python 3某些语法的差别。

3.IBM SPSS Modeler 18.1已集成了Spark 2.0

当前版本已经集成了Spark 2.0,可直接利用其技术优势加速计算运行效率。

二、与其它服务的集成

1.与优化引擎ILOG CPLEX的集成

  • CPLEX优化

在该版本中,新增了【CPLEX优化】节点,可以通过优化编程语言(OPL)模型文件来使用基于优化的复杂计算,来实现优化分析场景。

2.轻松导入天气数据

  • TWC导入

天气情况的变化越来越大程度影响着人们的行为习惯,因此天气数据的重要性也越来越为人们所重视,在最新版本中,新增了TWC导入(The Weather Company)节点,这也是在IBM收购了该公司之后,将其数据资产应用于IBM SPSS Modeler分析平台中来的一次全新尝试。

在该节点中,您可以自由输入需要的地理位置信息(经纬度)以及时间信息(开始日期与结束日期),即可获取该时空的天气数据,包括有:latitude(纬度)、longitude(经度)、time(时间)、day_ind(指示夜间或白天)、temp(温度)、dewpt(露点)、rh(相对湿度)、heat_index(热指数)、wc(风向)、wx_phrase(多云、少云等)、pressure(气压)、clds(云)、vis(能见度)、wspd(风速)、gust(阵风/雨)、wdir(风寒指数)、uv_index(紫外线指数)等。

当然,天气数据作为数据资产,不是免费使用,是需要购买许可证密钥的。

3.支持更多的数据源/Hadoop分布式文件系统

新版本新增更多的数据源连接,包括如下:

·Apache Hive 1.2.1 including SQLoptimization

·Cloudera Impala

·Hortonworks HDP 2.5 datathrough BigSQL

·IBM Biginsights for ApacheHadoop

·MapR

·Huawei Fusion Insight on RedHat 7

·Non-wire driver for Oracle andOracle ODBC drivers are now supported

·PostgreSQL

·HP Vertica now supports SQLoptimization

三、激发分析潜能

1.文本分析功能的增强

IBM SPSS Modeler提供的文本分析可以连接不同数据源,如下图,主要包括文件、网页、文本等。

提供的文本分析功能支持多种语言,包括英语、荷兰语、法语、德语、意大利语、葡萄牙语、西班牙语等,除了提供基本语言包之外,还提供针对不同语言,多种应用场景的词库包,可满足不同应用场景的文本分析,比如客户关系管理、满意度分析、品牌管理、客户关怀、欺诈分析等,客户只需要在原来的词库基础上,做些简单的调整修改即可直接使用。

  • 语言

新版本中,增加了【语言】节点,可针对文本中存在多种语言的语言识别及分析。

2.增强 Hadoop分布式系统上运行的算法性能

主要包括几个方面的性能提升:

1.优化了AS Spark Cache的管理:在一个Job中尽可能的重用了缓存的数据,并且在不再需要时继续清除cache;

2.支持使用Spark的资源动态分配机制:允许AS在需要时申请更多的资源,使用完毕后及时释放;

3.优化了AS的内部执行流程,尽量的降低磁盘和网络传输的IO操作;

4.在Hive宽表或者Hive Metastore非常庞大的情况下,改善了在AS管理页面上创建HCatalog类型的数据源时的性能。

3.自动保存功能

为了防止由于突然宕机造成的文件未保存的情况,默认情况下,系统自动5分钟保存一次,可以工具-->选项-->系统选项中更改。

4.灵活的功能节点模式设置

为了更好地区分哪些功能节点运行于Hadoop分布式文件系统上,哪些运行于传统关系型数据库或文本文件上,用户可以在工具-->选项-->用户选项的【方式】面板中,选择【传统模式】或者是【Analytic Server方式】,如果是前者,则所有功能节点都显示出来,如果选择的是后者,则只显示能够在Hadoop平台上运行的功能节点,这样可以避免在使用Hadoop数据源时候,搞不清楚哪些节点能够运行,哪些节点不能够运行的情况出现。

5.增强某些节点的功能

比如:

【转置】节点增加了转置方法选项,可以更灵活地处理数据。

【时间序列】节点增加了算法选项

以上就是IBM SPSS Modeler 18.1最新版本的功能介绍,感兴趣的朋友,可点击下方的链接在我们的官网上下载最新试用版。

最新试用版下载:https://www.evget.com/product/3729/download

IBM SPSS Modeler 18.1最新版本正式发布 | 附下载相关推荐

  1. 解决SPSS Modeler 18 过期

    SPSS Modeler 18 如果已经过期,破解就没法用了.破解程序只能在IBM SPSS Modeler 没有结束试用其实才可以起作用. 附上,试用过期后,重新试用的方法: 在临时许可过期之后, ...

  2. SPSS Modeler 18.0 新功能权威解读(文末附下载地址)

    在今年,IBM SPSS Modeler发布了新版本18.0,那么在这次新版本的更新中,我们可以看到更新的幅度还是比较大的.接下来,浩彬老撕将给大家介绍18.0版本中一些新的功能,同时也将为大家详细介 ...

  3. php 集成 spss,〖SPSS Modeler〗 IBM SPSS Modeler 整合不同数据库之间的数据

    来自IBM DEVELOPERWORKS 简介 由于目前企业客户的业务量和数据量都在不断的提高,随着企业的发展,很多企业的数据存储都不局限于同一个数据库上,如果要对这些存储在不同数据库上的数据进行处理 ...

  4. IBM SPSS Modeler 14.1下载安装及注册详细教程

    下载IBM SPSS Modeler 14.1软件,包含IBM SPSS Modeler14.1 32位及IBM SPSS Modeler 14.1 64位版本及注册文件(破解补丁lservrc,32 ...

  5. IBM SPSS Modeler 【2】 两步聚类

    IBM SPSS Modeler 实验 1.2."两步"聚类分析实验 接下来,继续进行"两步聚类分析模型"的实验. (1)          SPSS Mode ...

  6. 《IBM SPSS Modeler数据与文本挖掘实战》之常用数据挖掘软件

    根据数据挖掘软件的开发目的和用途,一般可以分为专业型和通用型两种.专业型数据挖掘软件一般是针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑到数据的规模.类型以及研究者的需求等特点,并作了优 ...

  7. 非常值得收藏的 IBM SPSS Modeler 算法简介

    IBM SPSS Modeler以图形化的界面.简单的拖拽方式来快速构建数据挖掘分析模型著称,它提供了完整的统计挖掘功能,包括来自于统计学.机器学习.人工智能等方面的分析算法和数据模型,包括如关联.分 ...

  8. 《IBM SPSS Modeler数据与文本挖掘实战》之文本挖掘算法

    随着文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.现代文本分类和聚类领域面临巨大的挑战,而且随着学者研究的不断深入,其中的一些深层次问题也逐渐暴露出来,一些问题也已经成为本学科进一 ...

  9. IBM SPSS Modeler使用技巧 ----参数及全局变量的使用

    在使用IBM SPSS Modeler过程中,有一些小技巧可能容易被大家忽略,而它们却是可以帮助我们更加高效.方便地实现我们需要的功能,今天给大家介绍参数及全局变量的使用. 什么时候需要用到参数? 在 ...

最新文章

  1. java表单 mysql 乱码_java web当中表单提交到后台出现乱码的解决方法
  2. JavaScript 输出
  3. spark官方文档_Apache Spark 文档传送门
  4. 使用DispatchAction类,为你的系统减肥!
  5. java paysign_微信支付签名算法java版本-其他地方都可通用
  6. LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结
  7. 网络协议之:加密传输中的NPN和ALPN
  8. 1. ansible-playbook 变量定义与引用
  9. 25 The Go image/draw package go图片/描绘包:图片/描绘包的基本原理
  10. STL 标准容器的选择
  11. java js加密_JS加密解密
  12. 传统蓝牙协议栈 串口协议SPP(Serial Port Profile)概念介绍
  13. Navicat导入mdf文件(用导入向导)
  14. (八) 项目干系人管理
  15. 计算机的任务管理器不显示不出来,开机后桌面不显示图标,也调不出任务
  16. 数字化转型,有你有我
  17. 网络数据包发送工具PacketSender中文源码
  18. 面试前夕,我建议你还是先来看看阿里和京东面试都问些啥?
  19. SCons教程 (2) SConstruct 文件介绍
  20. C++ 类Pimpl手法

热门文章

  1. IT公司的妇女节都怎么过的
  2. 基于51单片机pwm调光护眼台灯智能检测光强光控灯设计proteus仿真原理图PCB
  3. 超神学院中基因计算机原理,超神学院里的神级选择系统
  4. 51单片机K型热电偶温度采集及控制温控模块MAX6675热电偶LCD1602
  5. Pytorch损失函数篇
  6. 【项目管理】单片机设计比赛WBS组织结构图
  7. nullptr和NULL分别是什么?
  8. Adobe XD 操作
  9. 亚马逊自养号测评Listing优化原则
  10. PyQt5随笔:给PyQt5 界面添加右键菜单