基本概念

SAS Viya中包含的Model Studio是一个集成的可视化环境,它提供了一套分析数据挖掘工具,以促进端到端的数据挖掘分析。Model Studio中支持的数据挖掘工具旨在利用SAS Viya编程和云处理环境来交付和分发冠军模型、打分代码和结果。

Model Studio提供的功能视图如下所示:

在Model Studio中创建的模型的应用如下所示:

Model Studio包括如下三个SAS解决方案:

  • SAS Visual Forecasting
  • SAS Visual Data Mining and Machine Learning
  • SAS Visual Text Analytics

相关文档:http://documentation.sas.com/?cdcId=capcdc&cdcVersion=8.3&docsetId=capov&docsetTarget=titlepage.htm&locale=zh-CN

在XXX SAS环境中仅提供了SAS Visual Data Mining and Machine Learning。

模型构建

在Model Studio中,由节点组成管道,管道类似于工作流,可以将数据和节点组成有序的执行逻辑。一个管道中可以包括多个模型,可以在一个管道内的模型中选出冠军模型,也可以在不同管道的所有模型之间进行比较,选出冠军模型。

如下所示即为一个管道,其有数据和节点组成。

1 数据

在一个项目中只能使用一个数据表,且“数据”节点是必需的节点,它是任何管道的起点。它提供给管道有关项目数据源的信息以及有关变量的元数据。

被引用的数据会自动添加到管道中。数据可以替换。

用户必须为数据中的各个列指定角色,可使用的角色如下所示:

序号

角色名称

1

残差

2

分段

3

分类

4

分区

5

过滤器

6

7

目标

8

偏移值

9

评估

10

时间ID

11

输入

12

已拒绝

13

预测

14

ID

2节点

类似于的分析模块,在SAS Visual Data Mining and Machine Learning类项目下,可以使用如下所示的节点:

类型

节点

说明

数据挖掘预处理

变量聚类

执行变量聚类以减少输入数。

变量选择

在选择变量时执行无监督方法和一些有监督方法以减少输入数。

补缺

使用指定方法为分类和区间型输入的缺失值补缺。

管理变量

修改变量的元数据。

过滤

根据指定准则从分析中排除观测。

聚类

执行基于观测的聚类以对数据分段。

特征提取

基于PCA、稳健PCA、SVD或自动编码器生成用作输入的特征。PCA、SVD和PRCA仅使用区间型输入。

替换

用指定值替换诸如离群值等数据值和未知分类水平的值。

文本挖掘

解析并执行主题发现以准备用于建模的文本数据。

异常检测

使用支持向量数据描述算法识别和排除异常值(观测)。

转换

对输入变量应用数值型转换或分箱转换。

有监督学习

分位数回归

为区间型目标拟合分位数回归模型。

(系统会自动在模型类算子后添加模型比较算子)

决策树

为分类目标拟合分类树或为区间型目标集合回归树。

决策树_1

为区间型目标拟合分位数回归模型。

批处理代码

运行SAS批处理代码。

评分代码导入

导入SAS评分代码。

森林

拟合森林模型,其中包含多个基于不同数据样本和不同输入子集的决策树。

神经网络

拟合全互连神经网络模型。

梯度提升

拟合梯度提升模型,用于生成一系列连续的决策树。

线性回归

为区间型目标拟合普通最小二乘回归模型。

Bayesian网络

为分类目标拟合Bayesian网络模型。

GLM

为具有指定目标分别和管理函数的区间型目标拟合广义线性模型。

Logistics回归

为二值型或列名型目标拟合Logistics回归模型。

SVM

采用内点优化方法为二值型目标拟合支持向量机。

后处理

集成

通过使用来自多个模型的后验概率(对于分类目标)或预测值(对于区间型目标)函数创建新模型。

杂项

保存数据

将由管道中的节点导出的数据保存到CAS逻辑库。

开放源代码

运行Python或R代码。该代码不在CAS中执行,会创建并下载数据样本(默认10,000个观测)已避免移动大量数据。

数据探索

显示数据表中变量的汇总统计量和图。该节点选择变量子集来创建数据具有代表性的快照。可以选择变量来显示最重要的输入或指出具有异常统计量的“可疑变量”

SAS代码

运行SAS代码。允许将SAS代码合并到Model Studio管道。

3管道

Model Studio项目可以包括一个或多个管道,而一个管道由一个数据集和多个节点组成。

一个管道中可以包括多个机器学习节点,从而通过一个管道即可训练得到多个机器学习模型。

Model Studio提供了管道模板。

4管道比较

管道比较可以在不同管道的模型之间进行比较,从而选出冠军模型。只有运行完的管道才可以参与比较。

在管道比较页面,除可以查看参与比较的模型外,也可以查看冠军模型的多项统计指标。

5注册模型

在管道中训练得到的模型需要“注册”后才可以被管理,即模型注册后,可以在“模型管理器”中管理模型。模型管理器是进行存储和管理模型的公共仓库,它可以用于模型治理和模型修改控制。

注册操作不需要配置,仅是一个“动作”。

6发布模型

模型发布后才可以在各种运行时引擎中执行。模型发布时需要指定发布目标,发布目标包括三种类型:CAS、Hadoop以及Teradata,发布目标需要先配置再使用(可以在SAS® Environment Manager中创建发布目标,可以参考http://documentation.sas.com/?docsetId=calpubdest&docsetTarget=p02scrqf37kexwn1gi60khpshifz.htm&docsetVersion=3.4&locale=zh-CN&showBanner=walkup)。

7下载评分API

在Model Studio中可以下载模型的评分API,如下所示

类型

下载文件类型

Python

.py

REST

.txt

SAS

.sas

并且在下载界面提供了各类型API的示例

8下载评分代码

下载的评分代码为包含.sas程序的zip压缩包。评分代码包含了监督学习节点以及其前面的数据挖掘预处理节点。

下载得到的模型可以在Model Manager中进行导入。

在Model Manager中进行模型的评分、发布测试必须要有评分代码。

9评分预留数据

使用训练得到的模型对预留数据进行评分。

SAS® Model Studio功能调研相关推荐

  1. SAS® Model Manager功能调研

    基本概念 使用SAS Model Manager,可以将模型存储在公共模型存储库中,并在项目和文件夹中组织它们.还可以评估模型以选择冠军模型,监控模型的性能以及发布模型. Model Manager提 ...

  2. Chrome for Android AutoComplete地址栏地址自动补全功能调研和更新

    Chrome地址栏地址自动补全功能调研和更新 我的博客对应文章地址 Chrome地址栏地址自动补全功能预览 补全前提: 1. 使用Gboard输入法 2. Gboard输入法打开了[文字更正]功能里面 ...

  3. 需求分析 应该先写业务还是功能_产品经理必知:产品调研中功能调研的标准“姿势”...

    编辑导语:产品调研是产品经理最熟悉不过的工作内容了,产品调研包括很多内容,其中之一就是功能调研了.本篇文章种,作者为我们分析了为什么要做产品调研以及产品调研和功能调研的区别,最后通过实战案例为我们总结 ...

  4. Nginx-RTMP功能调研

    Nginx-RTMP功能调研 1. RTMP协议介绍...2 2.RTMP server.3 2.1当前的流媒体server.3 2.2Wowza功能...3 3.Nginx-based RTMP s ...

  5. 会议终端Mini-MCU功能调研

    Mini-MCU功能调研 前言: ​ 要实现终端设备的MCU功能,先要搞清楚什么是MCU?什么又是Mini-MCU?普通MCU和Mini-MCU在功能上有什么区别?搞清楚这几个问题,基本对Mini-M ...

  6. Android实现录屏直播(二)需求才是硬道理之产品功能调研

    请尊重分享成果,转载请注明出处,本文来自Coder包子哥,原文链接:http://blog.csdn.net/zxccxzzxz/article/details/54254244 Android实现录 ...

  7. hdwiki下model目录功能

    model 目录 actions.class.php(站内地图相关) getHTML:获得页面菜单和相关信息 getMap:生成站内地图 adv.class.php 对wiki_advertiseme ...

  8. 【CarMaker学习笔记】Model Check 功能介绍

    功能介绍 本节介绍了Model Check的使用方法和模块的含义 这个Model Check,不是我们形式化方向所说的Model Check.我们平时说的Model Check,是验证在一定的约束下, ...

  9. 微软Build 2018展示Visual Studio功能:跨系统云编程

    5 月 8 日凌晨消息,微软 Build 2018 开发者大会在今天正式来开帷幕.很明显整场发布会被分为了上下两个部分,上半场如果说是聊一些技术实现和愿景,那下半场就应该说是实战说明了. 跨平台云端编 ...

最新文章

  1. python英语-50 行代码,实现中英文翻译
  2. aspen怎么做灵敏度分析_数据分析终极难题:数据分析怎么做才能驱动业务?
  3. 系统输入输入出设计相关知识介绍
  4. 高并发负载均衡——网络协议原理
  5. linux之netstat与lsof
  6. 事务四大特性及隔离级别
  7. android百度地图地址解析失败怎么办,【百度地图API】当地址解析失败时,如何调用search方法查找地址...
  8. new 操作符干了什么?
  9. 有关java中的集合List,set,Map 等
  10. apache rewrite支持post数据
  11. 软件测试之测试用例和缺陷报告模板分享
  12. Java实现Excel转PDF的两种方法总结
  13. 如何申请免费163邮箱?如何申请163邮箱账号?
  14. 一看就会的高效Discuz初始化入门安装方法
  15. APK文件如何查看源代码
  16. 浏览器拉起APP(深度链接)——scheme方法
  17. C++——TCP和UDP头部结构(下)
  18. Python搭建一个系统信息实时监控数据可视化大屏
  19. c语言查找源字节是否含有子字节,36 R语言的文本处理 | R语言教程
  20. 腾讯和58同城“闪婚”有啥秘密?

热门文章

  1. 【实例解析】大型服装集团BI决策系统的分析主题模块
  2. FineReport层式报表解决大数据集展示问题攻略
  3. 帆软报表重要Activator之DesignerStartup中的GlobalListenerProvider扩展开发
  4. go 自定义error怎么判断是否相等_「GCTT 出品」Go 系列教程——30. 错误处理
  5. mysql workbench中文设置 mac系统,win系统,linux系统
  6. python3多线程编程_Python3 多线程编程
  7. sweetalert2不相应回车_你还不知道的SketchUp建模小技能
  8. plantuml 方法图_plantuml画流程图
  9. 【题解】(排序) —— POJ 0810:距离排序
  10. 根据线性递推的DP公式如何写出变换矩阵