SAS数据挖掘实战篇【五】
SAS数据挖掘实战篇【五】
间为关键属性的关联知识,可以应用到以时间为关键属性的源数据挖掘中。从预测的主要功能上看,主要是对未来
数据的概念分类和趋势输出。统计学中的回归方法等可以通过历史数据直接产生对未来数据预测的连续值。因而这
些预测型知识己经蕴藏在诸如趋势曲线等输出形式中。常见的预测模型主要有逻辑回归、决策树和神经网络。
选出对事件发生概率有影响的因素,并建立用这些因素估计该事件在某段时间内发生概率的回归模型。
信用风险,或者找出这些客户中哪些客户可能是在线的购买者。
属性。每一次对树进行拆分,都要评价所有的输入属性对可预测属性的影响。当这个递归的过程结束时,决策树也
就创建完了。决策树算法与其他的数据挖掘算法相比有一些优势,比如,利用决策树可以快速创建挖掘模型,并且
创建的模型也很容易解释。每一条从根节点到叶节点的路径就是一条规则。基于决策树的预测也非常高效。对事例
进行预测的过程是从根节点落到叶节点的路径,所选择的路径基于决策树中节点的拆分条件。
调整、计算,最后得到结果,是一种通过训练来学习的非线性预测模型。
实称为输入。输入和目标描述观测值的度量方式。输入和目标变量的度量方式是通过不同的度量尺度表示。SAS EM
为构建模型定义如下度量尺度:
建好预测模型,就可以运用该模型来预测那些目标值未知的输入观测值。构建预测模型需要训练数据集,即先前的
输入和目标观测数据集。假设该训练数据集可以用来代表未知的观测值。一个非常简单的预测模型假设所有可能的
输入和目标组合都记录在训练数据集中。一般来说,在真实的训练数据集中,一个特定的输入集合某个范围的目标
区间相对应。由于这种噪声数据存在,预测模型经常根据输入集提供目标变量的期望值。针对定性目标,目标变量
的期望值可以通过每个定性级别的概率来解释。这两种情况都说明任何预测模型在正确性方面的存在限制。
率的变化在W定义的方向上是单调的。由于在整个输入空间比率的变化实在单一的方向,标准的逻辑回
归模型的决策边界是一个超平面。逻辑回归模型的简单结构使它很容易解释。
某个顾客是否会产生购买。输入数据集存放在SAS安装文件的SAMPSIO.DMEXA1中,该数据集包含
1966个顾客观测值信息。它包含31个区间变量输入和18个分类变量输用于构建模型。该逻辑回归模型产
生的打分公式应用在新的数据集中,给那些可能产生购买的顾客发送邮件。
1 创建SAS EM工程
2 添加输入数据源节点
拥有两种值0和1.,0表示NO,1表示YES。默认情况下,目标的顺序值设置为降序。在该实例中,主要判
断顾客是否产生购买(event level = YES)。另外,还可以设置目标变量的目标信息。最后,关闭输入数
据源节点。
3 添加数据划分节点
用来评估回归模型。层次抽样技术保留购买者和非购买者在训练集和验证集中的初时比率。
作为训练集,30%作为验证集,测试为0。针对类型输入变量STATECOD,选择层次抽样方法单选按钮。
4 添加变量转换节点
创建新的分类变量,对age进行分箱处理,划分为4个年龄组。右击age变量,选择transform,选择bucket菜单
右击frequent输入变量,查看分布
从图中可以发现,frequent的倾斜度很大,极值会影响参数的预测。
右击frequent,选择transform,选择方法log,进行转换。再查看导出变量的分布。
5 添加回归模型节点
有缺失值。在实际中,若存在缺失值,可以加入replacement节点,进行处理。在回归模型中不能直接
处理缺失值观测值。
degree为2,点击多项式按钮,产生新的变量recency * recency;然后,选择recency和ntitle,点击cross
,产生新变量recency * ntitle。
关闭回归节点,运行回归模型节点,查看结果。
量。点击柱状图,可以识别相应的参数。柱状图的高度表示参数的重要性,颜色表示效果增加的方向
。红色表示增长的效果,即相应输入的值越大,则贡献越大。反之,则越小。
6 创建模型提升图
7 部署模型
代码可以直接嵌入在sas应用程序中产生预测。C语言形式的必须进过编译。
方式1:创建评价数据集
执行该节点
从而得到预测结果。
方式2:创建打分代码模块
转载于:https://www.cnblogs.com/amengduo/p/9587567.html
SAS数据挖掘实战篇【五】相关推荐
- SAS数据挖掘实战篇【六】
SAS数据挖掘实战篇[六] 6.3 决策树 决策树主要用来描述将数据划分为不同组的规则.第一条规则首先将整个数据集划分为不同大小的 子集,然后将另外的规则应用在子数据集中,数据集不同相应的规则也不同 ...
- Vue实战篇五:实现文件上传
系列文章目录 Vue基础篇一:编写第一个Vue程序 Vue基础篇二:Vue组件的核心概念 Vue基础篇三:Vue的计算属性与侦听器 Vue基础篇四:Vue的生命周期(秒杀案例实战) Vue基础篇五:V ...
- Grid++Report报表工具C/S实战篇(五)
一.课程介绍 本次分享课程属于<C#高级编程实战技能开发宝典课程系列>中的第五部分,阿笨后续会计划将实际项目中的一些比较实用的关于C#高级编程的技巧分享出来给大家进行学习,不断的收集.整理 ...
- python实战篇(五)---百度api实现车型识别
十二年来,有笑泪,有阴晴,相伴一场,人来人往,只是日常.--蔡康永 前言 api全称为应用程序接口,说白了就是别人写好了一个可实现功能的函数接口,我们可以直接调用来实现功能,今天,我们一起来学习,用百 ...
- [知识图谱实战篇] 五.HTML+D3添加鼠标响应事件显示相关节点及边
前面作者讲解了很多知识图谱原理知识,包括知识图谱相关技术.Neo4j绘制关系图谱等,但仍缺少一个系统全面的实例.为了加深自己对知识图谱构建的认识,为后续创建贵州旅游知识图谱打下基础,作者深入学习了张宏 ...
- PHP与SQL注入***(实战篇五)
SQL注入***是******网站最常用的手段.如果你的站点没有使用严格的用户输入检验,那么常容易遭到SQL注入***.SQL注入***通常通过给站点数据库提交不良的数据或查询语句来实现,很可能使数据 ...
- OpenGL学习笔记一之实战篇五 2D游戏(Breakout)之渲染精灵
转载自 https://learnopengl-cn.github.io/06%20In%20Practice/2D-Game/03%20Rendering%20Sprites/ 本节暂未进行完全的重 ...
- Python数据挖掘实战篇:利用KNN进行电影分类
题目 下面数据集中序号1-12为已知的电影分类,分为喜剧片.动作片.爱情片三个种类,使用的特征值分别为搞笑镜头.打斗镜头.拥抱镜头的数量.那么来了一部新电影<万里归途>,它属于上述3个电影 ...
- [知识图谱实战篇] 七.HTML+D3实现关系图谱搜索功能
前面作者讲解了很多知识图谱原理知识,包括知识图谱相关技术.Neo4j绘制关系图谱等,但仍缺少一个系统全面的实例.为了加深自己对知识图谱构建的认识,为后续创建贵州旅游知识图谱打下基础,作者深入学习了张宏 ...
最新文章
- Enterprise Library 2.0 Hands On Lab 翻译(12):安全应用程序块(一)
- Java---- 静态内部类与非静态内部类的区别
- “极致”神话和产品观念_转自“蜗窝科技”
- 数据库常忽略小问题汇总
- 反馈网络信息改善用户体验
- 坐标轴 日期格式_Excel图表技巧之不连续的日期坐标轴怎么显示
- Redis应用场景(转)
- SQL Server – QP的另一个X射线
- java判断字符串是否包含日文
- Android中如何使按钮的背景变得透明
- 腾讯云大数据团队主导Apache社区新一代分布式存储系统Ozone 1.0.0发布
- Linux 系统服务漏洞PwnKit 已存在12年,可获得所有主流发布版本的root 权限
- 计算机网络管理员高级操作技能考核试卷,高级计算机维修工操作技能考核试卷...
- IDEA maven库里 添加自定义jar包
- python常用代码大全-python代码大全
- java编程用什么文本编辑器_编程必备,程序员应该都知道的7款文本编辑器
- 基于禁忌搜索算法的TSP搜索算法
- Gitblit安装遇到的一些问题
- android推送设备id,第三方推送ID配置
- golang简介_Golang简介