《SAS编程与数据挖掘商业案例》学习笔记之十九
继续《SAS编程与数据挖掘商业案例》学习笔记,本文侧重数据处理实践,包括:HASH对象、自定义format、以及功能强大的正则表达式
一:HASH对象
Hash对象又称散列表,是根据关键码值而直接进行访问的数据结构,是根据关键码值而直接进行访问的数据结构,
sas提供了两个类来处理哈希表,用于存储数据的hash和用于遍历的hiter,hash类提供了查找、添加、修改、删除等方法,hiter提供了用于定位和遍历的first、next等方法。
优点:键值的查找是在内存中进行的,有利于提高性能;
hash表可以在数据步运行时,动态的添加更新或删除观测;
hash表中可以很快的定位数据,减少查找次数;
常用方法:
definekey:定义键
Definedata:定义值
definedone:定义完成,可以载入数据
add:添加键值,如在hash表中已存在,则忽略;
replace:如果健在hash表中存在,则替换,如果不存在则添加键值
remove:清除键值对
find:查找健值,如果存在则将值写入对应变量
check:查找键值,如果存在则返回rc=0,不修改当前变量的值;
output:将hash表输出到数据集
clear:清空hash表,但并不删除对象
equal:判断两个hash类是否相等
find方法的示例:
libname chapt12 'f:\data_model\book_data\chapt12';
data results;
if _n_=0 then set chapt12.participants;
if _n_ = 1 then do;
declare hash h(dataset:'chapt12.participants');
h.definekey('name');
h.definedata('gender', 'treatment');
h.definedone();
end;
set chapt12.weight;
if h.find() = 0 then
output;
run;
hiter对象的引例:
data patients;
length patient_id $ 16 discharge 8;
input patient_id discharge:date9.;
datalines;
smith-4123 15mar2004
hagen-2834 23apr2004
smith-2437 15jan2004
flinn-2940 12feb2004
;
data _null_;
if _n_=0 then set patients;
declare hash ht(dataset:"patients",ordered:"ascending");
ht.definekey("patient_id");
ht.definedata("patient_id", "discharge");
ht.definedone();
declare hiter iter("ht");
rc = iter.first();
do while (rc=0);
put patient_id discharge:date9.;
rc = iter.next();
end;
run;
用declare hiter iter("ht");给hash表ht定义了一个遍历器iter,之后调用first方法将遍历器定位到hash表的第一条观测,然后使用next方法遍历hash表中的所有记录并输出。
商业实战-两个数据集的合并:
data both1(drop=rc);
declare hash plan ();
rc = plan.definekey ('plan_id');
rc = plan.definedata ('plan_desc');
rc = plan.definedone ();
do until (eof1) ;
set chapt12.plans end = eof1;
rc = plan.add ();
end;
do until (eof2) ;
set chapt12.members end = eof2;
call missing(plan_desc);
rc = plan.find ();
output;
end;
stop;
run;
上述程序可以简化为:
data both2;
length plan_id $3 plan_desc $20;
if _n_ = 1 then do;
declare hash h(dataset:'chapt12.plans');
h.definekey('plan_id');
h.definedata('plan_desc');
h.definedone();
call missing(plan_desc);
end;
set chapt12.members;
rc=h.find();
run;
二:format
自定义format:
Proc Format;
Value $ Sex_Fmt
'F'='女'
'M'='男'
Other = '未知';
Value Age_Dur
Low-10="10岁以下"
11-13="11-13岁"
14-<15="14-15"
15-High="15岁以上";
Run;
应用:
Data test;
Set sashelp.class(keep=sex age);
x=put(sex,$sex_fmt);y=put(age,age_dur.);
Run;
三:正则表达式:
/.../ 一个正则表达式的起止;
| 数项之间的选择,“或”运算;
() 匹配组,标记一个子表达式的开始和结束位置;
. 除换行符以外的任意字符;
\w 任一单词字符,数字大小写字母以及下划线
\W 任一非单词字符
\s 任一空白字符,包括空格、制表符、换行符、回车符、中文全角空格等;
\S 任一非空白字符,
\d 0-9任一数字
\D 任一非数字字符
[...]
[^...]
[a-z] 从a到z
[^a-z] 不在从a到z范围内的任意字符
^ 匹配输入字符串的开始位置
$ 匹配输入字符串的结尾位置
\b 描述单词的前或后边界
\B 表示非单词边界
* 匹配0次或多次
+ 匹配一次或多次
? 匹配零次或 一次
{n} 匹配n次
{n,} 匹配n次以上
{n,m} 匹配n到m次
常用函数:
Prxparse 定义一个正则表达式
Prxmatch 返回匹配模式的首次匹配位置
Call prxsubstr 返回匹配模式在目标字符串的开始位置和长度
Prxposn 返回正则表达式子表达式对应的匹配模式值
Call prxposn 返回正则表达式子表达式对应的匹配模式和长度
Cal l prxnext 返回匹配模式在目标字符串中的多个匹配位置和长度
Prxchange 替代匹配模式的值
Call prxchange 替代匹配模式的值
eg1:
data _null_;
if _n_ = 1 then pattern_num = rxparse("/cat/");
retain pattern_num;
input string $30.;
position = rxmatch(pattern_num,string);
file print;
put pattern_num= string= position=;
datalines;
there is a cat in this line.
does not match cat
cat in the beginning
at the end, a cat
cat
;
run;
eg2:数据验证
data match_phone;
set chapt12.phone_numbers;
if _n_ = 1 then pattern = prxparse("/\(\d\d\d\) ?\d\d\d-\d{4}/");
retain pattern;
if prxmatch(pattern,phone) gt 0 then output;
run;
找出不匹配的手机号码
data unmatch_phone;
set chapt12.phone_numbers;
where not prxmatch("/\(\d\d\d\) ?\d\d\d-\d{4}/",phone);
run;
Eg3:提取匹配某种模式的字符串
data extract;
if _n_ = 1 then do;
pattern = prxparse("/\(\d\d\d\) ?\d\d\d-\d{4}/");
if missing(pattern) then do;
put "error in compiling regular expression";
stop;
end;
end;
retain pattern;
length number $ 15;
input string $char80.;
call prxsubstr(pattern,string,start,length);
if start gt 0 then do;
number = substr (string,start,length);
number = compress(number," ");
output;
end;
keep number;
datalines;
this line does not have any phone numbers on it
this line does: (123)345-4567 la di la di la
also valid (123) 999-9999
two numbers here (333)444-5555 and (800)123-4567
;
run;
eg4:提取名字
data ReversedNames;
input name & $32.;
datalines;
Jones, Fred
Kavich, Kate
Turley, Ron
Dulix, Yolanda
;
data FirstLastNames;
length first last $ 16;
keep first last;
retain re;
if _N_ = 1 then
re = prxparse('/(\w+), (\w+)/');
set ReversedNames;
if prxmatch(re, name) then
do;
last = prxposn(re, 1, name);
first = prxposn(re, 2, name);
end;
run;
注:1,2分别代表正则表达式中的两个组
eg5:提取符合规定的名字
data old;
input name $60.;
datalines;
Judith S Reaveley
Ralph F. Morgan
Jess Ennis
Carol Echols
Kelly Hansen Huff
Judith
Nick
Jones
;
data new;
length first middle last $ 40;
re1 = prxparse('/(\S+)\s+([^\s]+\s+)?(\S+)/o');
re2 = prxparse('/(\S+)(\s+)([^\s]+\s+)(?)(\S+)/o');
set old;
id1=prxmatch(re1, name);
id2=prxmatch(re2, name);
if id1 then
do;
first = prxposn(re1, 1, name);
middle = prxposn(re1, 2, name);
last = prxposn(re1, 3, name);
end;
if id2 then test=prxposn(re1, 4, name);
put test=;
run;
Eg6:返回匹配模式的多个位置
data _null_;
expressionid = prxparse('/[crb]at/');
text = 'the woods have a bat, cat, and a rat!';
start = 1;
stop = length(text);
call prxnext(expressionid, start, stop, text, position, length);
do while (position > 0);
found = substr(text, position, length);
put found= position= length=;
call prxnext(expressionid, start, stop, text, position, length);
end;
run;
注:首次执行call prxnext返回一个position,然后进入循环,在抽取满足条件的子串中,再次执行all prxnext,此时会返回下一个匹配的position;
Eg7:替换文本
data cat_and_mouse;
input text $char40.;
length new_text $ 80;
if _n_ = 1 then match = prxparse("s/[Cc]at/mouse/");
retain match;
call prxchange(match,-1,text,new_text,len,trunc,num);
if trunc then put "note: new_text was truncated";
datalines;
the Cat in the hat
there are two cat cats in this line
here is no replacement
;
run;
《SAS编程与数据挖掘商业案例》学习笔记之十九相关推荐
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制...
SAS学习笔记之<SAS编程与数据挖掘商业案例>(4)DATA步循环与控制.常用全程语句.输出控制 1. 各种循环与控制 DO组 创建一个执行语句块 DO循环 根据下标变量重复执行DO和E ...
- 《SAS编程与数据挖掘商业案例》学习笔记之十六
<SAS编程与数据挖掘商业案例>学习笔记,本次重点:sas宏变量 内容包括:宏变量.宏函数.宏参数.通配函数.字符函数.计算函数.引用函数.宏语句.宏应用 1.宏触发器: %name-to ...
- 《SAS编程与数据挖掘商业案例》学习笔记之十四
继续<SAS编程与数据挖掘商业案例>学习笔记系列,本次重点:常用全程语句 所谓全程语句,是指可以用在任何地方的sas语句,既可以用在data数据步语句里面,也可以用在proc过程步里面,甚 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(3)变量操作、观测值操作、SAS数据集管理...
SAS学习笔记之<SAS编程与数据挖掘商业案例>(3)变量操作.观测值操作.SAS数据集管理 1. SAS变量操作的常用语句 ASSIGNMENT 创建或修改变量 SUM 累加变量或表达式 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作
SAS学习笔记之<SAS编程与数据挖掘商业案例>(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(3)变量操作、观测值操作、SAS数据集管理
SAS学习笔记之<SAS编程与数据挖掘商业案例>(3)变量操作.观测值操作.SAS数据集管理 1. SAS变量操作的常用语句 ASSIGNMENT 创建或修改变量 SUM 累加变量或表达式 ...
- 《SAS编程与数据挖掘商业案例》学习笔记之十五
继续<SAS编程与数据挖掘商业案例>读书笔记,本次重点:输出控制 主要内容包含:log窗体输出控制.output窗体输出控制.ods输出控制 1.log窗体输出控制 将日志输出到外部文件 ...
- 《SAS编程与数据挖掘商业案例》学习笔记之十八
接着以前的<SAS编程与数据挖掘商业案例>,之前全是sas的基础知识,现在开始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明. 一:数据挖 ...
- 《SAS编程与数据挖掘商业案例》学习笔记之十七
继续读书笔记,本次重点sas sql语句,因为sql内容多且复杂,本文仅仅介绍商业应用中经常使用的而且easy出错的地方,内容包含:单表操作.多表关联.子查询以及merge和join的差别 1.单表操 ...
最新文章
- 技术总监的反思录:我是如何失去团队掌控的?
- 全网首译 : 初学者终极指南—掌握Scrum敏捷框架—第1章
- UFLDL深度学习笔记 (三)无监督特征学习
- java 读取properties文件
- 您应该保持联系的十大高级Java对话
- C 语言 运算符怎么使用,详解C++编程中运算符的使用
- 软件发布版本命名规则
- HDU1262 寻找素数对【素数】
- jQuery表单插件ajaxForm,ajaxSubmit使用详解
- mysql iostat_iostat命令详解_MySQL
- 【Git版本控制管理】Git入门介绍及Git的安装
- 网络计算机无法访问 没有权限,教您无法访问您可能没有权限使用网络资源怎么解决...
- 3GPP协议R15完整版下载
- MSP430F149单片机-IAP升级
- 经营好你的人际关系网
- 互联网日报 | 3月5日 星期五 | 抖音成为2020欧洲杯官方合作伙伴;携程GMV连续三年全球旅企第一;华为发布好望云服务...
- linux嵌入式红绿灯,嵌入式上机课设(红绿灯)..doc
- 各阶段产品经理突破自身瓶颈总结(建议收藏)
- 【免费】微软Surface Go出厂镜像百度网盘链接
- oracle的几个服务含义,oracle 的几个服务
热门文章
- .NET Conf 2019 今天在上海开幕,图片直播地址
- 从壹开始学习 NetCore 新篇章 ║ Blog.Core 开发社之招募计划书
- 技术达人“创造营”官宣:Microsoft Learn 学习平台C位出道
- Kubernetes初探[1]:部署你的第一个ASP.NET Core应用到k8s集群
- ABP 框架 数据库底层迁移 Mysql 集群
- .NET Core实战项目之CMS 第八章 设计篇-内容管理极简设计全过程
- .NET Core 必备安全措施
- jenkins~集群分发功能的具体实现
- jenkins~集群分发功能和职责处理
- ASP.NET Core之跨平台的实时性能监控(2.健康检查)