原文链接:http://tecdat.cn/?p=7886

去年,我与一家公司进行了短暂的咨询工作,该公司正在构建一个主要由基于Web的数据存储库驱动的分析应用程序。数据存储为SAS数据集的集合,“客户”可以通过上载SAS数据步骤和proc SQL脚本来将其作为子集。生成的数据随后可供下载。我的职责是指导团队使用SAS应对数据管理和分析挑战。

在安装和配置WPS之后,我的任务是开发解决方案,以解决我们早期面临的性能挑战。

针对此挑战的替代设计涉及WPS的proc R,其中可以利用将SAS数据集导出/导入到R数据帧以及从SAS / WPS脚本执行R代码的功能。进入R世界之后,识别稀疏列并创建一个删除这些列的新数据框的任务很简单。

首先包含/运行SAS autoexec文件。

接下来定义一个简单的SAS宏“函数”,该函数将数据集名称作为参数并打印行和列的#。在测试SAS数据集上调用它。

将测试SAS数据集导出到R数据帧,确定哪些列为60%或更高notnull,将这些列组装到新数据帧中,然后将该数据帧导入SAS。注意注释的语句除了空值外还标识空白。264列中只有33列达到60%阈值。该单元的执行非常迅速。

接下来,将SAS数据集导出到Python pandas,然后部署Python函数以确定每列中的%notnull并创建一个新的pandas数据框,其中只有%notnull超过.6的列。经过Python处理后,将pandas数据框导入SAS。与R一样 。这个单元比上一个单元耗费了一个数量级的时间。

尽管SAS仍然是一个主要的分析平台,并且不会很快消失,但它已为R和Python的分析工作所取代。对于SAS / WPS程序员而言,Python和R proc是Base SAS的非常有用的附件。确实,商业和开放源代码的竞争数据科学生态系统之间的互操作性将继续提高-这对数据科学世界来说无非是一件好事。目前,WPS的proc R比proc Python快很多,因此是协作SAS工作的选择。希望proc Python将很快成为高性能,使SAS数据程序员能够平等地访问前两个DS平台。

拓端tecdat|SAS,R和Python应对数据管理和分析挑战相关推荐

  1. 拓端tecdat荣获掘金社区入驻新人奖

    2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...

  2. 拓端tecdat荣获2022年度51CTO博主之星

    相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...

  3. Sas R和Python的比较 | 数据分析的工具选择

    过去几年,数据分析界被R弄得神魂颠倒,但R的风潮尚未过去,Python又兴起了,并有愈演愈烈之势.而传统的数据分析工具,老牌的SAS和SPSS依然还占据市场,那我们究竟该如何选择数据分析工具呢? SA ...

  4. 拓端tecdat|bilibili视频流量数据潜望镜

    最近我们被客户要求撰写关于bilibili视频流量的研究报告,包括一些图形和统计输出. 最新研究表明,中国有超过7亿人在观看在线视频内容.Bilibili,被称为哔哩哔哩或简称为B站,是中国大陆第二个 ...

  5. 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测

    最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...

  6. 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系

    最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...

  7. 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例

    最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...

  8. 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险

    最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...

  9. 对python生态系统的认识_SAS,R与Python的区别详细对比

    本文概述 在本主题中, 我们将比较这三种语言的各个方面, 以使你对这些语言的市场价值和功能有清晰的认识, 以便你可以选择可以向前发展的语言. 众所周知, 要学习数据分析, 可以使用三种重要的语言, 分 ...

  10. python复杂网络点图可视化_数据分析:R与Python怎么选?

    作者介绍 知春里@伟仔 不知名数据科学家. 持续写<数据分析>和<数据产品>的系列文章,欢迎关注. 01 选R还是Python? "球鞋是买阿迪还是买耐克?" ...

最新文章

  1. Programming C# 学习笔记(二) 出发:“Hello World”
  2. 关于浏览器和浏览器内核的解释
  3. mysql case break_按月转移日志表中日志时,mysql总是报‘MySQL server has gone away’这样的错!...
  4. Java中利用socket实现简单的服务端与客户端的通信(入门级)
  5. Codeforces Round #582 (Div. 3)
  6. java中去掉Sprit(arg0)中正则表达式干扰
  7. maven向本地仓库导入jar包
  8. 如何监测mysql主从复制状态_如何实时检测mysql主从状态,并做邮件告警?
  9. 程序员初学者参考 ---懂得基础语法后如何做一个自己的case?
  10. python 遍历数组gbk编码_python bytes和bytearray、编码和解码
  11. php文件流播放拖动,自定义实现可以播放暂停、进度拖拽、音量控制及全屏的H5播放器...
  12. JAVA Runtime.addShutdownHook()方法{拿到线程句柄,在程序关闭之前调用释放资源}
  13. WiFi过敏?没准是心病
  14. U3D手游《苍穹变》性能优化经验谈
  15. Android notes
  16. 记一次Linux服务器 误删数据的恢复操作
  17. 清除“全能车”这颗“毒瘤”,共享单车再出发
  18. 洞口四中2021高考成绩查询,常德高考成绩查询入口2021
  19. 成熟男人的修炼-国王、祭祀、诗人、武士
  20. 设文件索引结点中有7个地址项

热门文章

  1. 如何在solarwinds中自定义 OID
  2. Remoting Generic Async Queue (Release 2) override InitializeLifetimeService return null
  3. PHP下简单交换两个变量
  4. 自适应输出表格(ASP版)
  5. Crush Crouse 心理学笔记
  6. 模拟退火算法之旅行商(TSP)问题matlab实现
  7. SpringMVC类型转换、数据绑定详解
  8. Swift 个人学习笔记 - 01: A Swift Tour
  9. 格式化一个文件的大小(size),或者说是格式化一个app的大小(size)
  10. Swift - 29 - 参数的默认值